模型革新:DragNUWA - 多模态视频生成新纪元
随着ChatGPT、GPT-4和LLaMa等先进模型的涌现,生成式AI模型的领域正迅速演进,特别是文本和图像生成技术已相对成熟,而视频、语音等多元模态的AI生成仍面临诸多挑战。现有视频生成工作主要集中在基于文本、图像或轨迹的控制,但这些方法通常无法实现视频的精细操控,尤其是在处理复杂场景和动态轨迹时。
引入DragNUWA:多维度视频控制新方案
面对这一难题,来自中国科学技术大学、微软亚研和北京大学的研究团队提出了一种创新的视频生成模型——DragNUWA。该模型从语义、空间和时间三个维度实现了对视频内容的精细控制,显著提高了视频生成的灵活性和多样性。共同作者包括殷晟明、吴晨飞,通讯作者段楠。
拖动控制,生成连贯视频
DragNUWA通过拖动(drag)方式赋予用户对视频内容的直观控制权。用户只需指定一个运动轨迹,DragNUWA就能让图像中的对象按照该轨迹移动,从而生成流畅连贯的视频。例如,从一张静态的两个滑板小男孩的图片出发,通过八种不同的拖拽轨迹,DragNUWA便能生成一系列滑滑板的动态视频。
动态视角变换
不仅如此,DragNUWA还能“操控”静态景物图像的相机位置和角度,实现镜头的上下左右移动、放大或缩小,进一步丰富视频的表现力。
方法概览:全面的控制体系
DragNUWA整合了文本、图像和轨迹三种控制手段,旨在全方位提升视频生成的控制精度。研究认为,这三种控制方式相辅相成,分别针对视频的语义、空间和时间特性,形成互补优势:
- 文本:提供语义指导,定义视频的主题和情境。
- 图像:描绘视觉内容,作为生成的基础素材。
- 轨迹:指引动作路径,实现精确的动态控制。
轨迹控制的关键技术
为解决现有研究中轨迹控制的局限性,DragNUWA采用了三项核心策略:
- 轨迹采样器(Trajectory Sampler,TS):直接从开放域视频中采样轨迹,实现任意轨迹的控制。
- 多尺度融合(Multiscale Fusion,MF):将轨迹信息下采样至不同尺度,与UNet架构的深度集成,以控制不同粒度的轨迹细节。
- 自适应训练(Adaptive Training,AT):以密集流为初始条件,稳定视频生成过程,随后在稀疏轨迹上进行训练,确保生成的视频既稳定又连贯。
实验验证与成果
研究团队通过大规模实验验证了DragNUWA的效能,结果显示其在细粒度视频合成方面的出色表现。实验不仅证实了轨迹控制的有效性,还展示了模型在复杂运动模拟方面的精确能力。实验结果显示,尽管模型未专门设计用于相机运动控制,但它从轨迹中学习到的多种相机运动,使得用户能够通过拖动来灵活控制镜头的移动和缩放。
总结与展望
DragNUWA的推出标志着视频生成技术的一大进步,通过引入拖动控制和全面的多模态控制体系,极大地扩展了视频生成的创意边界。随着研究的深入和技术的迭代,DragNUWA有望在未来为内容创作、虚拟现实、教育娱乐等领域带来革命性的变化。
作者简介
共一作者:
- 殷晟明:中国科学技术大学博士生一年级,专注于多模态理解和生成领域。
通讯作者:
- 段楠:微软亚洲研究院资深首席研究员,自然语言计算团队研究经理。段楠博士在自然语言处理、多模态基础模型、代码智能、机器推理等方面拥有丰富的研究经验,多次担任学术会议的程序主席和领域主席。他同时也是中国计算机协会的杰出会员,中国智能计算科技创新人物之一。