导览:新智元最新报道,润与好困共同策划。【新智元解析】来自奥斯汀大学等机构的科研团队,成功研发出StreamingT2V技术,这一技术打破了人工智能生成视频的时长限制,实现了近乎无限的视频长度扩展,同时保证了视频内容的连贯性和动作表现的卓越性。
自从Sora技术的诞生,文生视频的长度标准被刷新至前所未有的高度。在视频生成领域,从Pika和Runway的短小精悍的4秒视频,到VideoPoet理论上可能的无限长度探索,多个研究团队正致力于突破视频生成的边界。
近期,Picsart AI Research、奥斯汀大学和Shi Labs的研究者们携手,推出了一项革新性的StreamingT2V技术。该技术具备生成连续且可延展长度的视频内容的能力,标志着文生视频技术正式步入长视频时代。
论文链接:详细技术论文
StreamingT2V技术能够生成长达1200帧乃至理论上无限帧的视频,确保视频内容平滑过渡,内容丰富多样。比如,模拟帝国士兵在烟雾中奔跑的场景,动作虽夸张但连贯,人物形象保持高度统一。
该技术的核心架构包括三个关键组成部分: - 短期记忆单元,即条件注意力模块(CAM),负责确保视频内容的连贯性,通过聚焦前一视频片段的特征来指导当前片段的生成; - 长期记忆单元,即外观保持模块,确保模型能记住视频开始的场景和物体,避免随着时间流逝而遗忘; - 随机混合技术,确保生成的无限长视频保持一致性,避免不同片段之间的不协调。
值得一提的是,StreamingT2V的特性在于其通用性,不受特定文生视频模型的限制。随着基础模型性能的提升,生成的视频效果将随之进化。
展示: - 1200帧,即2分钟的视频,展示了出色的空间动态效果,细节优化空间虽存,但整体运动幅度接近Sora的技术水平。 - 600帧,约1分钟的视频,展现了类似手持相机的镜头摇晃感,鸟类的动作细节栩栩如生。 - 蜜蜂在花朵间穿梭的场景生动逼真,镜头运动与动作幅度大,形态一致性优异。 - 航拍镜头的运动合理,尽管植物的颜色和细节的稳定性有待提升。 - 珊瑚场景虽有瑕疵,但整体一致性和镜头运动幅度已达到较高水平。 - 240帧,24秒的视频,无论是在内容一致性还是动作自然程度上,均表现出色。
此技术的问世,无疑为视频生成领域带来了革命性的进展,开启了长视频创作的新篇章。