超越Sora极限，120秒超长AI视频模型诞生！

陈清阁
2024-03-26 13:47:10 3049

导览：新智元最新报道，润与好困共同策划。【新智元解析】来自奥斯汀大学等机构的科研团队，成功研发出StreamingT2V技术，这一技术打破了人工智能生成视频的时长限制，实现了近乎无限的视频长度扩展，同时保证了视频内容的连贯性和动作表现的卓越性。

自从Sora技术的诞生，文生视频的长度标准被刷新至前所未有的高度。在视频生成领域，从Pika和Runway的短小精悍的4秒视频，到VideoPoet理论上可能的无限长度探索，多个研究团队正致力于突破视频生成的边界。

近期，Picsart AI Research、奥斯汀大学和Shi Labs的研究者们携手，推出了一项革新性的StreamingT2V技术。该技术具备生成连续且可延展长度的视频内容的能力，标志着文生视频技术正式步入长视频时代。

论文链接：详细技术论文

StreamingT2V技术能够生成长达1200帧乃至理论上无限帧的视频，确保视频内容平滑过渡，内容丰富多样。比如，模拟帝国士兵在烟雾中奔跑的场景，动作虽夸张但连贯，人物形象保持高度统一。

该技术的核心架构包括三个关键组成部分： - 短期记忆单元，即条件注意力模块(CAM)，负责确保视频内容的连贯性，通过聚焦前一视频片段的特征来指导当前片段的生成； - 长期记忆单元，即外观保持模块，确保模型能记住视频开始的场景和物体，避免随着时间流逝而遗忘； - 随机混合技术，确保生成的无限长视频保持一致性，避免不同片段之间的不协调。

值得一提的是，StreamingT2V的特性在于其通用性，不受特定文生视频模型的限制。随着基础模型性能的提升，生成的视频效果将随之进化。

展示： - 1200帧，即2分钟的视频，展示了出色的空间动态效果，细节优化空间虽存，但整体运动幅度接近Sora的技术水平。 - 600帧，约1分钟的视频，展现了类似手持相机的镜头摇晃感，鸟类的动作细节栩栩如生。 - 蜜蜂在花朵间穿梭的场景生动逼真，镜头运动与动作幅度大，形态一致性优异。 - 航拍镜头的运动合理，尽管植物的颜色和细节的稳定性有待提升。 - 珊瑚场景虽有瑕疵，但整体一致性和镜头运动幅度已达到较高水平。 - 240帧，24秒的视频，无论是在内容一致性还是动作自然程度上，均表现出色。

此技术的问世，无疑为视频生成领域带来了革命性的进展，开启了长视频创作的新篇章。

图灵汇

责任编辑：：陈清阁

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

超长模型诞生超越极限视频 Sora 120

郑沛

2024-03-19

TSMC 和 Synopsys 将 NVIDIA 开创性计算光刻平台投入生产