视频生成迎“GPT时刻” 继Runway Pika万兴天幕后，Sora横空出世

赵建松
2024-02-19 00:00:00 3056

+关注

引言

在AI视频生成领域，2月16日凌晨，“王炸”级模型Sora震撼问世，标志着AI视频生成迎来了“GPT时刻”。这一革新不仅体现在视频生成的细节和质量上，更是引领了AI生成视频技术的发展新纪元。

Sora：革新视频生成的先驱

在Open AI提供的48个样片中，Sora以其令人瞩目的视频生成效果脱颖而出，视频长度扩展至1分钟，角色的表情栩栩如生，实现了多角度镜头切换与流畅分镜，展现了真实光影、运动和镜头移动的效果。这款扩散Transformer模型，通过Diffusion Transformer等技术，处理不同持续时间、分辨率和比例的视频/图像，实现了对真实世界的模拟，生成了符合物理和运动学规律的复杂场景视频。

特殊之处：物理规律的融入

与同类模型相比，Sora的独特之处在于它能理解并模拟真实世界，生成的视频不仅包含特定的画面，还能捕捉到诸如“咬了就会有痕迹”这样的物理规律，使得生成的视频更加真实可信。例如，在学习人吃汉堡的视频时，Sora不仅记忆了吃汉堡的动作，还理解了食物与口腔互动的物理特性，从而生成更为真实的视频片段。

行业影响与未来展望

面对AI视频生成领域的巨大潜力，国内各大厂商纷纷加大投入，推动该领域进入全新时代。字节跳动去年11月发布的PixelDance模型，不仅在视频时长上实现了突破，还通过描述（纯文本）、首帧指导（图片）和尾帧指导（图片），生成包含复杂场景和动作的视频。而万兴科技今年初推出的国内首个以音视频为核心的大模型“天幕”，作为一款覆盖多领域的大模型组合，旨在满足不同行业的需求，包括泛知识、泛营销、泛娱乐等，其在海外市场的规模化应用表明了AI视频生成技术的广泛适用性。

市场预测与挑战

AI视频生成赛道前景广阔。据统计，仅国内短视频用户规模已突破10亿人，为AI视频创意服务提供了庞大的潜在市场。Sora的发布，不仅验证了视频在传播中的重要地位，还促进了“视频+大模型”应用市场的进一步扩张。尽管存在竞争压力，但业界普遍认为，类似Sora的模型不会垄断市场，反而会促进整个行业的多元化发展。随着全球算力需求的激增，大模型正在从全球化转向本土化，更本土化的数据和应用将是未来发展的趋势。例如，Sora在处理特定文化元素时的局限性，提示了未来模型需要具备更强的文化适应性和本地化能力的重要性。