在AI视频生成领域,2月16日凌晨,“王炸”级模型Sora震撼问世,标志着AI视频生成迎来了“GPT时刻”。这一革新不仅体现在视频生成的细节和质量上,更是引领了AI生成视频技术的发展新纪元。
在Open AI提供的48个样片中,Sora以其令人瞩目的视频生成效果脱颖而出,视频长度扩展至1分钟,角色的表情栩栩如生,实现了多角度镜头切换与流畅分镜,展现了真实光影、运动和镜头移动的效果。这款扩散Transformer模型,通过Diffusion Transformer等技术,处理不同持续时间、分辨率和比例的视频/图像,实现了对真实世界的模拟,生成了符合物理和运动学规律的复杂场景视频。
与同类模型相比,Sora的独特之处在于它能理解并模拟真实世界,生成的视频不仅包含特定的画面,还能捕捉到诸如“咬了就会有痕迹”这样的物理规律,使得生成的视频更加真实可信。例如,在学习人吃汉堡的视频时,Sora不仅记忆了吃汉堡的动作,还理解了食物与口腔互动的物理特性,从而生成更为真实的视频片段。
面对AI视频生成领域的巨大潜力,国内各大厂商纷纷加大投入,推动该领域进入全新时代。字节跳动去年11月发布的PixelDance模型,不仅在视频时长上实现了突破,还通过描述(纯文本)、首帧指导(图片)和尾帧指导(图片),生成包含复杂场景和动作的视频。而万兴科技今年初推出的国内首个以音视频为核心的大模型“天幕”,作为一款覆盖多领域的大模型组合,旨在满足不同行业的需求,包括泛知识、泛营销、泛娱乐等,其在海外市场的规模化应用表明了AI视频生成技术的广泛适用性。
AI视频生成赛道前景广阔。据统计,仅国内短视频用户规模已突破10亿人,为AI视频创意服务提供了庞大的潜在市场。Sora的发布,不仅验证了视频在传播中的重要地位,还促进了“视频+大模型”应用市场的进一步扩张。尽管存在竞争压力,但业界普遍认为,类似Sora的模型不会垄断市场,反而会促进整个行业的多元化发展。随着全球算力需求的激增,大模型正在从全球化转向本土化,更本土化的数据和应用将是未来发展的趋势。例如,Sora在处理特定文化元素时的局限性,提示了未来模型需要具备更强的文化适应性和本地化能力的重要性。
Sora的出现标志着AI多模态领域的重大突破,预示着AI创作及相关领域即将迎来深刻变革。随着AI技术的不断进步,我们有理由期待AI视频生成技术的加速爆发,以及其在更广泛领域的应用拓展。推荐关注相关标的如万兴科技、金山办公、科大讯飞、虹软科技等,以把握这一技术革命带来的机遇。