OpenAI Sora:“原始版”世界模拟器,我们离黑客帝国还有多远?
作者头像
  • 慧慧聊区块
  • 2024-02-18 14:20:05 3104

随着春节长假步入尾声,科技巨头OpenAI推出了一款革命性的新工具——Sora,旨在抗衡谷歌等竞争对手。这款创新视频生成模型由OpenAI独立研发,具备产生各种比例和清晰度的高质量视频内容能力,最长播放时长可达一分钟。业内专家普遍认为,Sora在性能上显著超越了市场上的同类产品,甚至被赞誉为“世界模拟器”。

Sora:创新与技术的融合

在谷歌刚发布Gemini 1.5 Pro后不久,OpenAI迅速推出了Sora,让后者成为关注焦点,迅速掩盖了Gemini的相关讨论。据推测,OpenAI早在去年三月便完成了Sora的研发,确保了其在市场竞争中的领先地位。

Sora的独特之处在于,它巧妙结合了扩散模型(DALL-E3)与转换器架构(ChatGPT),使模型能够像处理文本一样处理视频,即处理时间序列中的图像帧。此功能尤其令人瞩目,因为它能以惊人的逼真度模拟现实世界(OpenAI称其为“新兴的模拟能力”),超越了此前任何文本到视频模型所能达到的水平。

Sora的多功能性使其在多种场景下大放异彩。无论是创建多个镜头的视频,展现丰富的人物和视觉风格,还是制作长短不一、分辨率各异的视频,Sora都能轻松应对。其计算资源的增加,更是直接影响了视频的质量提升。

AI领域先锋贾佳亚在社交媒体上评价道:“Sora基于对视频的三维结构进行分解和压缩,通过大规模训练,提升了diffusion model的能力。即使在学术界尚未解决256*256分辨率问题时,Sora已采用了更高清甚至更大分辨率,这背后需要数千甚至数万张H100显卡的计算能力。”

Sora的物理世界理解能力

Sora不仅能够解读提示中的元素,如风格、场景、角色、物体和概念,还能深入理解这些元素在现实世界中的存在方式。通过分析大量视频数据,并运用梯度下降法在神经网络参数中隐性学习物理引擎,Sora构建了一个可学习的模拟器,即所谓的“世界模型”。这意味着Sora已经掌握了某种形式的物理规则,为视频生成提供了关键信息。

这标志着AI对世界理解的一次重要飞跃。OpenAI在其官方博客中总结道:“Sora作为理解和模拟现实世界的基础模型,其能力被视为实现人工通用智能(AGI)的关键里程碑。”在Dalle-3图像生成器所采用的扩散模型版本和GPT-4基于转换器的引擎支持下,Sora不仅能根据提示制作视频,还展现了对电影技术的精湛运用。

Sora在故事叙述方面的天赋同样令人赞叹。例如,在根据“渲染一个绚丽的珊瑚礁纸艺世界,布满五彩斑斓的鱼和海洋生物”这一提示生成的视频中,研究员Bill Peebles指出,Sora通过精心选择的拍摄角度和时机,成功地赋予了视频叙事的动态感:

实际上,视频中呈现的多个镜头并非简单拼接,而是由模型一次性生成。这表明Sora能够创造流畅的叙事节奏,为观众带来沉浸式的观看体验。

    本文来源:图灵汇
责任编辑: : 慧慧聊区块
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
多远黑客帝国模拟器原始还有OpenAI我们世界Sora
    下一篇