OpenAI Sora：“原始版”世界模拟器，我们离黑客帝国还有多远？

慧慧聊区块
2024-02-18 14:20:05 3104

随着春节长假步入尾声，科技巨头OpenAI推出了一款革命性的新工具——Sora，旨在抗衡谷歌等竞争对手。这款创新视频生成模型由OpenAI独立研发，具备产生各种比例和清晰度的高质量视频内容能力，最长播放时长可达一分钟。业内专家普遍认为，Sora在性能上显著超越了市场上的同类产品，甚至被赞誉为“世界模拟器”。

Sora：创新与技术的融合

在谷歌刚发布Gemini 1.5 Pro后不久，OpenAI迅速推出了Sora，让后者成为关注焦点，迅速掩盖了Gemini的相关讨论。据推测，OpenAI早在去年三月便完成了Sora的研发，确保了其在市场竞争中的领先地位。

Sora的独特之处在于，它巧妙结合了扩散模型（DALL-E3）与转换器架构（ChatGPT），使模型能够像处理文本一样处理视频，即处理时间序列中的图像帧。此功能尤其令人瞩目，因为它能以惊人的逼真度模拟现实世界（OpenAI称其为“新兴的模拟能力”），超越了此前任何文本到视频模型所能达到的水平。

Sora的多功能性使其在多种场景下大放异彩。无论是创建多个镜头的视频，展现丰富的人物和视觉风格，还是制作长短不一、分辨率各异的视频，Sora都能轻松应对。其计算资源的增加，更是直接影响了视频的质量提升。

AI领域先锋贾佳亚在社交媒体上评价道：“Sora基于对视频的三维结构进行分解和压缩，通过大规模训练，提升了diffusion model的能力。即使在学术界尚未解决256*256分辨率问题时，Sora已采用了更高清甚至更大分辨率，这背后需要数千甚至数万张H100显卡的计算能力。”

Sora的物理世界理解能力

Sora不仅能够解读提示中的元素，如风格、场景、角色、物体和概念，还能深入理解这些元素在现实世界中的存在方式。通过分析大量视频数据，并运用梯度下降法在神经网络参数中隐性学习物理引擎，Sora构建了一个可学习的模拟器，即所谓的“世界模型”。这意味着Sora已经掌握了某种形式的物理规则，为视频生成提供了关键信息。

这标志着AI对世界理解的一次重要飞跃。OpenAI在其官方博客中总结道：“Sora作为理解和模拟现实世界的基础模型，其能力被视为实现人工通用智能（AGI）的关键里程碑。”在Dalle-3图像生成器所采用的扩散模型版本和GPT-4基于转换器的引擎支持下，Sora不仅能根据提示制作视频，还展现了对电影技术的精湛运用。

Sora在故事叙述方面的天赋同样令人赞叹。例如，在根据“渲染一个绚丽的珊瑚礁纸艺世界，布满五彩斑斓的鱼和海洋生物”这一提示生成的视频中，研究员Bill Peebles指出，Sora通过精心选择的拍摄角度和时机，成功地赋予了视频叙事的动态感：

实际上，视频中呈现的多个镜头并非简单拼接，而是由模型一次性生成。这表明Sora能够创造流畅的叙事节奏，为观众带来沉浸式的观看体验。

图灵汇

责任编辑：：慧慧聊区块

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

多远黑客帝国模拟器原始还有 OpenAI 我们世界 Sora

陈清阁

2024-03-26

超越Sora极限，120秒超长AI视频模型诞生！