OpenAI推出新一代AI模型GPT-4o 音频视频理解能力尚无敌手

在5月14日的凌晨，OpenAI宣布了其新一代旗舰模型——GPT-4o，这款模型以其全面、全能的特点，引领了人机交互领域的关键进展。GPT-4o的发布不仅标志着OpenAI在大语言模型技术上的重大突破，也为未来的AI应用开辟了更广阔的可能性。

GPT-4o，以“omni”为核心理念，旨在打造一款能够无缝融合文本、音频和图像信息的全能型大语言模型。它能够接受多种格式的输入数据，并生成相应形式的输出，包括文本、音频和视频，展现了强大的跨模态处理能力。

在英文文本和代码处理方面，GPT-4o与GPT-4 Turbo性能相当，但在非英文文本处理上展现出了显著的提升。特别是在视频和音频理解方面，GPT-4o的表现远超当前市面上的其他模型，展现出其在非文本领域无可比拟的优势。

GPT-4o在响应速度上实现了显著提升，最快响应时间仅为232毫秒，平均响应时间也控制在320毫秒左右，几乎与人类对话速度相当。这一性能优化极大地提升了用户体验，减少了延迟带来的困扰。

为了促进GPT-4o的广泛应用，OpenAI采取了一系列举措。GPT-4o的文本和图片功能已集成至ChatGPT，免费供所有用户使用；ChatGPT Plus用户则享受数据量上限扩大五倍的特权。此外，音频模式也将在未来几周内面向ChatGPT Plus用户开放。

随着GPT-4o的发布，OpenAI给其竞争对手，如谷歌，带来了前所未有的挑战。谷歌即将于5月16日召开的年度开发者大会，预计将展示一系列AI创新产品，以应对这一竞争态势。

尽管OpenAI的CTO Mira Murati主持了春季更新，但公司CEO萨姆·奥特曼并未亲自出席。然而，他通过社交媒体平台对GPT-4o进行了积极推广，强调这是OpenAI迄今为止最优秀的产品，具备高度智能和快速响应能力，且天然支持多模态操作。

GPT-4o的发布不仅代表了OpenAI在人工智能领域的一次重大技术飞跃，也预示着未来AI技术在多模态处理、跨领域应用等方面的巨大潜力。随着GPT-4o的广泛应用，我们有理由期待其在教育、娱乐、科研等多个领域的深远影响。

责任编辑：：农如晓

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2024-05-14

OpenAI发布新模型GPT-4o，TechWeb实测来了！