Meta推出AI音频模型Audiobox，支持语音及文字同时输入

乃佳萱
2023-12-06 13:32:13 3087

摘要：

近期，Meta公司发布了一款名为Audiobox的创新AI声音生成模型，这款模型的独特之处在于它能整合语音与文本输入，提供丰富的音频生成解决方案。Audiobox基于Meta公司6月发布的Voicebox模型研发而成，旨在简化音频创作流程，降低专业音频制作的门槛。

详细内容：

Meta公司推出了Audiobox，一款先进的AI声音生成模型，特别设计为既能接收语音又能接受文本输入，以满足用户生成所需音频的需求。这款模型不仅继承了Voicebox模型的特性，还进一步增强了音频生成与编辑功能，赋予用户更多的灵活性来创造各类场景所需的音频效果。

Audiobox通过引入“引导声音”机制和“流量比对”扩散模型，实现了高度细致的“声音填充”，能够生成复杂且富有层次感的音频。Meta展示了一些Audiobox生成的实例，包括模拟自然环境音效和特定情境声音，如雷雨天气下的雨声，并根据用户的关键词进行个性化定制，如“流水声伴随鸟鸣”、“年轻女性以高音调快节奏说话”。

令人瞩目的是，Audiobox在音质和生成内容的精确度方面表现出卓越性能，已显著超越当前领先的音频生成模型，如AudioLDM2、VoiceLDM和TANGO。这标志着人工智能技术在音频合成领域取得了重大进展。

目前，Audiobox正处于特定研究者和学术界的试用阶段，以评估模型的质量和安全性。Meta计划在未来几周内，逐步向公众开放这一创新工具，进一步推动人工智能在音频创作领域的广泛应用。

图灵汇

责任编辑：：乃佳萱

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

语音 Audiobox 模型音频输入同时文字推出支持 Meta

科技窝

2023-12-05

2023折叠屏手机元年，华为引领市场风向