Meta推出AI音频模型Audiobox,支持语音及文字同时输入
作者头像
  • 乃佳萱
  • 2023-12-06 13:32:13 3087

摘要:

近期,Meta公司发布了一款名为Audiobox的创新AI声音生成模型,这款模型的独特之处在于它能整合语音与文本输入,提供丰富的音频生成解决方案。Audiobox基于Meta公司6月发布的Voicebox模型研发而成,旨在简化音频创作流程,降低专业音频制作的门槛。

详细内容:

Meta公司推出了Audiobox,一款先进的AI声音生成模型,特别设计为既能接收语音又能接受文本输入,以满足用户生成所需音频的需求。这款模型不仅继承了Voicebox模型的特性,还进一步增强了音频生成与编辑功能,赋予用户更多的灵活性来创造各类场景所需的音频效果。

Audiobox通过引入“引导声音”机制和“流量比对”扩散模型,实现了高度细致的“声音填充”,能够生成复杂且富有层次感的音频。Meta展示了一些Audiobox生成的实例,包括模拟自然环境音效和特定情境声音,如雷雨天气下的雨声,并根据用户的关键词进行个性化定制,如“流水声伴随鸟鸣”、“年轻女性以高音调快节奏说话”。

令人瞩目的是,Audiobox在音质和生成内容的精确度方面表现出卓越性能,已显著超越当前领先的音频生成模型,如AudioLDM2、VoiceLDM和TANGO。这标志着人工智能技术在音频合成领域取得了重大进展。

目前,Audiobox正处于特定研究者和学术界的试用阶段,以评估模型的质量和安全性。Meta计划在未来几周内,逐步向公众开放这一创新工具,进一步推动人工智能在音频创作领域的广泛应用。

    本文来源:图灵汇
责任编辑: : 乃佳萱
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
语音Audiobox模型音频输入同时文字推出支持Meta
    下一篇