摘要:
近期,Meta公司发布了一款名为Audiobox的创新AI声音生成模型,这款模型的独特之处在于它能整合语音与文本输入,提供丰富的音频生成解决方案。Audiobox基于Meta公司6月发布的Voicebox模型研发而成,旨在简化音频创作流程,降低专业音频制作的门槛。
详细内容:
Meta公司推出了Audiobox,一款先进的AI声音生成模型,特别设计为既能接收语音又能接受文本输入,以满足用户生成所需音频的需求。这款模型不仅继承了Voicebox模型的特性,还进一步增强了音频生成与编辑功能,赋予用户更多的灵活性来创造各类场景所需的音频效果。
Audiobox通过引入“引导声音”机制和“流量比对”扩散模型,实现了高度细致的“声音填充”,能够生成复杂且富有层次感的音频。Meta展示了一些Audiobox生成的实例,包括模拟自然环境音效和特定情境声音,如雷雨天气下的雨声,并根据用户的关键词进行个性化定制,如“流水声伴随鸟鸣”、“年轻女性以高音调快节奏说话”。
令人瞩目的是,Audiobox在音质和生成内容的精确度方面表现出卓越性能,已显著超越当前领先的音频生成模型,如AudioLDM2、VoiceLDM和TANGO。这标志着人工智能技术在音频合成领域取得了重大进展。
目前,Audiobox正处于特定研究者和学术界的试用阶段,以评估模型的质量和安全性。Meta计划在未来几周内,逐步向公众开放这一创新工具,进一步推动人工智能在音频创作领域的广泛应用。