微软NaturalSpeech 2来了，基于扩散模型的语音合成

刘媚
2023-05-12 14:26:35 3130

+关注

概述

文本到语音合成（Text to Speech, TTS）作为生成式人工智能的关键领域，在近年来取得了显著进展。微软亚洲研究院与微软 Azure 语音团队密切合作，不断探索和优化语音合成技术，以期实现既自然又高质量的人类语音合成。

自然语音合成的演变

为了满足这一需求，微软推出了一项名为 NaturalSpeech 的研究项目。该项目旨在通过创新的技术和方法，提升语音合成的自然度与多样性。经过数年的努力，NaturalSpeech 已经经历三个阶段的发展：

第一阶段：专注于在单个说话人上达到媲美人类的语音质量。
第二阶段：成功实现了多样化语音合成，包括不同说话人、韵律和风格的语音合成，通过利用扩散模型实现了零样本合成。
当前阶段：聚焦于进一步提高自然度，目标是创造高质量且多样化的语音合成体验。

NaturalSpeech 2 的创新之处

NaturalSpeech 2 是新一代语音合成大模型的代表，它基于扩散模型实现了零样本语音合成的突破性进展。该模型采用了多项创新设计，克服了传统语音合成系统面临的挑战，包括：

连续向量替代离散 token：这减少了预测难度，同时提高了细节信息的表达能力。
扩散模型替代自回归语言模型：通过非自回归方式生成语音，避免了错误累积，显著提升了韵律稳定性。
引入语音提示机制：这一机制增强了上下文学习能力，提升了零样本预测的准确性。

性能检测与比较

NaturalSpeech 2 在多个关键性能指标上表现出色，包括音质、韵律相似度、鲁棒性和音质稳定性等。与先前的TTS系统相比，它在主观质量得分、相似度评分和稳定度测试中均取得了显著优势。此外，NaturalSpeech 2 还展示了在零样本歌声合成上的出色表现。

研究亮点与应用展望

NaturalSpeech 2 的成功不仅在于技术层面的创新，更在于其对语音合成领域未来发展的深远影响。通过提升语音合成的自然度与多样性，它为人工智能内容生成开辟了新的可能性。微软亚洲研究院的高级研究员谭旭表示，NaturalSpeech 2 是语音合成技术的一次重要飞跃，将为未来的TTS研究提供有力的基础支持。