远场语音辨认，功能提升 30%，百度怎样做到的？

在百度近期的语音技术突破中，百度语音首席架构师贾磊显得格外兴奋。作为互联网圈内唯一的一位全国劳动模范，贾磊每天的工作重心都是围绕语音技术展开。

贾磊向我们介绍了他们在远场语音交互领域的一项新进展——基于复数卷积神经网络（复数CNN）的语音增强和声学建模一体化端到端建模技术。

传统方法主要依赖于麦克风阵列和多通道语音信号处理技术，通过波束形成和方向估计来提升语音识别的准确率。然而，这些方法存在一些局限性：

2017年，谷歌团队首次提出了通过神经网络来实现前端语音增强和声学建模的一体化建模。这种方法虽然取得了一定的效果，但仍受限于信号处理方法的一些先验假设。

百度采用了类似的思想，但采用了复数卷积神经网络（复数CNN）来实现一体化建模。这种方法抛弃了传统数字信号处理学科的先验知识，充分利用了卷积神经网络的多层结构和多通道特征提取优势。

具体来说，复数CNN能够直接从原始多通道语音信号中提取多层次的信息，同时保留原始信号的相位信息。这种模型不仅完成了前端声源定位和波束形成，还将提取到的特征直接送入端到端的流式多级截断注意力模型（SMLTA）中，从而实现了从原始多路麦克风信号到识别文字的端到端一体化建模。

百度的这种端到端建模方法，相对于传统方法，错误率降低了超过30%。

贾磊认为，这种端到端建模技术将成为远场语音识别产业发展的关键。未来三年内，随着远场语音技术的成熟，所有设备都将支持远场唤醒和语音交互，这将大大改变人机交互的方式。

此外，百度的这种一体化建模方案已经被集成到最新的鸿鹄芯片中，网络占用内存不到200K。

贾磊表示，端到端建模技术的出现，标志着远场语音识别将迎来巨大的进步。这种技术一旦成熟，将广泛应用于各类设备，成为人类终端交互的重要手段。

责任编辑：：大器智能

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-11-29

百度新款语音辨认模型，准确率飙升30%，还有三款AI语音芯片模组