在百度近期的语音技术突破中,百度语音首席架构师贾磊显得格外兴奋。作为互联网圈内唯一的一位全国劳动模范,贾磊每天的工作重心都是围绕语音技术展开。
贾磊向我们介绍了他们在远场语音交互领域的一项新进展——基于复数卷积神经网络(复数CNN)的语音增强和声学建模一体化端到端建模技术。
传统方法主要依赖于麦克风阵列和多通道语音信号处理技术,通过波束形成和方向估计来提升语音识别的准确率。然而,这些方法存在一些局限性:
波束区域拾音方法的局限性:传统的波束形成技术主要通过最小均方误差(MSE)优化来提升波束内的语音清晰度,但这种优化在背景噪音也是语音内容时效果不佳。
加强和识别模块优化目标不一致:前端语音增强模块和后端语音识别模块的优化目标不一致,导致最终效果并非最优。
复杂的真实产品环境:由于实际应用场景复杂,传统方法依赖于声源定位的准确性,而用户位置的变化会导致识别率下降。
2017年,谷歌团队首次提出了通过神经网络来实现前端语音增强和声学建模的一体化建模。这种方法虽然取得了一定的效果,但仍受限于信号处理方法的一些先验假设。
百度采用了类似的思想,但采用了复数卷积神经网络(复数CNN)来实现一体化建模。这种方法抛弃了传统数字信号处理学科的先验知识,充分利用了卷积神经网络的多层结构和多通道特征提取优势。
具体来说,复数CNN能够直接从原始多通道语音信号中提取多层次的信息,同时保留原始信号的相位信息。这种模型不仅完成了前端声源定位和波束形成,还将提取到的特征直接送入端到端的流式多级截断注意力模型(SMLTA)中,从而实现了从原始多路麦克风信号到识别文字的端到端一体化建模。
百度的这种端到端建模方法,相对于传统方法,错误率降低了超过30%。
贾磊认为,这种端到端建模技术将成为远场语音识别产业发展的关键。未来三年内,随着远场语音技术的成熟,所有设备都将支持远场唤醒和语音交互,这将大大改变人机交互的方式。
此外,百度的这种一体化建模方案已经被集成到最新的鸿鹄芯片中,网络占用内存不到200K。
贾磊表示,端到端建模技术的出现,标志着远场语音识别将迎来巨大的进步。这种技术一旦成熟,将广泛应用于各类设备,成为人类终端交互的重要手段。