远场语音辨认错误率降低30%,百度提基于复数CNN网络的新技术
作者头像
  • 无人机市场
  • 2019-12-07 17:54:55 3

【12月公开课预告】入群获取报名地址

12月11日晚8点直播主题:人工智能辅助消化道病理诊断平台——从理论到实践

12月12日晚8点直播:利用容器技术构建AI公司的技术中台

12月17日晚8点直播主题:可重构计算:兼顾效率和通用性


在远场语音识别的应用场景中,用户与智能音箱的距离可达3米或5米。在这种情况下,声音信号从源头传至拾音器的过程中会受到显著衰减,加上环境噪音的影响,导致信噪比降低,从而影响识别准确性。为了改善这种情况,通常采用麦克风阵列作为拾音装置,利用多通道信号处理技术增强目标信号,提高识别精度。

然而,传统的数字信号处理技术已经难以满足当前的需求,因此业界开始转向深度学习技术。早期的深度学习解决方案在设计上仍与传统信号处理方法紧密相连,这限制了技术的发展。最近,百度的贾磊提出了一种基于复数卷积神经网络(CNN)的新方法,这种方法摒弃了传统假设,充分利用了CNN的多层结构和多通道特征提取的优势,提升了识别精度。实验结果显示,与传统方法相比,该方法的错误率降低了超过30%,并且已经被整合进百度最新的鸿鹄芯片中。


在高信噪比条件下,语音识别系统表现较好,但在低信噪比条件下,其性能往往不稳定。典型的场景包括目的声源、非目的声源、拾音器和语音识别系统。例如,在智能音箱中,用户发出指令的声音被视为目的声源,而家电噪音等其他声音被视为非目的声源。拾音器和语音识别系统则是音箱的核心部分。在拾音过程中,目的信号和干扰信号的比例决定了信噪比。

远场语音识别属于典型的低信噪比场景,目前市场上的多数智能音箱采用多通道语音识别系统,由前端增强模块和后端声学建模模块组成。前端模块通常包含方向估计(DOA)和波束形成(BF)技术,前者用于确定声源方向,后者则利用这一信息加强目标信号,抑制干扰信号。常见的BF技术包括最小方差无畸变响应波束形成(MVDR BF)、线性约束最小方差波束形成(LCMV BF)和广义旁瓣消除波束形成(GSC BF)等。

后端模块对增强后的语音信号进行深度学习建模,类似于手机上的近场语音识别。近年来,一些研究尝试使用深度学习替代传统数字信号处理技术,尽管取得了一些进展,但仍面临诸多挑战,如听觉感知与识别率不一致的问题。

2017年,谷歌团队提出了神经网络方法,将前端增强和声学建模结合起来,这种方法大幅降低了计算量,但仍然受制于信号处理方法的局限性,如频带间相关性的缺失。


贾磊介绍了基于复数CNN的语音增强和声学建模一体化端到端建模技术。该模型采用复数CNN和复数全连接层等多层网络,直接处理原始多通道语音信号,提取多尺度、多层次的信息,并保留原始信号的相位信息。这种一体化建模方法直接将抽象特征送入百度的端到端流式多级截断注意力模型,优化目标完全基于识别率提升。为了实现这一技术的落地,百度开发了一种利用近场数据生成远场训练数据的方法,成功训练出可应用于实际产品的模型。

此次论坛还发布了三款基于鸿鹄语音芯片的硬件产品,包括DSP芯片+Flash模组、Android开发板DSP芯片+RK3399和RTOS开发板DSP芯片+ESP32。此外,贾磊描绘了基于鸿鹄语音芯片的远场语音交互解决方案,以及针对智能家居、智能车载和智能IoT设备的三大应用场景。


今年年初,百度提出了截断注意力模型SMLTA,显著提升了整句识别率、方言识别率及中英文混合识别率,实现了大规模工业在线产品落地。在语音合成方面,百度首创了Tacotron+wavRNN联合训练方法,大幅提高了云端合成速度。百度地图使用20句话录制语音导航的技术基于百度独创的风格迁移技术Meitron模型,具备音色转换、多情感朗读和韵律迁移等功能,降低了语音合成的门槛。基于深度学习和产业应用的突破,百度的语音技术已应用于百度App、百度地图、小度音箱和百度输入法等产品。百度CTO王海峰在会上宣布,百度大脑已通过AI开放平台开放228项技术能力,吸引了超过150万名开发者,每日调用量超过100亿次。

    本文来源:图灵汇
责任编辑: : 无人机市场
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
错误率复数辨认语音新技术降低基于百度网络CNN
    下一篇