百度新款语音辨认模型，准确率飙升30%，还有三款AI语音芯片模组

在百度大脑开放日上，百度语音首席架构师贾磊推出了一款创新的语音识别模型，名为“基于复数CNN网络的语音增强和声学建模一体化的端到端语音识别模型”。这款模型与现有的语音识别方案不同，打破了传统远场语音识别技术的流程，使识别准确率提升了30%以上。

在采访中，贾磊表示，该语音识别模型由百度团队耗时近一年研发而成。未来三年内，随着技术的发展，远场语音识别的准确率将达到近场语音交互水平，远场语音交互将成为主流。

百度AI技术生态部总经理喻友平则推出了三款基于百度鸿鹄语音芯片的硬件模组及开发板，以及针对智能家居、智能车载和智能物联网设备的解决方案，旨在让智能硬件制造商能够更便捷地集成AI语音功能。

百度CTO王海峰在开幕致辞中提到，百度语音技术平台每天的调用量已超过100亿次。

传统远场语音交互技术通常需要经过数字信号处理（如声音增强和波束形成）和语音识别两步。而百度此次推出的基于复数CNN网络的语音增强和声学建模一体化的端到端语音识别模型，彻底改变了这一流程，用一个深度学习模型替代了原有的两步操作。

贾磊指出，目前除了谷歌之外，大多数主要玩家仍在使用传统方法。然而，随着识别率逐渐接近瓶颈，传统方法难以再有显著提升。百度的新模型结合鸿鹄语音芯片，能显著提升语音识别准确率。

即使硬件未搭载鸿鹄芯片，新模型也能显著提高远场语音识别和首次唤醒的准确率。贾磊认为，深度学习的未来在于跨学科融合的技术，目前这种整合正在快速发展。

喻友平在活动现场发布了三款基于百度鸿鹄语音芯片的硬件模组和开发板，为智能硬件制造商提供软硬件一体化的解决方案，使智能产品能够更快集成远场语音交互功能。

此外，他还推出了适用于智能家居、智能车载和智能物联网设备的解决方案。喻友平表示，百度大脑开放平台是中国最大的AI开放平台之一，拥有超过150万的开发者群体和228项开放技术能力，能在24小时内快速集成。

对于智能硬件而言，集成语音交互功能面临的主要挑战包括：高要求的语音算法（如唤醒、降噪和识别）、复杂的软硬件适配过程、以及硬件选型的难题。百度此次发布的三款硬件模组和三大行业解决方案正是为了解决这些问题。

百度CTO王海峰在开场致辞中表示，百度大脑已经开放了200多项技术能力，语音技术是其中的重要组成部分。百度自2010年开始涉足AI语音技术领域，2010年底开始全面布局人工智能技术，2011年下半年开始研究深度学习，并于2012年正式启动基于深度学习的语音技术研发项目。

王海峰强调，人工智能技术在应用场景中不断进化。当前，计算能力的飞速发展、算法的持续改进和数据的不断积累，推动了AI技术的不断进步。

此外，王海峰还透露，百度语音技术平台每天的调用量已超过100亿次。

在活动期间，来自创维、瓴岳、子杰宝贝、华智水稻和善行智能的百度合作伙伴分别介绍了他们如何将百度AI技术应用于家电、金融、护理、农业和智能眼镜等领域。

创维AIoT研究院产品经理李凯表示，自2017年以来，创维一直与百度紧密合作。创维集团AIoT研究院成立于2018年，专注于AIoT相关技术的研发与应用。

李凯告诉智东西，创维的“Swaiot小维智联”AI系统设备部署量已突破千万台。创维电视正在积极推进与百度鸿鹄语音芯片的合作。

此外，喻友平还宣布了百度大脑语音公益计划，将为听障、视障和行动不便的群体提供免费的语音识别和语音合成技术支持，并以最低价格提供语音硬件模组。

感谢您的阅读。希望您继续关注我们的最新动态！

责任编辑：：刘丽

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-11-29

百度语音辨认新算法准确率提升超30%，鸿鹄芯片彰显AI落地新打法