顶级语音识别专家Daniel Povey：新一代Kaldi可大幅降低收听语音词错误率年底或将应用于所有小米AIoT产品

真言快语
2021-09-11 16:12:15 9

+关注

近日，小米集团语音首席科学家、“Kaldi之父”丹尼尔·波维在接受媒体采访时透露，新一代Kaldi的目标不仅是要超越现有的语音识别库，更是要彻底革新语音识别的技术路径。

丹尼尔·波维向媒体表示，小米当前的产品仍采用第一代Kaldi技术，但计划在未来几个月内逐步引入新一代Kaldi的能力。预计到今年底或明年初，小米将正式启用新一代Kaldi技术，目前该技术正处于测试阶段。

当被问及为何选择小米作为新一代Kaldi的研发基地时，丹尼尔·波维解释道，尽管多家知名互联网公司都希望邀请他加入，但小米的战略稳定性及其对开源项目的承诺吸引了他。在他看来，小米是最适合开展开源项目的地方。

据了解，推动新一代Kaldi研发的主要因素包括现有端到端语音识别模型的普及和准确性的提升，以及深度学习工具包如PyTorch和TensorFlow的广泛应用。新一代Kaldi是一个全新的代码库，完全重写而成，支持C++和CUDA，并可通过Python调用。它由三个独立项目组成，分别是k2、Lhotse和Icefall。

其中，Icefall作为新一代Kaldi的关键组成部分，采用了先进的双向建模技术和多层模型结构，显著提升了语音识别的准确度，降低了词错误率。据小米集团介绍，新一代Kaldi已在LibriSpeech数据集上实现了2.57%的词错误率，并且仍在不断优化中。

丹尼尔·波维还提到，新一代Kaldi与PyTorch兼容，其代码更加灵活，便于用户尝试新思路。此外，依赖于Kaldi发展的众多中小型企业在技术社区中发挥着重要作用，Kaldi将继续坚持开源路线。

丹尼尔·波维被誉为“Kaldi之父”，因为他是语音识别开源工具Kaldi的主要开发者和维护者。目前，国内流行的三大语音助手——小爱同学、小度和天猫精灵，均采用了Kaldi作为其底层技术框架。Kaldi已成为智能物联网设备实现语音交互的基础，是业内公认的语音识别核心技术之一。

图灵汇

责任编辑：：真言快语

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。