兼容PyTorch!语音识别大牛Daniel Povey正式发布新一代框架Kaldi
作者头像
  • 芯华集成电路人才基地
  • 2021-09-12 17:45:10 4

新一代Kaldi发布:Daniel Povey引领语音识别新纪元

8月31日,Daniel Povey以小米集团首席语音科学家的身份,正式发布了新一代Kaldi。Daniel Povey在语音识别领域享有盛誉,他是Kaldi的开发者和维护者,被誉为Kaldi之父。2019年,Daniel离开约翰霍普金斯大学,选择加入小米,带领小米语音技术团队研发新一代Kaldi。

加入小米后,业界对Daniel的研究进展持续关注。近日,Daniel在发布会上宣布,新一代Kaldi的所有子项目已全部布局完毕。他表示,新一代Kaldi的目标不仅是赶上或略微领先现有的语音识别库,而是要彻底革新语音识别的实现方式。

新一代Kaldi的研发始于2019年,历经一年多的技术攻关,团队完成了所有模块的研发和更新。在Librispeech数据集上,新一代Kaldi的词错率达到了2.57%。通过全新代码库,新一代Kaldi解决了Kaldi灵活性不足和体积过大的问题。作为核心部件的k2,不仅可以用于语音识别,还能用于手写文字识别等其他任务。

兼容PyTorch,提升识别精度

Kaldi自2011年发布以来,已成为语音识别领域的基石,被广泛应用于工业界和学术界。然而,随着机器学习的发展,Kaldi亟需更新迭代。Daniel坦言,旧代码库难以满足当前需求,用户需要更轻便、更灵活的源代码,并兼容主流框架如PyTorch。

新一代Kaldi从2019年开始研发,去年完成了k2和Lhotse模块的研发工作。今年,团队进一步完善了这两个模块,并基于它们正式发布了Icefall项目。Daniel介绍,新一代Kaldi采用全新的代码库,主要由C++和CUDA编写,支持Python调用,并将后端由自定义代码改为PyTorch。新一代Kaldi不仅展示了如何使用k2和Lhotse实现现有的各种语音识别模型,还展示了k2如何从根本上改变语音识别的实现方式。

引入Python,提升灵活性

新一代Kaldi分为Lhotse、Icefall和k2三部分。Daniel表示,这样的独立设计是为了降低耦合性,方便用户使用,并扩展组件的灵活性。例如,Lhotse用作数据准备,可以应用于任意语音识别库,而不仅仅限于Icefall项目。

Lhotse抛弃了传统的shell脚本,采用了更便捷的Python语言。通过通用且不失灵活性的接口设计,Lhotse能够满足包括语音识别和语音合成在内的多种语音任务需求。Lhotse引入了Audio Cuts的概念,自动组织训练数据为Cuts,并提供数据混合、裁剪、增强和特征提取等操作,提高了数据处理效率。

Icefall作为训练脚本的集合,同样是一个纯Python项目。Icefall关注语音识别模型的结构定义部分,降低了整个语音识别过程的耦合性,方便了网络结构的复用。k2是新一代Kaldi的核心,它将加权有限状态转换器(WFST)和相关算法无缝集成到PyTorch等机器学习工具包中,支持WFST的可导性,使得语音识别任务变得更加灵活高效。

全面赋能小米语音产品

在万物互联时代,智能语音交互变得日益重要。小米早在2017年就意识到这一市场的潜力,并逐步搭建了自己的语音技术团队,推出了智能语音产品——小爱音箱。2019年,小米提出了“手机+AIoT”双引擎战略,明确了语音识别领域的发展方向。Daniel表示,新一代Kaldi将在未来一年内全面应用于小米的所有智能语音产品。

新一代Kaldi能够适应各种场景下的语音模型,包括远近场语音唤醒、离线语音识别、说话人识别等。以小米小爱为例,用户可以通过它连接各种AIoT设备,如智能音箱、手机、电视、智能手表等。Daniel强调,小米将继续致力于开源项目,确保Kaldi能够持续为开发者和用户提供技术支持。

关于Daniel

Daniel Povey在语音识别领域有着卓越贡献。除了开发Kaldi外,他还参与了许多重要的科研工作,如助力判别训练的发展。Daniel曾在IBM研究院和微软研究院从事语音识别研究,并在2012年加入约翰斯·霍普金斯大学,担任语言和语音处理中心副教授。2019年,他正式加入小米,担任首席语音科学家。

新一代Kaldi的发布标志着语音识别技术迈入了一个新的阶段,相信在未来,新一代Kaldi将为小米及其他公司的智能语音产品带来更完善的用户体验。

    本文来源:图灵汇
责任编辑: : 芯华集成电路人才基地
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
大牛兼容新一代框架语音识别PyTorch正式Daniel发布
    下一篇