常见的语音识别工具种类繁多,以下是几种较为流行的工具介绍,包括Kaldi、PyTorch-Kaldi、SpeechBrain、PyKaldi和ESPnet。
Kaldi
Kaldi是一款由Dan Povey大神使用C++开发的开源语音识别工具集,目前在语音识别领域具有举足轻重的地位。Dan Povey曾任职于小米公司。
资源:
- 文档:http://kaldi-asr.org/doc/build_setup.html
- 论文:http://publications.idiap.ch/downloads/papers/2012/PoveyASRU20112011.pdf
- Dan Povey的博客:http://www.danielpovey.com/kaldi-lectures.html
- 中文教程:https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/about.html(版本较旧)
截止到2019年11月底GitHub活跃情况:

PyTorch-Kaldi
PyTorch-Kaldi是一个使用PyTorch实现的先进深度神经网络(DNN)和循环神经网络(RNN)的语音识别项目。该项目依赖于Kaldi进行数据预处理、特征提取和解码等功能。
资源:
- GitHub:https://github.com/mravanelli/pytorch-kaldi
- 论文:https://arxiv.org/abs/1811.07453
- 视频:https://www.youtube.com/watch?v=VDQaf0SS4K0&t=2s
下一版本:SpeechBrain
截止到2019年11月底GitHub活跃情况:

Bilibili视频链接:
https://www.bilibili.com/video/av63902650?from=search&seid=16607800262273505881
SpeechBrain
SpeechBrain是一个完全基于PyTorch构建的新颖语音工具包。用户可以利用该工具包轻松创建各种语音处理系统,如语音识别(包括基于HMM/DNN和端到端的系统)、说话人识别、语音增强、语音分离和多麦克风语音处理等。
资源:
- 主页:https://speechbrain.github.io/
- GitHub:https://github.com/speechbrain/speechbrain.github.io
- 视频:https://www.youtube.com/watch?v=XETiKbN9ojE&feature=youtu.be
截止到2019年11月底GitHub活跃情况:

Bilibili视频链接:
https://www.bilibili.com/video/av71146616?from=search&seid=15739786385174746986
PyKaldi
PyKaldi是Kaldi语音识别工具包的Python脚本层,它为Kaldi和OpenFst库中的C++代码提供了易于使用且高效的Python接口。通过PyKaldi,开发者可以用Python编写代码来替代C++代码,从而简化复杂的任务,如调用低级Kaldi函数、操作Kaldi和OpenFst对象或实现新的Kaldi工具。
资源:
- 文档:https://pykaldi.github.io/
- GitHub:https://github.com/pykaldi/pykaldi
- 论文:https://github.com/pykaldi/pykaldi/blob/master/docs/pykaldi.pdf
截止到2019年11月底GitHub活跃情况:

ESPnet
ESPnet是一个专注于端到端语音识别和文本转语音的工具,主要采用Chainer和PyTorch作为深度学习引擎。它遵循Kaldi风格的数据处理、特征提取和格式化等流程,提供了一个完整的流水线解决方案。
资源:
- 文档:https://espnet.github.io/espnet/
- GitHub:https://github.com/espnet/espnet
- 论文:https://arxiv.org/abs/1804.00015?context=cs
截止到2019年11月底GitHub活跃情况:

其他语音工具
- 其他著名语音识别引擎及其特点
- 移动或手机端语音识别工具
- 参考Wikipedia上的语音识别软件列表:https://en.wikipedia.org/wiki/Listofspeechrecognitionsoftware
我之前上传的B站一些国外语音相关视频:
- 语音自然语言深度学习课程:Deep Learning for Speech and Language(合辑)
- https://www.bilibili.com/video/av38854819/
- 语音识别:A Novel Method for Speaker Recognition without Active Enrollment
- https://www.bilibili.com/video/av36308563/
- 语音验证:Generalized End-to-End Loss for Speaker Verification
- https://www.bilibili.com/video/av36308874/
- 语音验证:Deep Neural Network Embeddings for Text-Independent Speaker Verification
- https://www.bilibili.com/video/av36308701/
- 两分钟论文:This AI Learned To Isolate Speech Signals
- https://www.bilibili.com/video/av35977892/
推荐阅读:
- 免费中文语音数据集:https://www.toutiao.com/i6760427194196951555/?group_id=6760427194196951555
希望以上信息对你有所帮助!欢迎关注我的公众号“帅帅家的人工智障”或同名微博,共同学习进步。