语音辨认相关工具和材料分享_图灵汇

语音辨认相关工具和材料分享

壹鸽智能
2019-12-16 08:29:06 0

常见的语音识别工具种类繁多，以下是几种较为流行的工具介绍，包括Kaldi、PyTorch-Kaldi、SpeechBrain、PyKaldi和ESPnet。

Kaldi

Kaldi是一款由Dan Povey大神使用C++开发的开源语音识别工具集，目前在语音识别领域具有举足轻重的地位。Dan Povey曾任职于小米公司。

资源：

文档：http://kaldi-asr.org/doc/build_setup.html
论文：http://publications.idiap.ch/downloads/papers/2012/PoveyASRU20112011.pdf
Dan Povey的博客：http://www.danielpovey.com/kaldi-lectures.html
中文教程：https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/about.html（版本较旧）

截止到2019年11月底GitHub活跃情况：

Kaldi GitHub活跃状况

PyTorch-Kaldi

PyTorch-Kaldi是一个使用PyTorch实现的先进深度神经网络（DNN）和循环神经网络（RNN）的语音识别项目。该项目依赖于Kaldi进行数据预处理、特征提取和解码等功能。

资源：

GitHub：https://github.com/mravanelli/pytorch-kaldi
论文：https://arxiv.org/abs/1811.07453
视频：https://www.youtube.com/watch?v=VDQaf0SS4K0&t=2s

下一版本：SpeechBrain

截止到2019年11月底GitHub活跃情况：

PyTorch-Kaldi GitHub活跃状况

Bilibili视频链接： https://www.bilibili.com/video/av63902650?from=search&seid=16607800262273505881

SpeechBrain

SpeechBrain是一个完全基于PyTorch构建的新颖语音工具包。用户可以利用该工具包轻松创建各种语音处理系统，如语音识别（包括基于HMM/DNN和端到端的系统）、说话人识别、语音增强、语音分离和多麦克风语音处理等。

资源：

主页：https://speechbrain.github.io/
GitHub：https://github.com/speechbrain/speechbrain.github.io
视频：https://www.youtube.com/watch?v=XETiKbN9ojE&feature=youtu.be

截止到2019年11月底GitHub活跃情况：

SpeechBrain GitHub活跃状况

Bilibili视频链接： https://www.bilibili.com/video/av71146616?from=search&seid=15739786385174746986

PyKaldi

PyKaldi是Kaldi语音识别工具包的Python脚本层，它为Kaldi和OpenFst库中的C++代码提供了易于使用且高效的Python接口。通过PyKaldi，开发者可以用Python编写代码来替代C++代码，从而简化复杂的任务，如调用低级Kaldi函数、操作Kaldi和OpenFst对象或实现新的Kaldi工具。

资源：

文档：https://pykaldi.github.io/
GitHub：https://github.com/pykaldi/pykaldi
论文：https://github.com/pykaldi/pykaldi/blob/master/docs/pykaldi.pdf

截止到2019年11月底GitHub活跃情况：

PyKaldi GitHub活跃状况

ESPnet

ESPnet是一个专注于端到端语音识别和文本转语音的工具，主要采用Chainer和PyTorch作为深度学习引擎。它遵循Kaldi风格的数据处理、特征提取和格式化等流程，提供了一个完整的流水线解决方案。

资源：

文档：https://espnet.github.io/espnet/
GitHub：https://github.com/espnet/espnet
论文：https://arxiv.org/abs/1804.00015?context=cs

截止到2019年11月底GitHub活跃情况：

ESPnet GitHub活跃状况

其他语音工具

其他著名语音识别引擎及其特点
移动或手机端语音识别工具
参考Wikipedia上的语音识别软件列表：https://en.wikipedia.org/wiki/Listofspeechrecognitionsoftware

我之前上传的B站一些国外语音相关视频：

语音自然语言深度学习课程：Deep Learning for Speech and Language（合辑）
- https://www.bilibili.com/video/av38854819/
语音识别：A Novel Method for Speaker Recognition without Active Enrollment
- https://www.bilibili.com/video/av36308563/
语音验证：Generalized End-to-End Loss for Speaker Verification
- https://www.bilibili.com/video/av36308874/
语音验证：Deep Neural Network Embeddings for Text-Independent Speaker Verification
- https://www.bilibili.com/video/av36308701/
两分钟论文：This AI Learned To Isolate Speech Signals
- https://www.bilibili.com/video/av35977892/

推荐阅读：

免费中文语音数据集：https://www.toutiao.com/i6760427194196951555/?group_id=6760427194196951555

希望以上信息对你有所帮助！欢迎关注我的公众号“帅帅家的人工智障”或同名微博，共同学习进步。

责任编辑：：壹鸽智能

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

辨认语音材料工具相关分享

下一篇

一文读懂语音辨认技术

2019-12-16