语音辨认相关工具和材料分享
作者头像
  • 壹鸽智能
  • 2019-12-16 08:29:06 0

常见的语音识别工具种类繁多,以下是几种较为流行的工具介绍,包括Kaldi、PyTorch-Kaldi、SpeechBrain、PyKaldi和ESPnet。

Kaldi

Kaldi是一款由Dan Povey大神使用C++开发的开源语音识别工具集,目前在语音识别领域具有举足轻重的地位。Dan Povey曾任职于小米公司。

资源:

  • 文档:http://kaldi-asr.org/doc/build_setup.html
  • 论文:http://publications.idiap.ch/downloads/papers/2012/PoveyASRU20112011.pdf
  • Dan Povey的博客:http://www.danielpovey.com/kaldi-lectures.html
  • 中文教程:https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/about.html(版本较旧)

截止到2019年11月底GitHub活跃情况:

Kaldi GitHub活跃状况

PyTorch-Kaldi

PyTorch-Kaldi是一个使用PyTorch实现的先进深度神经网络(DNN)和循环神经网络(RNN)的语音识别项目。该项目依赖于Kaldi进行数据预处理、特征提取和解码等功能。

资源:

  • GitHub:https://github.com/mravanelli/pytorch-kaldi
  • 论文:https://arxiv.org/abs/1811.07453
  • 视频:https://www.youtube.com/watch?v=VDQaf0SS4K0&t=2s

下一版本:SpeechBrain

截止到2019年11月底GitHub活跃情况:

PyTorch-Kaldi GitHub活跃状况

Bilibili视频链接: https://www.bilibili.com/video/av63902650?from=search&seid=16607800262273505881

SpeechBrain

SpeechBrain是一个完全基于PyTorch构建的新颖语音工具包。用户可以利用该工具包轻松创建各种语音处理系统,如语音识别(包括基于HMM/DNN和端到端的系统)、说话人识别、语音增强、语音分离和多麦克风语音处理等。

资源:

  • 主页:https://speechbrain.github.io/
  • GitHub:https://github.com/speechbrain/speechbrain.github.io
  • 视频:https://www.youtube.com/watch?v=XETiKbN9ojE&feature=youtu.be

截止到2019年11月底GitHub活跃情况:

SpeechBrain GitHub活跃状况

Bilibili视频链接: https://www.bilibili.com/video/av71146616?from=search&seid=15739786385174746986

PyKaldi

PyKaldi是Kaldi语音识别工具包的Python脚本层,它为Kaldi和OpenFst库中的C++代码提供了易于使用且高效的Python接口。通过PyKaldi,开发者可以用Python编写代码来替代C++代码,从而简化复杂的任务,如调用低级Kaldi函数、操作Kaldi和OpenFst对象或实现新的Kaldi工具。

资源:

  • 文档:https://pykaldi.github.io/
  • GitHub:https://github.com/pykaldi/pykaldi
  • 论文:https://github.com/pykaldi/pykaldi/blob/master/docs/pykaldi.pdf

截止到2019年11月底GitHub活跃情况:

PyKaldi GitHub活跃状况

ESPnet

ESPnet是一个专注于端到端语音识别和文本转语音的工具,主要采用Chainer和PyTorch作为深度学习引擎。它遵循Kaldi风格的数据处理、特征提取和格式化等流程,提供了一个完整的流水线解决方案。

资源:

  • 文档:https://espnet.github.io/espnet/
  • GitHub:https://github.com/espnet/espnet
  • 论文:https://arxiv.org/abs/1804.00015?context=cs

截止到2019年11月底GitHub活跃情况:

ESPnet GitHub活跃状况

其他语音工具

  • 其他著名语音识别引擎及其特点
  • 移动或手机端语音识别工具
  • 参考Wikipedia上的语音识别软件列表:https://en.wikipedia.org/wiki/Listofspeechrecognitionsoftware

我之前上传的B站一些国外语音相关视频:

  • 语音自然语言深度学习课程:Deep Learning for Speech and Language(合辑)
    • https://www.bilibili.com/video/av38854819/
  • 语音识别:A Novel Method for Speaker Recognition without Active Enrollment
    • https://www.bilibili.com/video/av36308563/
  • 语音验证:Generalized End-to-End Loss for Speaker Verification
    • https://www.bilibili.com/video/av36308874/
  • 语音验证:Deep Neural Network Embeddings for Text-Independent Speaker Verification
    • https://www.bilibili.com/video/av36308701/
  • 两分钟论文:This AI Learned To Isolate Speech Signals
    • https://www.bilibili.com/video/av35977892/

推荐阅读:

  • 免费中文语音数据集:https://www.toutiao.com/i6760427194196951555/?group_id=6760427194196951555

希望以上信息对你有所帮助!欢迎关注我的公众号“帅帅家的人工智障”或同名微博,共同学习进步。

    本文来源:图灵汇
责任编辑: : 壹鸽智能
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
辨认语音材料工具相关分享
    下一篇