Facebook开源CNN语音辨认算法:C++编写,词错率5%,训练超快
作者头像
  • 飞机圈子
  • 2018-12-24 07:10:01 0

首个全卷积语音识别工具包wav2letter++现已开源,该工具包由Facebook AI研究团队开发,他们称其为当前“最快且最先进的”语音识别系统。下面我们将深入了解wav2letter++的特点,看看Facebook为何如此自信。

wav2letter++由Facebook AI研究院的语音团队打造,采用C++编写,并利用了ArrayFire张量库和flashlight机器学习库。Facebook表示,这是首个完全用C++实现的语音识别系统,同时也是首个全卷积语音识别系统。所谓的“全卷积”,意味着wav2letter++在处理从声波到文本的转换过程中,所有可学习的部分都是由卷积层组成的,声音建模和语言建模任务全部由卷积神经网络(CNN)完成。

通常情况下,循环神经网络(RNN)架构在声音和语言建模任务中更为常见。然而,由卷积层组成的wav2letter++在性能上并不逊色于RNN模型。Facebook的研究团队在论文中将其与其它主流开源语音识别系统进行了对比,结果显示,在某些情况下,wav2letter++训练语音识别端到端神经网络的速度是其他框架的两倍以上。此外,使用包含1亿个参数的模型进行测试时,无论使用1至64个GPU,训练时间都呈线性变化。

值得一提的是,wav2letter++还有一个前身,名为wav2letter,使用Lua语言编写。目前,新版wav2letter++已经占据了原版的GitHub仓库地址,而旧版本则被放置在wav2letter-lua分支中。由于wav2letter++使用的机器学习库flashlight也已开源,因此复现这一工具包相对容易。这个机器学习库采用现代C++即时编译技术,支持CPU和GPU,旨在提高效率和扩展性。

以下是wav2letter++的相关链接:

  • GitHub地址:https://github.com/facebookresearch/wav2letter
  • 论文地址:https://arxiv.org/pdf/1812.07625.pdf

通过上述介绍,我们可以看到wav2letter++在语音识别领域的独特优势,以及其背后的强大技术支持。

    本文来源:图灵汇
责任编辑: : 飞机圈子
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
C++辨认开源算法编写语音Facebook训练CNN
    下一篇