Facebook开源CNN语音辨认算法：C++编写，词错率5%，训练超快

飞机圈子
2018-12-24 07:10:01 0

首个全卷积语音识别工具包wav2letter++现已开源，该工具包由Facebook AI研究团队开发，他们称其为当前“最快且最先进的”语音识别系统。下面我们将深入了解wav2letter++的特点，看看Facebook为何如此自信。

wav2letter++由Facebook AI研究院的语音团队打造，采用C++编写，并利用了ArrayFire张量库和flashlight机器学习库。Facebook表示，这是首个完全用C++实现的语音识别系统，同时也是首个全卷积语音识别系统。所谓的“全卷积”，意味着wav2letter++在处理从声波到文本的转换过程中，所有可学习的部分都是由卷积层组成的，声音建模和语言建模任务全部由卷积神经网络（CNN）完成。

通常情况下，循环神经网络（RNN）架构在声音和语言建模任务中更为常见。然而，由卷积层组成的wav2letter++在性能上并不逊色于RNN模型。Facebook的研究团队在论文中将其与其它主流开源语音识别系统进行了对比，结果显示，在某些情况下，wav2letter++训练语音识别端到端神经网络的速度是其他框架的两倍以上。此外，使用包含1亿个参数的模型进行测试时，无论使用1至64个GPU，训练时间都呈线性变化。

值得一提的是，wav2letter++还有一个前身，名为wav2letter，使用Lua语言编写。目前，新版wav2letter++已经占据了原版的GitHub仓库地址，而旧版本则被放置在wav2letter-lua分支中。由于wav2letter++使用的机器学习库flashlight也已开源，因此复现这一工具包相对容易。这个机器学习库采用现代C++即时编译技术，支持CPU和GPU，旨在提高效率和扩展性。

以下是wav2letter++的相关链接：