云从科技刷新一项语音辨认纪录:将 Librispeech 数据集上的错词率降至 2.97%
作者头像
  • 重庆聊VR
  • 2020-07-18 19:03:30 0

云从科技在语音识别领域取得突破

10月29日,云从科技宣布在Librispeech数据集上取得了显著进展,将错词率(Word Error Rate,WER)降低到了2.97%,比之前的最佳记录提高了25%。这一成就超越了包括阿里、百度、约翰霍普金斯大学在内的众多企业和学术机构,刷新了该领域的记录。

Librispeech数据集的重要性

Librispeech是目前衡量语音识别技术的主要开源数据集之一,其错词率(WER)是评估语音识别性能的重要指标。

云从科技的技术优势

云从科技发布的Pyramidal-FSMN语音识别模型,融合了图像识别和语音识别的优点,结合了残差卷积网络和金字塔记忆模块的序列记忆网络。这种方法可以在时间和空间维度上有效提取不同粒度的信息,相比目前广泛使用的LSTM模型,具有更快的训练速度和更高的识别精度。

近年语音识别技术的发展

近年来,语音识别技术取得了显著进步。例如:

  • 2017年3月,IBM结合了LSTM模型和WaveNet语言模型,实现了5.5%的错词率,相比前一年的6.9%有所下降。
  • 2017年8月,微软通过改进其语音识别系统中的神经网络模型,将错词率降至5.1%,超过了专业速记员的水平。
  • 2017年12月,谷歌发布了一种全新的端到端语音识别系统,错词率降低到5.6%,比传统系统提高了16%的功能。
  • 2018年6月,阿里巴巴达摩院推出的新一代语音识别模型DFSMN,将全球语音识别准确率提高到96.04%,错词率降低到3.96%。
  • 2018年10月,云从科技发布了Pyramidal-FSMN模型,将错词率降至2.97%,比之前的记录提高了25%。

Pyramidal-FSMN模型解析

云从科技提出的Pyramidal-FSMN模型采用了一种创新的网络结构,能够更有效地提取空间和时间特征,为语音识别技术的发展提供了新的思路:

  • 模型设计:采用残差卷积网络和金字塔记忆模块相结合的结构。
  • 训练方式:结合了lattice-free最大互信息(LF-MMI)和交叉熵(CE)损失函数的多任务学习技术。
  • 解码部分:采用RNNLM rescoring方法,利用RNN提取句子中的长期语义信息,从而更有效地辅助声学模型获得准确的句子。

网络结构详解

该模型采用了6层Residual CNN和10层Pyramidal-FSMN相结合的网络结构。前端网络借鉴了图像识别中经典的Residual CNN结构,更有效地提取特征与时间之间的关联信息。在金字塔记忆模块中,浅层网络主要关注音素本身的学习,而深层网络则需要学习长时上下文信息,包括语义和语法特征。

在损失函数方面,该模型采用了基于LF-MMI的序列性训练方法,并引入了传统的交叉熵损失函数来防止过拟合。

最后,通过RNNLM rescoring技术对解码过程进行了进一步优化。即使在没有RNNLM rescoring的情况下,Pyramidal-FSMN模型也已经达到了当前的最佳结果,而经过rescoring后,性能进一步提升。

训练数据来源

云从科技的声学模型和RNNLM训练数据完全基于Librispeech和通用的语言模型数据集,未使用其他额外的数据。

论文地址:https://arxiv.org/abs/1810.11352

相关介绍:Librispeech数据集是世界上最大的免费语音识别数据库,包含1000小时的多人朗诵的清晰音频,由有声读物构成。

    本文来源:图灵汇
责任编辑: : 重庆聊VR
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
辨认Librispeech语音刷新纪录数据科技云从2.97
    下一篇