10月29日,云从科技宣布在Librispeech数据集上取得了显著进展,将错词率(Word Error Rate,WER)降低到了2.97%,比之前的最佳记录提高了25%。这一成就超越了包括阿里、百度、约翰霍普金斯大学在内的众多企业和学术机构,刷新了该领域的记录。
Librispeech是目前衡量语音识别技术的主要开源数据集之一,其错词率(WER)是评估语音识别性能的重要指标。
云从科技发布的Pyramidal-FSMN语音识别模型,融合了图像识别和语音识别的优点,结合了残差卷积网络和金字塔记忆模块的序列记忆网络。这种方法可以在时间和空间维度上有效提取不同粒度的信息,相比目前广泛使用的LSTM模型,具有更快的训练速度和更高的识别精度。
近年来,语音识别技术取得了显著进步。例如:
云从科技提出的Pyramidal-FSMN模型采用了一种创新的网络结构,能够更有效地提取空间和时间特征,为语音识别技术的发展提供了新的思路:
该模型采用了6层Residual CNN和10层Pyramidal-FSMN相结合的网络结构。前端网络借鉴了图像识别中经典的Residual CNN结构,更有效地提取特征与时间之间的关联信息。在金字塔记忆模块中,浅层网络主要关注音素本身的学习,而深层网络则需要学习长时上下文信息,包括语义和语法特征。
在损失函数方面,该模型采用了基于LF-MMI的序列性训练方法,并引入了传统的交叉熵损失函数来防止过拟合。
最后,通过RNNLM rescoring技术对解码过程进行了进一步优化。即使在没有RNNLM rescoring的情况下,Pyramidal-FSMN模型也已经达到了当前的最佳结果,而经过rescoring后,性能进一步提升。
云从科技的声学模型和RNNLM训练数据完全基于Librispeech和通用的语言模型数据集,未使用其他额外的数据。
论文地址:https://arxiv.org/abs/1810.11352
相关介绍:Librispeech数据集是世界上最大的免费语音识别数据库,包含1000小时的多人朗诵的清晰音频,由有声读物构成。