10月29日,云从科技宣布在语音识别技术方面取得了显著突破,在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录,错词率(Word Error Rate,WER)降低至2.97%。这项研究将Librispeech的WER指标提高了25%,超越了阿里巴巴、百度以及约翰·霍普金斯大学等企业和机构,打破了原有的记录。
云从科技表示,这已经是他们在近半年内第二次宣布刷新世界纪录。今年4月,云从科技的跨镜追踪技术(ReID)在Market-1501、DukeMTMC-reID和CUHK03三个数据集上刷新了世界纪录,其中在Market-1501上的首位命中率(Rank-1 Accuracy)达到了96.6%,使跨镜追踪技术在准确率上首次达到了商用水平。
据介绍,云从科技的核心技术涵盖了人脸识别、智能感知和智能分析三个阶段。语音识别技术是智能感知的关键组成部分,它使机器能够像人类一样理解语言,并据此做出处理和反馈。
近年来,借助深度学习技术的发展,语音识别技术取得了显著进展,从实验室逐渐走向市场,进入实用阶段。基于语音识别技术的各种人机交互场景,如输入法、搜索引擎和翻译工具等,也得到了广泛应用。
Librispeech是目前衡量语音识别技术的主要开源数据集之一,它是世界上最大的免费语音识别数据库,包含了1000小时的多人朗读清晰音频,具有书籍章节结构。错词率(WER)是衡量语音识别技术水平的核心指标。
在技术研究的“最后一英里”,每0.1个百分点的进步都极为艰难。云从科技在Librispeech数据集上刷新了行业最佳水平,将错词率(WER)降至2.97%,比之前提升了25%,超过了人类专业速记员的水平。这一成果有望推动语音识别技术的快速发展。
云从科技推出的语音识别模型Pyramidal-FSMN融合了图像识别与语音识别的优点,将残差卷积网络和金字塔记忆模块相结合,可以同时有效提取空间和时间上的信息。与目前广泛使用的LSTM模型相比,该模型训练速度更快,识别准确率更高。
云从科技提出的新型网络结构能够更有效地提取空间和时间特征,为语音识别技术的进一步发展提供了新思路。该模型的设计采用了残差卷积网络和金字塔记忆模块相结合的结构,训练方式结合了lattice-free最大互信息(LF-MMI)与交叉熵(CE)损失函数的多任务学习技术。解码部分采用RNNLM rescoring方法,利用RNN提取句子中的长期语义信息,从而帮助声学模型获得更准确的结果。
该模型由6层ResidualCNN和10层Pyramidal-FSMN构成。前端网络借鉴了图像识别中经典的Residual CNN结构,有效提取特征与时间之间的关联信息,同时通过skip connection避免了梯度消失和梯度爆炸问题。在金字塔记忆模块中,浅层网络专注于音素特征的学习,只提取短时上下文信息;深层网络则学习长时间的上下文信息,包括语义和语法特征。这种金字塔结构既减少了参数数量,又提高了识别效果。
在损失函数部分,作者采用了基于LF-MMI的序列训练方式,并引入传统交叉熵损失函数,通过设置交叉熵的正则化系数,有效避免了过拟合问题。最终,作者使用了RNNLM rescoring技术对解码结果进行了进一步优化。即使在没有RNNLM rescoring的情况下,Pyramidal-FSMN已经达到了当前的最佳结果,而rescoring后则进一步提升了识别准确率。
论文链接:https://arxiv.org/abs/1810.11352
近年来,除了传统的高斯混合模型-隐马尔科夫模型(GMM-HMM)外,深度神经网络(DNN)已被广泛应用于大规模词汇连续语音识别(LVCSR)系统中的声学模型。前馈神经网络(FNN)等早期研究仅将当前时间步作为输入。循环神经网络(RNN),特别是长短期记忆网络(LSTM),因其循环连接和对序列信息的利用,在语音识别任务中表现出色。卷积神经网络(CNN)通过局部连接、权重共享和池化等技术,也取得了优于以往的研究成果。
然而,RNN的训练依赖于随时间反向传播(BPTT),可能会导致计算复杂度高、梯度消失或爆炸等问题。教师强制训练可以在一定程度上缓解这些问题,但会降低RNN的鲁棒性。最近,前馈序列记忆网络(FSMN)被提出,无需循环反馈即可建模长期关系。FSMN还应用了残差连接,以构建更深的神经网络架构。与此同时,时延神经网络(TDNN)及其变体TDNN-F也被广泛使用。
本文提出了一种新的CNN Pyramidal-FSMN架构,通过LF-MMI和交叉熵联合训练得到。金字塔架构应用于记忆模块,顶层包含较短的上下文信息,深层则包含较长的上下文信息。此外,每隔几层添加一次残差连接,以提高模型性能。为了从原始Mel-Frequency Cepstral Coefficients(MFCCs)中提取更精确的特征,前端部署了CNN层。
云从科技的研究人员在不同的语音识别任务中评估了该架构的表现。在300小时的Switchboard语料库中,提出的架构实现了当前最低的错词率(WER),仅为10.89%。而在1000小时的Librispeech语料库中,WER为3.62%。此外,RNN语言模型(RNNLM)在解码和重评分方面的表现优于传统的N-gram语言模型,带来了超过1%的绝对改进。