准确率高达96.04%!阿里开源自研语音辨认模型 DFSMN
作者头像
  • 熊军
  • 2020-05-29 11:46:12 0

近日,阿里巴巴达摩院机器智能实验室发布了一款新的语音识别模型DFSMN,该模型将全球语音识别准确率记录提升至96.04%(该数据基于全球最大的免费语音识别数据库LibriSpeech)。

与目前广泛应用的LSTM模型相比,DFSMN模型不仅训练速度更快,而且识别准确率更高。应用DFSMN模型的智能音箱或智能家居设备,相较于前代产品,深度学习训练速度提升了3倍,语音识别速度也提高了2倍。

语音识别模型DFSVM

  • 授权协议:MIT
  • 开发语言:C/C++
  • 操作系统:跨平台
  • GitHub地址:https://github.com/tramphero/kaldi

语音识别技术一直是人机交互的关键部分。借助这项技术,机器能够“听懂”人类的语言,并进行思考、理解和反馈。近年来,随着深度学习技术的应用,基于深度神经网络的语音识别系统性能显著提升,逐步实现了实用化。语音输入、语音转文字、语音搜索以及语音翻译等技术也得到了广泛应用。

目前主流的语音识别系统大多采用基于深度神经网络和隐马尔可夫模型(DNN-HMM)的声学模型。这类模型的输入通常是经过处理的语音波形,提取出的频谱特征包括PLP、MFCC和FBK等。声学建模单元通常采用单音素、单音素状态或绑定的音素状态等。通过不同的神经网络结构,将输入的声学特征映射为不同建模单元的后验概率,再结合HMM进行解码,从而获得最终的识别结果。

据透露,DFSMN模型是在国际声学会议ICASSP 2018上进行口头报告的DFSMN(深度前馈序列记忆网络)。该模型基于BLSTM的统计参数语音合成系统,采用广泛使用的跳跃连接技术,使得反向传播算法中的梯度可以绕过非线性变换。

著名语音识别专家、东南大学教授谢磊表示,阿里巴巴开源的DFSMN模型在语音识别准确率方面的突破性提升,是近年来深度学习在语音识别领域最具代表性的成果之一,对全球学术界和AI技术应用产生了重大影响。

    本文来源:图灵汇
责任编辑: : 熊军
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
阿里准确率辨认源自语音模型高达DFSMN96.04
    下一篇