准确率高达96.04%!阿里开源自研语音辨认模型 DFSMN
作者头像
  • 财经早报
  • 2019-01-26 12:12:37 0

近日,阿里巴巴达摩院机器智能实验室发布了一款名为DFSMN的新一代语音识别模型,该模型将全球语音识别准确率提升至96.04%。这一成绩是基于世界上最大的免费语音识别数据库LibriSpeech进行测试的。

与目前广泛应用的LSTM模型相比,DFSMN模型在训练速度和识别准确性方面都有显著提升。搭载新DFSMN模型的智能音箱或智能家居设备,相比前代产品,其深度学习训练速度提升了3倍,语音识别速度也提高了2倍。

DFSMN语音识别模型

  • 授权协议:MIT
  • 开发语言:C/C++
  • 操作系统:跨平台
  • GitHub地址: https://github.com/tramphero/kaldi

语音识别技术一直是人机交互的关键部分。这项技术使机器能够理解人类的语言,并在此基础上进行思考、理解和反馈。近年来,随着深度学习技术的应用,基于深度神经网络的语音识别系统性能大幅提升,逐步走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术已经得到了广泛应用。

目前,主流的语音识别系统大多采用基于深度神经网络和隐马尔可夫模型(DNN-HMM)的声学模型。这种模型的输入通常包括传统的语音波形经过加窗、分帧后提取出的频谱特征,如PLP、MFCC和FBK等。此外,模型输入一般采用不同粒度的声学建模单元,如单音素(mono-phone)、单音素形态和绑定的音素形态(tri-phonestate)等。通过不同的神经网络结构,输入的声学特征被映射为不同建模单元的后验概率,再结合HMM进行解码,最终得到识别结果。

据知情人士透露,DFSMN模型是在国际声学会议ICASSP 2018上进行口头报告的DFSMN(深度前馈序列记忆网络)。该模型基于BLSTM的统计参数语音合成系统作为基础模型,采用了广泛使用的跳跃连接技术,在反向传播算法中,梯度可以绕过非线性变换。

东南大学教授、知名语音识别专家谢磊表示:“阿里开源的DFSMN模型在语音识别准确率上的提升是革命性的,这是近年来深度学习在语音识别领域最具代表性的成果之一,对全球学术界和AI技术应用都有重大影响。”

    本文来源:图灵汇
责任编辑: : 财经早报
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
阿里准确率辨认源自语音模型高达DFSMN96.04
    下一篇