IBM的语音辨认系统曾经接近人类的言语表述-可怕
作者头像
  • 交子科技
  • 2020-07-19 08:14:47 1

IBM近期宣布,其语音识别系统达到了5.5%的单词错误率,刷新了行业纪录,更接近人类水平。这项成就对企业有着重要的意义。

IBM团队研发的系统实现了5.5%的单词错误率,相比去年的6.9%有了显著进步。该系统在处理复杂语音任务时表现出色,能够识别人们日常对话中的内容,如讨论购车等话题。根据IBM首席研究科学家George Saon的文章,这项测试称为SWITCHBOARD,已经使用超过20年。

IBM利用深度学习技术,结合多种模型实现了5.5%的错误率。具体来说,他们采用了长期短期记忆(LSTM)和WaveNet语言模型,并结合了三个声学模型。其中,前两个模型为六层双向LSTM,一个具备多功能输入,另一个通过对抗式多任务学习进行训练。第三个模型的独特之处在于,它不仅从正面例子中学习,还能从负面例子中获益,从而提升识别准确度。

尽管IBM取得了重大进展,但距离人类水平仍有差距。微软曾于2016年10月宣布其语音识别系统达到5.9%的错误率,接近人类水平。然而,IBM的实验数据显示,人类的平均错误率约为5.1%,这意味着还有改进的空间。

蒙特利尔大学MILA实验室负责人Yoshua Bengio指出,在语音识别等AI任务中实现人类水平性能仍然是一个科学挑战。标准基准并不能完全反映实际情况,不同数据集对任务的敏感度也不同。此外,衡量人类表现的方法也会对结果产生影响。

IBM在语音识别领域的突破可能会对企业的AI和物联网应用产生深远影响。随着对话式AI平台如Alexa和Google Assistant的普及,更低的错误率将促进语音作为用户界面的广泛应用。

IBM近期对其Watson部门进行了大量投资,作为其2014年承诺的30亿美元物联网投资的一部分。Watson物联网全球总部设在德国慕尼黑,投资额达2亿美元。Watson语音转文本服务使得系统能够在对话中区分不同说话者,进一步提升了语音识别的实用性。

    本文来源:图灵汇
责任编辑: : 交子科技
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
辨认表述语音言语可怕接近曾经人类系统IBM
    下一篇