IBM的语音辨认系统曾经接近人类的言语表述-可怕

交子科技
2020-07-19 08:14:47 1

IBM近期宣布，其语音识别系统达到了5.5%的单词错误率，刷新了行业纪录，更接近人类水平。这项成就对企业有着重要的意义。

IBM团队研发的系统实现了5.5%的单词错误率，相比去年的6.9%有了显著进步。该系统在处理复杂语音任务时表现出色，能够识别人们日常对话中的内容，如讨论购车等话题。根据IBM首席研究科学家George Saon的文章，这项测试称为SWITCHBOARD，已经使用超过20年。

IBM利用深度学习技术，结合多种模型实现了5.5%的错误率。具体来说，他们采用了长期短期记忆（LSTM）和WaveNet语言模型，并结合了三个声学模型。其中，前两个模型为六层双向LSTM，一个具备多功能输入，另一个通过对抗式多任务学习进行训练。第三个模型的独特之处在于，它不仅从正面例子中学习，还能从负面例子中获益，从而提升识别准确度。

尽管IBM取得了重大进展，但距离人类水平仍有差距。微软曾于2016年10月宣布其语音识别系统达到5.9%的错误率，接近人类水平。然而，IBM的实验数据显示，人类的平均错误率约为5.1%，这意味着还有改进的空间。

蒙特利尔大学MILA实验室负责人Yoshua Bengio指出，在语音识别等AI任务中实现人类水平性能仍然是一个科学挑战。标准基准并不能完全反映实际情况，不同数据集对任务的敏感度也不同。此外，衡量人类表现的方法也会对结果产生影响。

IBM在语音识别领域的突破可能会对企业的AI和物联网应用产生深远影响。随着对话式AI平台如Alexa和Google Assistant的普及，更低的错误率将促进语音作为用户界面的广泛应用。

IBM近期对其Watson部门进行了大量投资，作为其2014年承诺的30亿美元物联网投资的一部分。Watson物联网全球总部设在德国慕尼黑，投资额达2亿美元。Watson语音转文本服务使得系统能够在对话中区分不同说话者，进一步提升了语音识别的实用性。

图灵汇

责任编辑：：交子科技

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

辨认表述语音言语可怕接近曾经人类系统 IBM

华尔街见闻

2020-07-19

你也许还没无看法到，语音辨认曾经让一切人掌握了魔法奥义