【新智元导读】微软在语音识别领域取得了新的进展。微软的语音对话研究团队在Switchboard语音识别任务中,将错误率从5.9%降至5.1%,达到了业界领先水平。
去年,微软的研究人员宣布在Switchboard语音识别任务上达到了人类水平的准确度,实现了重大突破。微软技术Fellow黄学东在官方博客中提到,这表明他们的技术在对话中能准确识别词语,与专业速记员的表现相当。
黄学东表示,在错误率达到5.9%之后,其他研究人员通过采用更多的转录程序,将错误率降低到了5.1%。如今,微软的研究团队通过其语音识别系统达到了这一新标准,标志着行业内的一个重要里程碑。这一技术细节将在近期发布的研究报告中详细说明。
Switchboard是一个包含电话通话录音的语料库,广泛应用于语音识别研究已超过20年。这项研究团队对基于神经网络的语音和语言模型进行了多项改进,从而显著降低了错误率。他们还引入了CNN-BLSTM技术,结合了卷积神经网络和双向长短时记忆网络,提高了模型的准确性。此外,他们在frame/senone和词语层面上采用了多个声学模型的预测方法,并利用整个对话过程来增强语言模型,使其更好地适应对话的主题和上下文。
研究团队使用了可扩展的深度学习软件Microsoft Cognitive Toolkit (CNTK) 2.1,对模型架构和超参数进行了优化。微软在云计算基础设施上的投资,尤其是Azure GPU的使用,也极大地提升了模型训练和测试新想法的速度和效率。
实现与人类对话的精准度一直是微软过去25年的研究目标。微软对长期研究的持续投入,已在Cortana、演示文稿转换器(Presentation Translator)和Microsoft认知服务等产品中得到了体现。目前,这些研究成果已被数百万用户使用。
尽管微软在语音识别方面取得了显著进展,但仍面临诸多挑战,如在嘈杂环境中远距离麦克风的语音识别、方言识别以及特定说话风格或少数人群语言的识别等,这些领域尚未达到人类水平。未来,研究团队还将致力于使计算机不仅能转录口语,还能理解话语的意义和意图,这是语音技术的下一个重要挑战。
微软语音识别技术最新报告:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/08/ms_swbd17-2.pdf
编译来源:https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/