语音识别技术一直是众多研究团队和企业关注的焦点,关于准确率的竞赛和比较从未间断。去年,微软率先实现了语音识别系统5.9%的低错误率,在Switchboard对话语音识别任务中达到了人类水平。
最近,微软语音和对话研究团队的负责人黄学东宣布,微软的语音识别系统错误率进一步降至5.1%,这一进步被视为语音识别行业的新里程碑,其准确率甚至超过了专业速记员。这项突破大幅刷新了先前的记录,并在行业内树立了新的标杆。
此前,当微软的转录系统达到5.9%的错误率后,其他研究团队在此基础上进行了进一步探索,采用更多的多转录程序,从而在语音识别的准确性上取得了更大的进展。
这两项研究均针对Switchboard语料库中的录音,这是一个包含电话通话录音的数据库,自上世纪90年代起就被广泛用作测试语音识别系统的样本。测试任务包括对陌生人之间关于体育、政治等话题的对话进行语音到文字的转录。
为了实现这一突破,研究人员对微软语音识别系统中的神经网络模型进行了改进,降低了大约12%的错误率。他们还引入了CNN-BLSTM(结合双向LSTM的卷积神经网络)模型,以提升语音建模的效果。此外,系统中已经应用的从多个语音模型进行综合预测的方法,在帧/句音级别和单词级别下都得到了更好的应用。
除此之外,研究人员还通过对整个对话过程的历史记录进行分析,预测即将发生的事件,进一步增强了识别器的语言模型,使其能更好地适应对话话题和语境的快速变化。
在研究过程中,微软的认知工具包Microsoft Cognitive Toolkit 2.1(CNTK)表现出色,研究人员利用它来探索模型架构和优化模型的超参数。此外,微软对云计算基础设施(特别是Azure GPU)的投资也显著提高了训练模型和测试新想法的速度和效果。
实现“人类对等”的识别准确率一直是语音识别领域的长期目标。微软致力于持续深耕这一领域,并将新技术尽快应用于Cortana、Presentation Translator、Microsoft Cognitive Services等产品和服务中,使用户能够亲身体验这些新技术的魅力。微软的研究团队非常自豪地看到每天有数百万用户在使用这些产品,未来将继续努力,创造更多突破性的成果。
虽然目前在Switchboard语音识别任务中实现了5.1%的低错误率,但语音研究领域依然面临诸多挑战,如嘈杂环境下的语音识别、方言识别、以及在有限训练数据条件下或使用较少人使用的语言时的语音识别等,这些领域仍需大量努力才能达到接近人类的水平。此外,将语音转换为文字只是第一步,让计算机理解其中的意义和意图仍是需要解决的重要问题。从语音识别到话语理解,将是未来语音相关技术的一个重要前沿方向。