谷歌在5月的I/O开发者大会上宣布了Euphonia项目,该项目旨在提升语音识别技术对具有非标准发音或障碍人群的理解能力。近日,谷歌发布了一篇论文,详细介绍了其人工智能技术在这方面的应用。
许多患有运动障碍的人,例如因肌萎缩侧索硬化症(ALS)等退行性疾病引起的患者,其语音往往难以被现有的自然语言处理系统识别。传统的自动语音识别(ASR)系统多是基于“标准”发音训练而成,这导致许多有语音障碍或口音较重的人群无法充分受益于这些技术。
即便是在当前最先进的ASR模型中,中度语言障碍的ALS患者也经常面临较高的错误率,从而阻碍了他们对依赖ASR技术的应用。这一问题部分源于训练数据集的局限性。这种偏差在其他领域,如人脸识别中也可能存在。
为了应对这一挑战,谷歌的研究人员收集了大量ALS患者的语音样本。由于每位患者受自身病情影响不同,处理这些数据的过程与处理不常见口音并不相同。研究人员使用了一个标准的语音识别模型作为基础,并对其进行了一些实验性的调整,在新音频数据上进行再训练。这种方法显著降低了单词错误率,且对原模型的改动相对较小,使得在适应新语音时所需的计算资源较少。
研究发现,即使在调整之后,模型仍然可能在识别特定音素(如“e”或“f”)时出现两种类型的错误。第一种错误是无法识别某些音素,进而无法识别整个单词。第二种错误则涉及到模型对说话者意图的判断,在多个发音相似的单词间可能会产生误判。
例如,一个人说“我要回到房子里去”,系统可能无法正确识别“房子里”的“b”和“h”。尽管如此,这项研究已经取得了一定的进展。据悉,相关论文《在有限数据条件下针对语音障碍和重音语音的个性化ASR》将在下个月于奥地利举行的Interspeech大会上发布。