语音AI设备频现“口音歧视” 自动语音识别也分三六九等? ...
作者头像
  • 2018-08-08 21:51:03 1

几十年来,自动语音识别(ASR)一直是机器学习领域的重大挑战。与人类不同,自动语音识别器对上下文信息不够敏感,对环境变化(如录音条件和发音特点)的反应也不够稳定。

越来越多的用户开始意识到,语音识别系统中存在明显的“口音歧视”。

案例1:同一国家的不同方言带来的困扰

在一个恶搞广告中,一名美国女子要求亚马逊的Echo语音助手播放“乡村音乐电台”,但Echo误解了她的口音,将其理解为“极度便秘”。随后,她不得不更换了一款能识别南方口音的设备,然而这款设备也出现了误操作,将罐头饼干添加到了她的购物清单上。这种情况在美国南部十分常见,因为当地人通常自己烘焙饼干,这样的误操作让人感到尴尬。

如今,越来越多的智能手机和电脑(包括桌面设备如Echo)可以通过语音命令进行操作。这些系统越来越善于理解用户的意图,但对于口音特殊的用户来说,体验仍不尽如人意。例如,亚马逊Echo曾因误解用户对话而将一段家庭谈话发送给了同事,引发了广泛关注。

训练语音识别系统需要大量的语音样本和人工转录,这些系统通过分析音频和文本文件来学习,从而更好地预测未曾见过的新词汇组合。每个国家使用的语音识别系统可能只针对一种标准发音,而其他口音则可能被忽略。尽管每个人的发音都有所不同,但并非所有口音都能得到充分的识别。

案例2:语音识别中的“种族歧视”

华盛顿大学的语言学博士Rachael Tatman研究了不同区域口音对自动语音识别的影响。在一项研究中,她观察了使用谷歌语音识别系统的YouTube自动字幕。她重点关注了五种不同口音的演讲者,发现苏格兰人的口音识别准确率最低,其次是美国南方口音。此外,微软的语音识别系统在识别非标准口音时,尤其是来自黑人和亚洲人口音的语音,准确率更低。

口音对人类来说可能不是问题,甚至可能充满魅力,但对于机器来说,却是一个复杂的挑战。一些公司已经开始提供多种选择,比如设置Siri或Echo为澳大利亚英语,但它们仍然只能处理有限数量的口音,偏向于标准口音。

印度口音以其独特性著称,虽然对许多人来说难以接受,但对于科技公司来说,这是一个巨大的技术挑战,同时也带来了市场机会。

案例3:不同地区的语音识别差异

最近,《华盛顿邮报》与Globalme和Pulse Labs两家语言研究公司合作,对智能音箱的口音问题进行了研究。这项研究覆盖了美国20多个城市的100多名参与者,发现这些系统在理解不同地区口音时存在显著差异。例如,Google Home对西海岸口音的理解优于南方口音,而对于非英语母语者,如以西班牙语或汉语为母语的人,语音识别准确率较低。

用户:自我训练语音识别

一种解决方案是让用户自行训练语音识别系统,这可以让他们掌握更多控制权。Echo已经提供了类似的功能,如Cleo,鼓励用户发送新的语音样本给亚马逊。亚马逊的珍妮特·斯利夫卡(Janet Slifka)解释说,随着用户使用,这些系统会逐渐改进。但如果没有足够的用户参与,这些系统很难持续改进。

研究人员:开发专门的语音识别方案

另一方面,研究人员正在开发专门用于识别特定口音的人工智能系统,以改善语音识别的准确性。例如,思科、莫斯科物理科学与技术学院和高等经济学院的研究人员提出了一种名为“学习语音模式的外国英语口音调整”的方法。他们的系统通过分析词汇和语调的差异,生成新的语音样本,提高了识别准确率。

科技巨头:收集更多语音样本

对语音识别和智能音箱技术的科技巨头来说,口音依然是主要挑战之一。他们正在投入资源,通过各种方式收集和测试新的语音样本,包括利用游戏等方式吸引用户参与。国外知名的语料库如Switchboard,包含了大量语音样本,用于测试语音系统的准确性。

机构:呼吁开源语音样本

在这种背景下,一些机构和企业呼吁开放共享语音样本,打破科技巨头的垄断,进一步推动语音识别技术的发展。Mozilla去年启动了一个大型开源语音采集项目——同声计划(Common Voice),旨在建立一个公开可用的语音数据集,供所有人使用。

这一系列的努力表明,语音识别技术仍有很大的发展空间,而解决口音识别问题将是其中的关键一步。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
语音三六九等口音歧视识别自动设备
    下一篇