想让语音助手听懂方言,这个数据集或能帮你?
作者头像
  • 吴玉馨
  • 2021-05-13 07:43:09 1

方言是语音识别技术发展过程中必须克服的一个难点,如何让模型理解和识别方言呢?利用优质的数据集是一种有效的解决方法。本文将介绍一个经典方言录音数据集——TIMIT。

关键词:语音识别,方言识别,数据集

随着技术的进步,语音识别技术已经渗透到生活的各个方面,但在方言识别方面仍然存在挑战。以美式英语为例,尽管书面表达相对规范,但由于方言、口音和俚语的差异,发音和词汇的使用方式千差万别。

这种差异导致语音系统在识别方言时容易出现错误,甚至产生误解。例如,2018年,华盛顿邮报、Globalme和Pulse Labs(一家专注于语音研究的公司)联合进行了一项测试,评估方言和口音对语音识别系统的影响。这项测试在美国20多个城市中进行,超过100名参与者发出了数千条方言语音命令,结果显示主流智能音箱在识别这些命令时存在显著差异。

其中,Google Home在识别西海岸口音时,准确率比识别北部口音高出3%;而亚马逊的语音助手Alexa在识别中西部口音时,准确率比东海岸口音低2%。这意味着智能音箱在处理各种方言时并不总是表现良好,尤其是在识别非本土口音时问题更为严重。

对于移民群体的发音,无论是Google Home还是Amazon Echo,英语识别的准确率都很低。特别是对于拉丁裔和华裔群体,使用Alexa进行识别时,不准确率高达30%。

要解决这一问题,关键在于让AI系统能够识别不同方言的语音,从而在互动中准确理解用户的意图。为此,谷歌和亚马逊都提出了基于数据的解决方案。亚马逊表示,随着更多使用不同方言的人与Alexa交流,其理解能力将得到提升。谷歌则表示,将在扩大多样化数据集的同时,不断提高Google Home的识别能力。

从某种程度上讲,语音识别中的方言和口音识别问题可归因于数据不足。语料库的质量越高,语言模型就越丰富多样,语音识别系统的准确率也就越高。

因此,要解决方言识别的问题,一种有效的方法是拥有优质的数据集。而TIMIT方言录音数据集正是早期的数据科学家们认识到这个问题后创建的,它很好地承担了训练方言识别的任务。

TIMIT方言录音数据集于1993年推出,涵盖8种主要美国英语方言,共计6300个录音片段,旨在帮助语音系统开发和评估方言识别功能。该数据集包含了6300个方言录音片段,格式包括.wav、.txt、.wrd和.phn,采样率为16kHz,16位深度,总大小约为419.82MB。

数据集由麻省理工学院、SRI国际和德州仪器公司合作创建,包含630名录音者的10句话录音。由于数据集进行了测试和训练集的划分,很好地平衡了语音和方言的覆盖范围。

该数据集包括一些与话语句子相关的文件,除了语音波形文件(.wav)外,还包括对应的句子内容(.txt)、经过时间对齐(time-aligned)的单词内容(.wrd)以及经过时间对齐(time-aligned)的音素内容(.phn)三种类型的文件。

作为语音识别领域的经典数据集,TIMIT方言录音数据集被广泛应用于语音识别的研究中,推动了语音识别实验的进展。即使在二十多年后的今天,该数据集仍然被广泛使用。由于数据集中的每个句子都在音素级别上进行了手动标注,并且提供了说话人的编号、性别和方言种类等多种信息,至今仍不过时。

此外,数据集规模较小,可以在短时间内完成模型训练,同时又能充分展示系统的性能。虽然数据集不能完全解决语音识别中的方言和口音问题,但它为解决这一问题奠定了重要基础。

    本文来源:图灵汇
责任编辑: : 吴玉馨
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
听懂方言语音助手这个数据
    下一篇