自动语音识别(ASR)不仅是语音助手如Apple Siri的基础技术,也是听写软件如Nuance Dragon以及客户支持平台如Google Contact Center AI的关键组成部分。ASR使得机器能够解析语音中的关键短语和单词,并通过语调和音调区分不同的人。
正因为如此,ASR成为了Facebook研究的重点领域。Facebook利用其对话技术来支持Portal的语音识别,并将其应用于内容分类。今年早些时候,Facebook在InterSpeech会议上介绍了wave2vec,这是一种新颖的机器学习算法,通过使用未经转录的原始音频作为训练数据,提高了ASR的准确性。
Facebook表示,其基于wave2vec的模型在常见基准测试中获得了最高分数,使用的训练数据量比其他方法减少了两个数量级。与领先的Deep Speech 2相比,错误率降低了22%。
Wave2vec最初是作为开源建模工具包Fairseq的一个扩展模块发布的。Facebook计划通过wave2vec提高关键词识别和声音检测技术的表现,并希望通过突破现有规则来改进其系统。
Facebook的研究科学家和软件工程师Michael Auli、Siddhartha Shah、Alexei Baevski和Christian Fuegen在一篇博客文章中提到:“Wave2vec代表了ASR领域的一大进步,并且是语音识别领域一个充满希望的研究方向,特别是对于那些缺乏大量语音数据的AI系统训练。”
正如Auli和他的团队在论文中所述,ASR系统通常需要在音频序列上使用频谱图(spectrograms)和相应的文本进行训练。因此,获取这些样本需要手工标注大量的音频数据,这会耗费大量时间和资源。相比之下,Wave2vec采用自监督的方式,即它能够结合未标记的数据和少量标记的数据。
Wave2vec首先训练一个模型,以区分真实数据和干扰项样本,这有助于它学习训练音频数据的数学表示方式。有了这些表示方式,Wave2vec可以通过剪辑和比较,从干扰项中分辨出准确的语音信号。
Wave2vec每秒执行数百次这样的操作,从而成为自身的转录器,并自动生成不正确的语音示例以测试系统并评估性能,从而避免了手动标注训练数据的需求。
Facebook AI团队使用LibriSpeech数据集中的不到1000小时未标记语音样本对Wave2vec进行了训练。然后,他们又使用WSJ1(《华尔街日报》大声朗读的集合)语料库中约81小时带有标签的语音样本进行训练。
训练结果令人印象深刻。在Deep Speech 2的基础上,Facebook基于Wave2vec的模型实现了2.43%的单词错误率。相比之下,通常需要12000小时(超过150倍)转录数据训练的系统,其单词错误率为3.1%,相比之下,Wave2vec的错误率降低了22%。此外,Wave2vec训练的模型与缺少预训练的模型相比,单词错误率还提升了30%。
根据Auli及其团队的研究,自监督技术可以将ASR功能扩展到转录语音资源有限的语言中。他们写道:“自监督不仅在语音领域,几乎在每个领域都在加速发展。以无标签训练数据为主的规则正在变得越来越主流。”
全球许多语言并没有像英语、中文等主要语言那样的庞大语料库,因此自动语音识别技术的发展面临挑战。然而,Wave2vec自监督算法为这一领域带来了新的突破方向。
Facebook在AI语音技术上的努力与其业务紧密相关。未来,我们期待ASR领域能有更多的创新和突破。