10分钟标注数据胜过一年前960h,FAIR语音辨认大停顿
作者头像
  • 2020-11-06 10:08:39 2

近日,来自 Facebook 人工智能研究院(FAIR)的研究者提出了一种结合自训练和无监督预训练来提升语音识别效果的新方法。研究发现,这两种技术不仅能够独立发挥作用,还能相互补充,从而取得更好的成果。

自训练和无监督预训练是利用未标注数据改善语音识别系统性能的有效手段。然而,目前还不清楚它们是否采用相同的学习模式,或者能否有效地结合使用。这项研究通过使用Libri-light数据集中的10分钟标注数据和LibriVox数据集中的5.3万小时未标注数据,展示了这种方法在Librispeech clean和other测试集上取得了3.0%和5.2%的词错率。这一成绩甚至超越了之前基于960小时标注数据训练的最佳系统。此外,在所有标注数据的基础上训练后,该方法的词错率进一步降低至1.5%和3.1%。

近期,基于标注语音数据的语音识别模型已经取得了显著进展。然而,这些模型需要大量的标注数据,而这对于大多数语言来说是难以实现的。因此,如何更有效地利用未标注的数据引起了广泛关注。自训练是一种常用方法,通过给未标注数据打上标签,再用额外的标注数据重新训练模型,从而改善系统性能。另一种方法是在无标注数据上进行预训练,然后再用标注数据进行微调。

Facebook的研究结合了自训练和无监督预训练两种方法。研究者们采用了最新的wav2vec 2.0模型,以及Kahn等人和Xu等人提出的自训练方法,探讨了从头开始利用伪标注数据训练模型和对预训练模型进行微调的效果。为了更好地理解这两种方法的互补性,研究者使用了相同的未标注数据。结果显示,在Librispeech残缺数据集和Libri-light低资源标注数据设置下,自训练和无监督预训练确实具有互补性。仅使用10分钟的标注数据和LibriVox未标注数据,wav2vec 2.0和自训练方法的结合就能在Librispeech clean和other测试集上达到3.0%和5.2%的词错率,相比仅使用预训练方法的近期研究,词错率分别降低了25%和40%。

该研究使用的数据集包括Librispeech数据集(约960小时的音频)和LibriVox数据集(经过预处理后,包含约5.3万小时的音频)。研究考虑了五种标注数据设置:Librispeech的全部960小时标注数据和train-clean-100子集(100小时数据)、Libri-light有限资源训练子集train-10h(10小时数据)、train-1h(1小时数据)和train-10min(10分钟数据)。该研究在Librispeech dev-other/clean和test-clean/other数据集上评估了各种方法的效果。

在低资源标注数据的情况下,结合预训练和自训练的方法在所有低资源数据设置中均表现出色。例如,在10小时标注数据设置中,该方法相比迭代伪标注方法有显著提升。

在高资源标注数据的情况下,研究在Librispeech 100小时清洁子集和Librispeech 960小时标注数据集上进行了评估。结果显示,在100小时标注数据设置下,当使用Librispeech 960小时作为未标注数据时,该方法的表现不如基线模型;但使用更大的LibriVox数据集作为未标注数据时,该方法表现更好,在test-other测试集上的词错率比仅使用预训练方法降低了10%。

此外,研究还评估了在没有语言模型的情况下,自训练和预训练结合的效果。结果显示,即使在没有语言模型的情况下,该方法也能取得不错的性能。特别是在10分钟标注数据设置下,这种效果尤为明显:在test-other数据集上,wav2vec 2.0和自训练方法的结合将基线方法的词错率降低了83%。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
辨认标注停顿胜过语音年前分钟数据960hFAIR
    下一篇