滴滴AI Labs的研究团队在最新发表的一篇论文中提出了一种新的无监督预训练算法,旨在提升基于Transformer的语音识别系统的性能。该算法受到自然语言处理中广泛应用的BERT等模型的启发,能够利用大量未标注的语音数据,从而显著提高语音识别的准确性。
研究显示,通过简单的无监督预训练,中文语音识别任务的性能得到了显著提升。具体而言,在中文语音识别数据集HKUST上的测试结果表明,仅使用HKUST数据集进行预训练时,字符错误率(CER)达到了23.3%。而当使用更大规模的无监督数据集进行预训练时,字符错误率进一步降低至21.0%。相比之下,目前文献中最好的端到端模型的字符错误率为23.5%。
该研究不仅为学术界提供了一种提升语音识别精度的新方法,还展示了这种技术在工业界的潜在价值。在实际应用场景中,这种方法可以减少对标注数据的依赖,从而降低构建高质量语音识别系统的成本。例如,在某些场景下,标注数据的需求可以从上万小时减少到几百小时。
研究团队介绍了一种基于Transformer的语音识别预训练系统架构,并详细阐述了其工作原理。该系统主要包括两个阶段:无监督数据预训练和有监督数据微调。预训练阶段采用了类似于BERT中的掩蔽语言模型(Masked Language Model,MLM)的技术,称为掩蔽预测编码(Masked Predictive Coding,MPC)。MPC通过对输入数据的一部分进行掩蔽,然后预测被掩蔽部分的内容来实现预训练。这种预训练方法可以有效地提高语音特征表示的质量,从而在后续的微调阶段更好地适应特定的语音识别任务。
研究结果表明,无监督预训练不仅能有效提升语音识别系统的性能,而且随着预训练数据量的增加,系统的性能提升更加显著。此外,使用与目标任务风格相似的无监督数据进行预训练,可以进一步提高系统的性能。论文还对比了无监督预训练与有监督自适应方法的效果,发现虽然有监督自适应方法在某些情况下表现更好,但无监督预训练无需标注数据,因此在降低成本方面具有明显优势。
未来,研究团队计划进一步探索将该方法应用于实际产品中,减少高质量语音识别系统所需标注数据的数量。此外,他们还将尝试扩大无监督数据集的规模,以及研究不同类型和风格的数据对无监督模型鲁棒性的影响,以期进一步提升语音识别的性能。