语音辨认 2019 指南

财经早报
2019-11-15 19:30:05 2

自动语音识别指南（2019年）

自动语音识别（Automatic Speech Recognition，ASR）是一种基于计算机的语音处理技术，能够对用户进行身份验证，并向智能设备（如Google Assistant、Siri或Cortana）提供说明。这种技术通过存储和分析人类语音，训练系统识别特定词汇和语音模式来实现。本文将介绍几篇致力于通过机器学习和深度学习改进语音识别的研究论文。

Deep Speech 1：扩展端到端语音识别

百度硅谷AI实验室的研究人员提出了Deep Speech 1，该模型无需依赖音素字典，而是利用优化过的RNN（循环神经网络）系统进行训练，该系统使用多个GPU。在Switchboard 2000 Hub5数据集上，该模型实现了16%的错误率。为了提高模型在噪音环境下的表现，研究人员在前馈层中加入了5%-10%的dropout，并将N-gram语言模型集成到系统中。

Deep Speech 1的核心组件是一个RNN，用于提取语音频谱图并生成文本转录。RNN通过将输入序列转换为字符概率序列来进行转录。该模型包括五层隐藏单元，其中前三层不设置为循环的。第四层是双向循环层，用于处理输入数据。预测之后，使用CTC（连接时序分类）损失函数来测量预测误差。训练过程中采用了Nesterov加速梯度方法。

Deep Speech 2：英汉语音识别

在Deep Speech 2中，研究人员采用端到端深度学习方法，以识别汉语普通话和英语语音。该模型不仅能够处理不同的语言和口音，还能应对嘈杂的环境。Deep Speech 2在斯坦福大学的数据中心使用GPU进行批量处理，训练英语语音系统用了11,940小时，普通话系统则用了9,400小时。在训练过程中，数据合成技术被用来扩充数据集。

Deep Speech 2的模型结构包括多达11层，由双向循环层和卷积层组成。该模型的计算速度比Deep Speech 1快8倍。研究人员使用了批量归一化技术进行优化，并采用了ReLU（修正线性单元）作为激活函数。该模型同样基于RNN架构，用于输入语音频谱图并生成文本转录。CTC损失函数用于训练模型。

First-Pass大词汇量连续语音识别

斯坦福大学的研究人员提出了一种结合语言模型和神经网络的大词汇量连续语音识别技术。通过CTC损失函数训练神经网络，使其能够生成字符序列。研究人员将N-gram语言模型与经过CTC训练的神经网络集成在一起。该模型的架构基于反应扩散神经网络（RDNN），并使用修正的ReLU函数进行训练。

人类与机器的英语会话电话语音识别

IBM Research的作者研究了语音识别技术是否已经达到了人类水平。他们提出了多种声学和语言建模技术。在声学建模方面，作者使用了LSTM（长短期记忆）网络和残差网络。在语言建模方面，作者使用了字符LSTM和卷积WaveNet风格的语言模型。英语会话电话LVCSR系统的单词错误率为5.5%至10.3%。

该模型由4-6个双向层、一个线性瓶颈层和一个输入层组成。训练过程包括14次交叉熵训练，然后使用增强型MMI标准进行一次随机梯度下降序列训练。LSTM模型在Torch中使用CuDNN 5.0后端完成，每个模型的交叉熵训练在单个Nvidia K80 GPU设备上完成。

Wav2Letter++：最快的开源语音识别系统

Facebook AI Research提出了Wav2Letter，这是一个开源深度学习语音识别框架。该框架使用C++编写，并使用ArrayFire张量库，能够在多个后端（如CUDA GPU和CPU）上运行。该模型在《华尔街日报》（WSJ）数据集上进行了评估，使用了递归和纯卷积两种类型的神经网络架构。

SpecAugment：用于自动语音识别的简单数据增强方法

Google Brain的研究人员提出了一种名为SpecAugment的简单数据增强方法，用于语音识别。该方法对输入音频的对数梅尔频谱图进行操作。在LibriSpeech测试集上，SpecAugment在没有语言模型的情况下实现了6.8%的单词错误率，在有语言模型的情况下实现了5.8%的单词错误率。该方法还用于训练端到端的ASR网络。

Wav2Vec：无监督预训练的语音识别

Facebook AI Research通过学习原始音频的表示，探索了语音识别的无监督预训练方法。该方法产生了Wav2Vec模型，在庞大的未标记音频数据集上进行训练。从这些表示中获得的结果被用于改善声学模型的训练。在nov92测试集上，Wav2Vec的单词错误率为2.43%。

多语料库神经语言模型在ASR中的应用

亚马逊Alexa的研究人员提出了几种解决方案，以解决在大型ASR系统中使用神经语言模型时遇到的问题。这些问题包括如何在多个异质语料库上训练神经语言模型，如何将这些模型个性化，并如何将其整合到ASR系统中，同时限制延迟影响。通过随机梯度下降的方法，研究人员从各个语料库中抽取样本，构建Mini-batch，并通过开发集优化线性插值权重。此外，研究人员还通过从神经语言模型中生成大量文本语料库，并从中估计N-gram模型，来生成合成数据。模型中使用的书面文本语料库共包含500亿个单词。

这是从该模型获得的一些结果。通过从神经语言模型生成综合数据，获得了1.6%的相对WERR。

图灵汇

责任编辑：：财经早报

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。