百分点感知智能实验室:语音识别技术发展阶段探究
作者头像
  • 北斗
  • 2021-09-12 09:13:37 3

语音识别技术的演进与未来趋势

在当今人工智能飞速发展的背景下,语音识别技术已成为许多设备的标准配置。过去五年,语音识别需求显著增长,但相关应用及使用场景仍有限制。为此,国内外众多企业正积极探索新的语音识别算法和策略。

本文由百分点感知智能实验室从技术发展的角度出发,深入分析了语音识别技术不同发展阶段的模型构建和优化,以及未来的发展趋势。语音识别技术的核心在于将计算机接收到的音频信号转换为相应的文字。自上世纪50年代诞生以来,语音识别技术已历经半个世纪的发展,从最初的孤立数字识别逐步发展到复杂环境下的连续语音识别,并广泛应用于各类电子产品中,极大地提高了人们的生活便利性。

语音识别技术的发展历程

语音识别技术的发展大致可分为三个阶段:基于模板匹配的技术框架、基于统计机器学习的技术框架和最新的端到端技术框架。近年来,得益于深度学习技术和移动互联网的普及,语音识别技术已达到极高的准确率,在某些数据集上甚至超过人类的识别能力。

随着识别准确率的提升,研究者们开始关注更多复杂的问题,例如多语种混合语音识别。该问题涉及多语种混合建模、迁移学习和小样本学习等技术。对于一些小语种,由于缺乏足够的训练样本,如何构建可靠的语音识别系统成为亟待解决的难题。

针对这一问题,百分点科技提出了一系列算法,优化了小语种语音识别系统构建过程中遇到的训练样本获取困难、文本书写规则复杂、发音单元不统一等问题。基于这些技术,百分点科技成功研发出多种小语种语音识别系统,在支持语种数量和识别准确率方面均处于国内领先地位。

不同发展阶段的重要技术框架

接下来,我们将重点介绍语音识别技术不同发展阶段的重要技术框架,包括传统的HMM-GMM和HMM-DNN,以及最新的端到端方法等。

GMM-HMM/DNN-HMM

首先,从GMM-HMM说起。GMM-HMM技术框架主要使用HTK或Kaldi进行开发。在2010年之前,整个语音识别领域主要在GMM-HMM框架内进行研究。GMM-HMM通过混合高斯模型对特征进行建模,建模单元是cd-states。GMM-HMM和DNN-HMM框架虽然在技术细节上有差异,但总体上都是对原有模型进行优化。

DNN-HMM

2010年后,随着深度学习的发展,语音识别框架开始转向DNN-HMM。DNN-HMM将GMM对特征的建模转换为神经网络建模,使得模型更加复杂和精准。DNN-HMM的基本结构包括纯DNN模型、CNN模型或LSTM模型等。DNN-HMM的成功主要归功于它摒弃了声学特征的分布假设,能够更好地利用上下文信息,以及更好地利用鉴别性模型的特点。

端到端语音识别

近年来,端到端语音识别成为业界研究的热点。主流的端到端方法包括CTC、RNN-T和LAS。端到端语音识别技术简化了传统模型的复杂性,减少了对传统HMM框架的依赖。其中,CTC框架摒弃了HMM中的复杂部分,引入了“空白”概念,提高了模型的灵活性和准确性。

CTC

CTC框架通过引入“空白”概念解决了边界不确定性问题,从而提高了模型的准确性。尽管CTC在工业界被广泛使用,但它在纯端到端语音识别方面的表现仍然不够理想。为了优化CTC框架,研究人员提出了chain模型,通过调整模型结构,提升了语音识别系统的性能。

LAS

LAS模型是端到端语音识别的一种重要方法,它利用注意力机制解决了序列问题。LAS模型的结构简洁高效,性能优于基于LSTM-CTC的baseline模型。然而,LAS模型在流式解码方面存在不足,这限制了它的广泛应用。为了解决这一问题,研究人员提出了Mocha算法,进一步改进了LAS模型的性能。

RNN-T

RNN-T算法是一种适合流式解码的模型,它在2012年被提出,但直到谷歌将其应用于Pixel手机才引起广泛关注。RNN-T模型继承了CTC的“空白”机制,但对路径进行了更合理的约束,从而提高了整体性能。尽管RNN-T模型训练难度较大,但其在流式解码方面的优势使其成为一种重要的语音识别方法。

Transformer/Conformer

Transformer和Conformer是当前性能最佳的模型。Transformer模型从NLP领域借鉴而来,在多个数据集上的表现优于RNN或Kaldi模型。Conformer模型则在librispeech数据集上表现出色,进一步提高了语音识别的准确性。

结语

综上所述,语音识别技术的发展经历了多个阶段,每个阶段都有其独特的技术和特点。端到端模型因其简化性和高效性成为当前研究的热点。尽管端到端模型在实际应用中仍面临一些挑战,但学术界和工业界正在积极寻求解决方案,推动语音识别技术不断进步。

    本文来源:图灵汇
责任编辑: : 北斗
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
百分点感知探究语音识别实验室阶段智能发展技术
    下一篇