从不温不火到炙手可热:语音识别技术简史
作者头像
  • 2024-04-29 10:56:59 11

语音识别的历程与现状

语音识别技术自半个世纪前诞生以来,一直不温不火,直到2009年深度学习技术的发展才显著提高了语音识别的精度。虽然这项技术仍无法广泛应用于所有场景,但它已经成为许多实际场景中的高效沟通工具。本文将从技术和产业两个角度回顾语音识别的发展历程和现状,并探讨未来的趋势。

语音识别概述

语音识别,也被称为自动语音识别(Automatic Speech Recognition,ASR),是指将人类语音转换为计算机可读的输入,通常是文本。然而,我们通常理解的语音识别实际上是狭义的语音转文字过程,称为语音转文本识别(Speech To Text,STT),以便与语音合成(Text To Speech,TTS)相对照。

语音识别是一项跨学科的技术,涵盖数学与统计学、声学与语言学、计算机与人工智能等领域。然而,语音识别自诞生以来,一直没有得到广泛应用,主要因为其技术缺陷和业界对其期望过高。实际上,语音识别与键盘、鼠标或触摸屏应是互补关系,而非替代关系。

深度学习技术自2009年起迅速发展,语音识别在安静环境、标准口音和常见词汇场景下的识别率已超过95%,表明其具备与人类相仿的语言识别能力。此外,口音、方言和噪声等场景下的语音识别也达到了可用水平,特别是在智能音箱领域,语音识别已成为最成功的消费电子技术之一。

尽管如此,当前技术仍存在诸多不足,如强噪声、超远场、强干扰和多语种等场景下的识别还需改进。此外,多人语音识别和离线语音识别也是亟待解决的问题。

语音识别的技术历程

现代语音识别的起源

现代语音识别始于1952年,Davis等人研发了世界上首个能识别十个英文数字发音的实验系统。此后,语音识别经历了三个主要阶段。

GMM-HMM时代

在20世纪70年代,语音识别主要集中在小词汇量和孤立词识别,采用模板匹配方法。进入80年代,研究转向基于统计模型(HMM)的技术思路。HMM模型假设一个音素包含3到5个状态,同一状态的发音相对稳定,不同状态间可以按一定概率跳转。GMM-HMM框架中,HMM描述语音的动态特性,GMM描述每个状态的发音特征。这些方法对语音识别研究产生了深远影响,并为下一代技术奠定了基础。

DNN-HMM时代

2006年,Hinton提出深度置信网络(DBN),推动了深度神经网络(DNN)的研究。2009年,Hinton将DNN应用于语音声学建模,并在TIMIT上获得最佳结果。2011年底,微软研究院的俞栋和邓力将DNN技术应用于大词汇量连续语音识别,显著降低了识别错误率。自此,语音识别进入DNN-HMM时代。

DNN-HMM主要用DNN模型代替GMM模型,对每个状态进行建模。DNN的好处在于不再需要对语音数据分布进行假设,拼帧增加了上下文信息,提升了状态分类概率,并增强了对噪声和口音的鲁棒性。

端到端时代

端到端方法改变了语音识别的架构,但神经网络模型结构变化不大。端到端技术解决了输入序列长度远大于输出序列长度的问题。端到端技术主要分为两类:CTC方法和Sequence-to-Sequence方法。CTC方法不需要数据对齐,只需输入和输出序列即可训练。Sequence-to-Sequence方法主要用于机器翻译,后来应用于语音识别,显著降低了词错误率。

端到端技术不再需要HMM描述音素内部状态的变化,而是将语音识别的所有模块统一成神经网络模型,使语音识别朝着更简单、更高效、更准确的方向发展。

语音识别的技术现状

目前,主流语音识别框架由三部分组成:声学模型、语言模型和解码器。声学模型是近年来热门方向,业界纷纷发布新的声学模型结构,刷新数据库的识别记录。声学模型主要采用深度神经网络和端到端技术,其中DFCNN和LFR-DFSMN是两种典型的声学模型。Kaldi是业界语音识别框架的基石,其Chain模型是一种类似于CTC的技术,采用低帧率解码,准确率显著提升。

远场语音识别技术主要解决真实场景下舒适距离内人机交互的问题。远场语音识别在智能家居、智能汽车、智能会议和智能安防等实际场景中广泛应用。远场语音识别的关键技术包括回声消除、噪声下的语音识别和多通道信号处理。

语言模型和解码器目前没有太多技术变化。语言模型主流仍是基于传统的N-Gram方法,而解码器的核心指标是速度,主要采用静态解码方式。

语音识别的技术趋势

语音识别技术主要趋于远场化和融合化,但在远场可靠性方面还有许多难点需要突破,如多轮交互、多人噪杂等场景。新的技术应该彻底解决这些问题,让机器听觉远超人类的感知能力。这不仅需要算法的进步,还需要整个产业链的共同技术升级,包括更先进的传感器和更强的算力芯片。

远场语音识别技术仍面临许多挑战,包括回声消除、噪声下的语音识别和深度学习对相位信息的利用。此外,如何通过迁移学习得到好的声学模型也是一个研究热点。语音识别的目的是让机器理解人类语言,结合语义理解可能是未来更为重要的方向。

语音识别的产业历程

语音识别技术的发展经历了三个关键节点,两个与技术有关,一个与应用有关。第一个关键节点是1988年开发的第一个基于HMM的语音识别系统——Sphinx。从1986年到2010年,混合高斯模型效果持续改善,但实际应用效果有限。第二个关键节点是2009年深度学习被系统应用到语音识别领域,识别精度大幅提升。第三个关键点是Amazon Echo的出现,将近场语音交互转变为远场语音交互。

语音识别领域的产业竞争已从研发转为应用,更多关注真实场景下的用户体验。智能音箱的普及加速了这一转变,语音识别成为智能家居、智能汽车、智能会议和智能安防等实际应用的重要技术。

语音识别的产业趋势

随着语音识别技术的普及,产业需求快速增长,但平台服务商的供给能力限制了行业的发展速度。平台服务商需要解决技术、内容接入和工程细节等问题,以降低试错成本,提供优质的用户体验。平台服务的挑战在于既要参与传统的产品生产制造链条,又要像应用商店的开发者一样提供服务。智能型操作系统的发展将成为未来的重要趋势,这需要国内的程序员们从头打造完整的系统。

随着平台服务商的问题逐步解决,基础的计算模式将逐渐改变,人们的数据消费模式也将不同。个人的计算设备将进一步分化,但背后的服务将统一,每个人可以根据场景自由迁移设备,服务将针对不同场景进行优化,但在个人偏好上保持一致。

总结

从技术和产业发展来看,语音识别虽尚未解决无限制场景和无限制人群的通用识别问题,但已在各个真实场景中普遍应用并得到规模验证。技术和产业之间形成了良好的正向迭代效应,落地场景越多,真实数据越多,用户需求越准确,这推动了语音识别技术的快速发展。未来,语音识别需要不断扩展内涵,致力于让机器听懂人类语言,多技术、多学科、多传感的融合化将是未来人工智能发展的主流趋势。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
炙手可热简史语音识别从不技术温不火
    下一篇