语音辨认技术技术原理与工作流程概述
作者头像
  • 智能明道
  • 2019-05-22 07:05:14 0

语音是人类自然沟通的重要方式。自从计算机问世以来,实现机器对人类语言的理解和正确回应就成了人们的追求目标。我们都希望能拥有像科幻电影里的先进机器人助手那样,能够在语音交流中准确理解我们的意图。语音识别技术使这一梦想成为了现实。这项技术相当于“机器的听觉系统”,使得机器能够通过识别和理解,将语音信号转化为相应的文本或命令。

语音识别技术简介

语音识别技术,也称为自动语音识别(Automatic Speech Recognition, ASR),旨在将人类语音中的词汇内容转化为计算机可读的输入,如按键、二进制代码或字符序列。这项技术使得机器能够理解并转化语音信号为文本或命令。

语音识别技术的交叉学科属性

语音识别技术是一个跨学科领域,与声学、语音学、语言学、信息论、模式识别理论及神经生物学等学科有着紧密联系。随着技术的发展,语音识别已成为计算机信息处理技术的关键组成部分。

语音识别技术的发展历程

语音识别技术的研究始于20世纪50年代,1952年贝尔实验室开发了首个十位数字的识别系统。从20世纪60年代起,美国卡耐基梅隆大学的Reddy等人开始了连续语音识别的研究,尽管初期进展较慢。1969年,贝尔实验室的Pierce甚至认为语音识别短期内无法实现。

20世纪80年代,基于统计模型的方法,尤其是隐马尔可夫模型(Hidden Markov Model, HMM),逐渐成为语音识别研究的主流。HMM模型能够很好地描述语音信号的短时稳定性,并将声学、语言学和句法知识整合在一起。例如,当时在卡耐基梅隆大学就读的李开复开发了SPHINX系统,其核心框架为GMM-HMM模型,其中GMM(高斯混合模型)用于建模语音的观测概率,而HMM则用于建模语音的时间序列。

20世纪80年代末期,人工神经网络(Artificial Neural Network, ANN)作为深度神经网络(Deep Neural Network, DNN)的前身,也开始应用于语音识别研究,但其性能一般不如GMM-HMM模型。

20世纪90年代,基于GMM-HMM声学模型的判别训练准则和模型自适应方法的提出,推动了语音识别研究和应用的热潮。剑桥大学发布的HTK开源工具包极大地降低了研究门槛。然而,尽管如此,基于GMM-HMM框架的语音识别系统整体效果仍远未达到实用水平,研究一度陷入停滞。

2006年,Hinton提出使用受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)对神经网络节点进行初始化,即深度置信网络(Deep Belief Network, DBN)。DBN解决了深度神经网络训练过程中容易陷入局部最优的问题,从而开启了深度学习的新篇章。

2009年,Hinton和他的学生Mohamed将DBN应用于语音识别的声学建模,并在小词汇量连续语音识别数据库TIMIT上取得了成功。

    本文来源:图灵汇
责任编辑: : 智能明道
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
技术工作流程辨认概述语音原理
    下一篇