语音识别是过去十年中发展最为迅猛的技术之一。随着人工智能的不断进步,深度学习技术使语音识别技术实现了质的飞跃,从实验室阶段迈向了市场应用,并逐渐融入人们的生活。
如今,我们常用的语音输入法以及以语音为智能交互入口的智能家居系统,背后都离不开语音识别技术的支持。
今天,我们将一起学习本周的新课程——《语音识别技术》。有请今天的主讲嘉宾:科大讯飞研究院的潘嘉老师,让我们热烈欢迎!
语音识别技术指的是机器自动将人的语音内容转换成文字,又称为自动语音识别(Automatic Speech Recognition,简称ASR)技术。
语音识别是一门综合性很强、非常复杂的学科,涉及生理学、声学、信号处理、计算机科学、模式识别、语言学、心理学等多个领域的知识。
语音识别的研究过程漫长而艰辛,其起源可以追溯到20世纪50年代。1952年,贝尔实验室首次实现了Audrey英文数字识别系统,该系统能够识别0到9的数字发音,并且对熟悉的人准确率达到90%以上。
同期,麻省理工学院(MIT)和普林斯顿大学也相继推出了少量词汇的独立词识别系统。
1971年,美国国防部高级研究计划局(DARPA)资助了一项为期五年的语音理解研究项目,极大地推动了语音识别技术的发展。DARPA在科技发展中发挥了重要作用,为许多高科技研究项目提供了资金支持,包括无人机和卫星等项目。
在DARPA的支持下,IBM、卡内基梅隆大学(CMU)和斯坦福大学等顶尖学术机构和工业界的研究团队纷纷加入语音识别的研究。
其中,卡内基梅隆大学开发出了Harpy语音识别系统,该系统能够识别1011个单词,标志着大词汇量孤立词识别取得了重要突破。
到了1980年代,语音识别技术从孤立词识别发展到连续词识别。这一时期,两项关键技术的出现至关重要:隐马尔科夫模型(HMM)和N-gram语言模型。
1990年代,大词汇量连续词识别继续取得进展,提出了区分性模型训练方法MCE和MMI,大大提高了识别精度,尤其是在长句子情况下表现更为出色。同时,模型自适应方法MAP和MLLR也被提出。
在工业领域,剑桥大学推出了首个开源的语音识别训练工具HTK;在商业领域,Nuance公司推出了首款消费级产品Dragon Dictate。
进入21世纪,随着深度学习技术的不断发展,神经网络之父Geoffrey Hinton提出了深度置信网络(DBN)。2009年,Hinton和他的学生Abdel-rahman Mohamed将深度神经网络应用于语音识别,在小词汇量连续语音识别任务TIMIT上取得了显著的成功。
从20世纪80年代开始,现代语音识别采用了模式识别的基本框架,主要包括数据准备、特征提取、模型训练和测试应用四个步骤。在这里,我们将重点讲解模型训练和测试应用。
模型经过训练后,待测语音需要经过信号处理和特征提取,然后利用训练好的声学模型和语言模型,分别计算声学模型和语言模型的得分,最后综合这两个得分进行候选搜索,得出最终的识别结果。
语言模型反映了词语出现的先验概率,例如“郝”和“好”的发音虽然相同,但“郝”的出现概率较低,通常出现在姓氏中。此外,语言模型还反映了词语顺序是否符合语言习惯以及词语的语义信息。
传统语言模型采用N-gram的方法,对文本序列的先验概率进行建模,表达形式如下:
[ P(w1, w2, ldots, wn) = P(w1)P(w2|w1)cdots P(wn|(w1, ldots, w_{n-1})) ]
通过全概率空间展开,可以表示为第一个词出现的概率乘以第一个词之后第二个词的概率,依此类推直到第n个词。
对于这样的全概率空间,我们可以采用N-阶马尔科夫假设,即每个词出现的概率只与其最近的N个历史词相关。例如,1-阶马尔科夫假设可以用以下公式计算:
[ P(wn|w1, w2, ldots, w{n-1}) approx P(wn|w{n-1}) ]
这种看似简单的非参数计算方法,从20世纪80年代一直沿用至今。
随着深度学习的兴起,另一种语言模型——循环神经网络语言模型(RNNLM)逐渐出现。RNNLM的流程是,先将全概率空间展开,然后对每一项都采用同一种深度学习模型进行建模,从而形成如下结构:
给定相应的文本序列,生成相应的语音,这是语音识别技术中最核心也是最复杂的部分。为了减少同音词的数据共享问题,我们首先将文本序列转换成发音序列,目的是增强建模单元的共享性。
在对每个发音单元(如“xue”中的韵母)建模时,考虑到语音具有不定长的特性,我们说快或慢时,语音帧的时长是不同的。对于这种不定长的语音建模,HMM模型显得尤为重要。
HMM模型通过将每个语音帧映射到HMM模型中的各个状态,无论多长的语音都能表示为HMM模型的一个状态序列。最后,只需将HMM模型的状态序列与语音中的每一帧一一对应,并用一个概率来表达这种对应关系即可。
我们知道,语音本身是非常复杂且多变的,不同的人说同样的话会有很大的差异。
20世纪80年代,由于计算条件的限制,行业内普遍采用GMM声学模型。到了2010年,随着深度学习技术的兴起,DNN声学建模开始取代GMM声学建模。
语音识别技术早期的应用主要是语音听写,用户说一句,机器识别一句。后来发展成为语音转写,随着人工智能的发展,语音识别开始作为智能交互的一部分。
下面我们将逐一介绍这些应用:
首先看语音听写。讯飞输入法是最具代表性的案例之一,除此之外,还有语音病例系统。医生佩戴讯飞定制的麦克风,在给病人诊断时,会将病情、用药及注意事项等信息说出来,机器自动识别并生成病例。
关于语音转写的应用,有两个典型例子:讯飞语记和讯飞听见。讯飞语记是一款应用软件,可以将语音记录成文字;讯飞听见会议系统则能实时准确地识别演讲者的讲话内容,并投影到大屏幕上。
此外,还有许多语音交互的产品,如讯飞翻译机、与儿童互动的阿法蛋,以及可以进行聊天交流的叮咚音箱等。
好了,关于“语音识别”今天就介绍到这里。想深入了解课程内容的同学,可以点击左下角的“阅读原文”,进入AI大学官网,观看江老师的教学视频。下期课程再见!