语音识别技术在过去十年间取得了迅猛的发展,尤其是在人工智能的推动下,深度学习技术使语音识别技术实现了质的飞跃,从实验室阶段走向市场,并逐渐融入人们的生活。
我们今天使用的语音输入法和以语音为交互方式的智能家居设备,背后都离不开语音识别技术的支持。
语音识别技术指的是机器能够自动将人类语音转换成文字,也称为Automatic Speech Recognition(ASR技术)。
语音识别是一门综合性强、极其复杂的学科,需要涵盖生理学、声学、信号处理、计算机科学、模式识别、语言学和心理学等多个领域的知识。
语音识别的研究过程漫长而艰难,最早可以追溯到20世纪50年代。1952年,贝尔实验室首次开发出了Audrey系统,能够识别单个数字0到9的发音,并且对熟人的准确率高达90%以上。
在同一时期,麻省理工学院(MIT)和普林斯顿大学相继推出了大量单词的独立单词识别系统。
1971年,美国国防部研究机构(DARPA)资助了一个为期五年的语音识别研究项目,极大地推动了语音识别技术的发展。DARPA在整个科技发展中扮演了重要角色,为高科技研究项目提供了资金支持,包括无人机和卫星等领域。
在DARPA的支持下,IBM、卡内基梅隆大学(CMU)和斯坦福大学等顶级研究机构纷纷加入语音识别的研究行列。其中,卡内基梅隆大学开发出了Harpy系统,该系统能够识别1011个单词,标志着大词汇量孤立词识别技术的重大突破。
到1980年代,语音识别技术从孤立词识别发展到连续词识别,这一时期出现了两项关键技术:隐马尔科夫模型(HMM)和N-gram语言模型。
1990年代,大词汇量连续词识别技术进一步提升,提出了区分性模型训练方法MCE和MMI,使得语音识别的准确率显著提高,特别是在长句子的识别方面。同时,还提出了模型自适应方法MAP和MLLR。
在工业领域,剑桥大学推出了首个开源语音识别训练工具HTK。在商业领域,Nuance公司发布了首款面向消费者的Dragon Dictate产品。
进入21世纪,随着深度学习技术的发展,神经网络之父Geoffrey Hinton和他的学生Awni Hannun将深度神经网络应用于语音识别,并在小词汇量连续语音识别任务TIMIT上取得了成功。
从20世纪80年代开始,目前的语音识别技术采用了模式识别的基本框架,主要包括数据准备、特征提取、模型训练和测试应用四个步骤。这里我们将重点介绍模型训练和测试应用。
经过训练的模型,需要对一段待测语音进行信号处理和特征提取,然后利用训练好的声学模型和语言模型,分别计算声学模型和语言模型的得分,最后结合这两项得分进行候选搜索,从而得出最终的语音识别结果。
接下来我们看看语言模型。语言模型反映了词出现的先验概率,例如,“郝”和“好”虽然发音相同,但“郝”的出现概率较低,通常出现在姓氏中。语言模型还反映了词序是否符合语言习惯以及词语的语义信息。
传统语言模型采用N-gram方法,通过对文本序列的先验概率建模,可以用以下公式表示: [ P(w1, w2, ldots, wn) = P(w1)P(w2|w1)ldots P(wn|(w1,ldots,w_{n-1})) ]
我们可以将其扩展为第一个词出现的概率乘以第一个词出现后第二个词的概率,依此类推。
对于这样一个全概率空间,我们可以采用N-阶马尔科夫假设,即每个词的概率只与其最近的N个历史词相关,这可以通过简化计算来实现。
随着深度学习技术的发展,逐渐出现了另一种语言模型——循环神经网络语言模型(RNNLM)。这种模型通过深度学习方法对公式中的每一项进行建模,可以表达成如下结构。
接下来我们讨论声学模型的构建。给定相应的文本序列,生成相应的语音是语音识别技术中最核心和复杂的一部分。为了减少同音词的数据共享问题,首先将文本序列转化为其发音序列,以增强建模单元的共享性。
在对每个发音单元建模时,语音具有不定长的特性,说话速度的快慢会导致语音帧的时长不同。对于这种不定长的语音建模,需要引入隐马尔科夫模型(HMM)。
HMM模型将每个语音帧对应到HMM模型中的某个状态,无论语音长度如何,都可以表示为HMM模型的状态序列。最后,只需将HMM模型中的状态序列与语音中的每帧一一对应,并用概率表示这种对应关系。
我们知道语音是非常复杂多变的,不同的人在说同样一句话时会有很大的差异。20世纪80年代,由于计算资源的限制,行业内普遍采用高斯混合模型(GMM)进行声学建模。到了2010年,随着深度学习技术的兴起,深度神经网络(DNN)逐渐取代了GMM,成为主流的声学建模方法。
早期语音识别技术的主要应用是语音听写,用户说一句,机器识别一句。随后发展到语音转写,随着人工智能的发展,语音识别开始作为智能交互的一部分被广泛应用。
首先,我们来看看语音听写的应用。最典型的案例之一是讯飞输入法。此外,语音听写还应用于医疗领域,例如医生佩戴讯飞定制的麦克风,通过语音记录病情、用药及注意事项等信息,机器能够自动识别并生成病历。
其次,语音转写也有许多实际应用。例如,讯飞语记APP能够将用户的语音记录为文字;讯飞听见会议系统能够实时识别演讲者的话语,并准确地投射到大屏幕上。
此外,还有许多其他语音交互产品,如讯飞翻译机、阿尔法蛋机器人和叮咚智能音箱等,它们都能够通过语音实现人机交互。