语音识别是近十年来发展最快的领域之一,随着人工智能技术的不断进步,深度学习极大地推动了语音识别技术的发展,使其从实验室阶段逐步走向市场,并逐渐融入人们的日常生活。
我们现在使用的语音输入法以及以语音为交互入口的智能家居设备,都离不开语音识别技术的支撑。
语音识别技术指的是机器能够自动将人类的语音转换成文字,也称为自动语音识别(Automatic Speech Recognition,简称ASR)。这是一门融合了生理学、声学、信号处理、计算机科学、模式识别、语言学及心理学等多个学科知识的复杂学科。
语音识别的研究是一个漫长而艰巨的过程,其起源可以追溯到20世纪50年代。1952年,贝尔实验室开发了Audrey系统,该系统能够识别单个数字0至9的发音,准确率高达90%以上,尤其是对熟悉的人声。
同一时期,麻省理工学院(MIT)和普林斯顿大学也相继推出了能够识别大量词汇的独立词汇识别系统。
1971年,美国国防部高级研究计划局(DARPA)资助了一个为期五年的语音理解研究项目,大大促进了语音识别技术的发展。在此期间,IBM、卡内基梅隆大学(CMU)和斯坦福大学等顶级科研机构积极参与其中。其中,卡内基梅隆大学开发了Harpy系统,该系统能够识别超过1000个单词,标志着大规模独立词汇识别技术的重要突破。
进入1980年代,语音识别技术从识别孤立词汇转向连续词汇的识别。这一时期出现了两个关键技术:隐马尔科夫模型(HMM)和N-gram语言模型。1990年代,随着大词汇连续语音识别技术的提升,出现了区分性模型训练方法MCE和MMI,使得语音识别的准确率显著提高,尤其是在处理长句子时更为有效。同时,模型自适应方法MAP和MLLR也被提出。在工业界,剑桥大学推出了首个开源的语音识别训练工具HTK,而在商业领域,Nuance发布了首款面向消费者的Dragon Dictate产品。
进入21世纪,随着深度学习的迅猛发展,神经网络之父Geoffrey Hinton和他的学生Abdel-rahman Mohamed将深度神经网络应用于语音识别,并在小词汇量连续语音识别任务TIMIT上取得了成功。
从20世纪80年代开始,语音识别采用了基于模式识别的基本框架,主要包括数据准备、特征提取、模型训练和测试应用四个步骤。本文重点介绍模型训练和测试应用。
训练完成后,待识别的语音需要经过信号处理和特征提取,然后利用训练好的声学模型和语言模型,分别计算声学模型和语言模型的得分,最后综合这两个得分进行候选搜索,得出最终的识别结果。
接下来我们详细讨论语言模型。语言模型反映了词出现的先验概率,例如,“郝”和“好”虽然发音相同,但“郝”出现的概率较低,通常出现在姓氏中。此外,语言模型还能反映词序是否符合语言习惯以及词语的语义信息。
传统语言模型采用N-gram方法,通过对文本序列的先验概率建模,可以表示为:
[ P(w1, w2, ..., wn) = P(w1) cdot P(w2|w1) cdot ... cdot P(wn|(w1, w2, ..., w{n-1})) ]
通过全概率空间展开,每个词出现的概率可以分解为前一个词出现的概率乘以后一个词的概率,依此类推。
这种N-gram假设认为每个词出现的概率只与最近的N个历史词相关。例如,1-gram假设可以用以下公式简便地计算:
[ P(w_n) ]
这种方法虽然简单,但一直沿用至今。随着深度学习技术的发展,出现了另一种语言模型——RNNLM。RNNLM通过深度学习模型对公式中的每一项进行建模,形成了一种新的结构。
接下来我们讨论声学模型。给定相应的文本序列,生成对应的语音是语音识别的核心和复杂部分。为了应对同音词的数据共享问题,首先将文本序列转换为其发音序列,增强建模单元的共享性。
在对每个发音单元进行建模时,考虑到语音的不定长特性,引入HMM模型。HMM模型将每个语音帧映射到HMM模型中的状态,无论语音长度如何,都可以表示为HMM模型的状态序列。最后将HMM模型中的状态序列与语音中的每一帧进行一一对应,并用概率表示这种对应关系。
我们知道,语音是非常复杂多变的,不同的人在说同一句话时会有很大的差异。20世纪80年代,由于计算资源的限制,行业内普遍使用GMM声学模型。到了2010年,随着深度学习技术的兴起,DNN声学模型开始取代GMM声学模型。
语音识别技术早期的应用主要是语音听写,用户说一句,机器识别一句。后来发展成为语音转写。随着人工智能的发展,语音识别开始作为智能交互的一部分被广泛应用。
首先,我们来看语音听写的应用。最典型的案例是讯飞输入法,除此之外,还有语音病历系统。医生佩戴讯飞定制的麦克风,在给病人诊断时,会将病情、用药和注意事项等信息说出来,机器自动识别并生成病历。
关于语音转写的应用,我们可以举两个例子:一个是讯飞语记,另一个是讯飞听见。讯飞语记是一款APP,可以将用户的语音转换成文字。讯飞听见会议系统则可以实时将演讲者的讲话内容准确识别出来,并实时显示在大屏幕上。
此外,还有很多语音交互的产品,如讯飞翻译机、与小朋友互动的阿尔法蛋机器人,以及可以进行聊天交流的叮咚音箱等。