在我们的日常生活中,语言是最主要的信息传递方式,它让我们能够更好地相互理解。同样,人机交互也需要让机器明白人类的需求和操作方法。交互的方式多种多样,包括动作、文本或语音等,其中语音交互因其简便和直接的特点而日益受到重视。随着智能硬件的普及,语音成为了最普遍的交互方式之一。
早在1952年,贝尔实验室就研发出了世界上首个能识别十个英文数字发音的系统。随后在1960年,英国的Denes等人开发了全球首个语音识别系统。到了70年代,大规模的语音识别研究才真正起步,并在单个词的识别上取得了显著进展。进入80年代以后,语音识别的研究重点转向了更为通用的大词汇量、非特定人的连续语音识别。
尽管90年代的语音识别研究进展有限,但在应用和产品化方面却取得了较大进步。2009年以来,得益于深度学习技术和大量语音数据的积累,语音识别技术取得了突飞猛进的发展。微软的研究团队率先取得了突破,他们利用深度神经网络模型将语音识别错误率降低了三分之一,这是过去20年来语音识别技术最大的进步。
随着智能手机等移动设备的普及,大量语音和文本数据得以积累,为语音识别模型的训练提供了坚实的基础。这些数据丰富了系统的样本,推动了语音识别技术的快速发展。然而,高质量的数据标注需要长期的积累和沉淀,因此大规模语料资源的积累被视为一项战略任务。
目前,语音识别技术在智能手机和智能音箱上的应用最为广泛。语音聊天机器人和语音助手等软件层出不穷。许多人第一次接触到语音识别技术可能是因为苹果手机上的Siri语音助手。
Siri的技术源自美国国防部高级研究计划局(DARPA)的CALO项目。该项目旨在开发一种具备认知能力的数字助理,能够简化复杂事务并进行自我学习和组织。这一项目后来演变为Siri虚拟个人助理。
Siri公司成立于2007年,最初以文字聊天服务为主,随后与Nuance公司合作,实现了语音识别功能。2010年,Siri被苹果公司收购。2011年,Siri首次随iPhone 4S发布,并在随后几年不断改进和完善。如今,Siri已成为苹果手机上的一项语音控制功能,可以通过语音输入调用各种应用程序和服务,如天气预报、地图导航、资料查询等,还能通过持续学习来提供更个性化的服务。
语音识别技术让机器能够通过识别语音信号将其转化为文本,进而理解命令。目标是让机器具备人类的听觉能力,理解人类的语言,并做出相应的反应。语音识别系统通常由声学模型和语言模型两部分组成,分别负责从语音信号到音节和从音节到文字的转换。一个连续语音识别系统一般包括四个主要部分:预处理、特征提取、声学模型训练和语言模型训练。
对输入的原始语音信号进行处理,去除不必要的信息和背景噪声,并进行语音信号的端点检测(即确定语音信号的起点和终点)、分帧(即将语音信号分割成多个片段进行分析)等操作。
在去除无用的冗余信息后,提取反映语音本质特征的信息,并用一定方式表示出来。这一步骤涉及提取关键特征参数形成特征矢量序列,供后续处理使用。
声学模型是对声音的建模,将语音信号转换为声学表示。通过训练语音库的特征参数来训练声学模型参数。在识别时,将待识别语音的特征参数与声学模型匹配,得到识别结果。目前主流的语音识别系统多采用隐马尔可夫模型(HMM)进行声学建模。
语言模型用于计算一个句子出现的概率,即判断一个句子在语法上是否正确。由于句子结构通常是规律的,后面的词常常暗示了前面可能出现的词。语言模型主要用于决定哪个词序列的可能性更大,或者在出现几个词时预测下一个即将出现的词。它定义了哪些词可以跟在已识别的词后面,从而缩小匹配范围。
语言建模结合汉语语法和语义知识,描述词之间的内在关系,从而提高识别率,减少搜索范围。通过对训练文本数据库进行语法和语义分析,基于统计模型训练得到语言模型。
解码器是指在语音识别过程中进行识别的过程。根据已训练好的HMM声学模型、语言模型及词典建立一个识别网络,根据搜索算法在该网络中寻找最佳路径,这条路径就是能够以最大概率输入该语音信号的词串,从而确定语音样本所包含的文字。因此,解码操作即指搜索算法,即在解码端通过搜索技术寻找最优词串的方法。
连续语音识别中的搜索就是寻找一个词模型序列来描述输入语音信号,从而得到词解码序列。搜索依据的是对公式中的声学模型评分和语言模型评分。在实际应用中,通常会根据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。
语音识别本质上是一种模式识别的过程,通过将未知语音的形式与已知语音的参考形式逐一比较,找到最佳匹配的参考形式作为识别结果。当前主流的语音识别算法主要包括基于动态时间规整(DTW)、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法,以及近年来基于深度学习和支持向量机等语音识别方法。
目前开源世界提供了多种不同的语音识别工具包,为开发者提供了很大的帮助。但这些工具各有优缺点,需根据具体情况选择使用。以下为几种常用的工具包对比,它们大多基于传统的HMM和N-gram语言模型。
对于普通用户而言,很多人已经熟悉Siri或Cortana这样的产品。而对于研发工程师来说,更加灵活、专业的解决方案更受欢迎,许多公司都在研发自己的语音识别工具。
目前,语音识别研究进展缓慢,具体问题包括:
不同地区的方言和独特的发音习惯给语音识别带来了挑战。例如,口腔中的元音因舌头位置不同会产生多种音调,辅音的变化也会产生大量相似的发音。此外,输入设备的不一致也导致了语音输入的不规范。
噪声环境下的处理是公认的难题。机器无法从各种背景噪音中区分出人声,而背景噪声又千差万别,训练情况难以完全匹配真实环境。因此,语音识别在噪声环境中比在安静环境中要困难得多。目前主流的技术思路是通过算法降低误差。首先,在收集的原始语音中提取抗噪性较高的语音特征。然后,在模型训练时结合噪声处理算法训练语音模型,使模型在噪声环境中的鲁棒性更高。最后,在语音解码过程中进行多重选择,从而提高语音识别在噪声环境中的准确性。完全消除噪声干扰仍然是一个理论上的目标。
在大词汇量和连续语音识别中,语言模型和词法模型的有效性仍存在问题,需要结合语言学、心理学及其他学科的知识。此外,从实验室演示系统向商品转化过程中还需要解决许多具体的技术问题。
今天,许多用户已经享受到语音识别技术带来的便利,如智能手机的语音操作等。然而,实现真正的人机交流还有很长的路要走。目前,计算机对用户语音的识别能力还不高,人机交互仍存在一些问题。智能语音识别系统技术还有很长的路要走,必须取得突破性进展,才能实现更好的商业应用,这也是未来语音识别技术的发展方向。
在语音识别的商业化落地过程中,需要内容、算法等各方面的协同支撑,但良好的用户体验是商业应用的第一要素,而识别算法是提升用户体验的核心要素。目前,语音识别在智能家居、智能车载、智能客服机器人等方面有广泛应用,未来将深入到学习、生活和工作的各个环节。许多科幻电影中的场景正逐步走进我们的日常生活。
本文由“苏宁财富资讯”原创,作者为苏宁金融研究院金融科技研究中心副主任沈春泽。