语音辨认揭秘:你的手机终究有多了解你?
作者头像
  • 预言家
  • 2019-12-12 09:24:29 2

在我们的日常生活中,语言是最主要的沟通方式,它使人们能够相互理解和交流。同样地,人与机器之间的互动也需要机器能够理解人类的需求和指令。这种交互可以通过动作、文本或语音等多种方式进行,其中语音交互因其简便和直观的特点而备受重视。随着互联网上的智能硬件逐渐普及,语音成为了连接互联网的重要入口之一。

早在1952年,贝尔实验室就研发出了世界上第一个能够识别十个英文数字发音的系统。到了1960年,英国的Denes等人则发明了世界上第一个语音识别(ASR)系统。随后,在20世纪70年代,大规模的语音识别研究开始兴起,并在单个词的识别上取得了显著进展。进入80年代后,研究重点逐渐转向更通用的、非特定人的连续语音识别。

尽管90年代以来,语音识别技术的发展较为缓慢,但在应用和产品化方面却取得了显著的进步。特别是从2009年开始,得益于深度学习技术的发展和大量语音数据的积累,语音识别技术得到了迅猛的发展。深度学习技术利用预先训练的多层神经网络提高了声学模型的准确性。例如,微软的研究人员通过使用深度神经网络模型,成功地将语音识别错误率降低了三分之一,这是近20年来语音识别技术的最大进步。

随着移动设备的普及,手机等移动终端积累了大量文本和语音数据,为语音模型的训练提供了基础。丰富的样本数据是推动语音识别系统性能快速提升的关键因素,但高质量的数据标注需要长时间的积累和沉淀。大规模语料资源的积累已成为战略层面的重要任务。

目前,语音识别技术在移动设备和智能音箱上应用广泛,语音聊天机器人和语音助手等产品层出不穷。许多人第一次接触语音识别可能是通过苹果手机的Siri语音助手。Siri技术源自美国国防部高级研究计划局(DARPA)的CALO项目,最初是为了帮助军方简化事务处理并具备学习和组织能力的数字助手。后来,Siri公司成立,并逐步将其发展为一个主要提供文字聊天服务的产品。2010年,苹果公司收购了Siri,并在2011年发布了iPhone 4S,将Siri技术引入市场。如今,Siri已经成为苹果iPhone上的一项语音控制功能,能够通过自然语言输入调用各种应用程序和服务,如天气预报、地图导航等,还能通过不断学习改进功能,提供对话式的服务。

语音识别(ASR)原理

语音识别技术通过将语音信号转换为文本,进而转化为指令,使机器具备人的听觉特性,能够理解人类的语言并作出相应的反应。语音识别系统通常由声学模型和语言模型两部分组成,前者负责从语音到音节的转换,后者则负责从音节到字的转换。一个连续语音识别系统大致包括四个主要部分:预处理、特征提取、声学模型训练和语言模型训练。

(1)语音输入的预处理

预处理模块对输入的原始语音信号进行处理,去除不重要的信息和背景噪声,并进行端点检测和语音分帧等处理。

(2)特征提取

在去除语音信号中对识别无用的冗余信息后,保留关键特征参数并形成特征矢量序列,以便后续处理。

(3)声学模型训练

声学模型通过对声音的建模,将语音输入转换为声学表示。根据训练语音库的特征参数训练出声学模型参数。在识别时,将待识别语音的特征参数与声学模型匹配,得到识别结果。目前,主流的语音识别系统大多采用隐马尔可夫模型(HMM)进行建模。

(4)语言模型训练

语言模型用于计算一个句子出现的概率,即计算一个句子在语法上是否正确的概率。它主要用于决定哪个词序列的可能性更大,或在出现几个词时预测下一个可能出现的词。语言模型通过基于统计模型的训练,有效结合汉语语法和语义知识,提高识别率并减少搜索范围。

(5)语音解码和搜索算法

解码器是语音识别技术中的关键部分,它根据已训练好的HMM声学模型、语言模型及字典建立一个识别网络,并在该网络中寻找最佳路径,以确定输入语音信号对应的词串。解码操作即指搜索算法,通过搜索技术找到最优词串的方法。

语音识别本质上是一种模式识别的过程,通过比较未知语音与已知语音的参考形式,找到最佳匹配的参考形式作为识别结果。目前,主流的语音识别算法包括基于动态时间规整(DTW)、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)以及近年来基于深度学习和支持向量机等方法。

站在巨人的肩膀上:开源框架

目前,开源世界提供了多种不同的语音识别工具包,为开发者构建应用提供了很大帮助。但这些工具各有优劣,需要根据具体情况进行选择。以下是几种流行的工具包的对比,大多基于传统的HMM和N-gram语言模型。

(1)CMU Sphinx是卡内基梅隆大学的研究成果,已有20年的历史,且在GitHub和SourceForge上都有较高的活跃度。

(2)Kaldi从2009年的研讨会起就有了学术根基,目前在GitHub上开源,开发活跃度较高。

(3)HTK起源于剑桥大学,已经商用多年,但最新的版本已于2015年12月发布。

(4)Julius源自1997年,最后一个主版本发布于2016年9月,主要支持日语。

(5)ISIP是第一个新型的开源语音识别系统,源于密西西比州立大学,主要发展于1996年至1999年间,但项目已经不再活跃。

语音识别技术研究难点

目前,语音识别研究面临的主要问题包括:

(1)输入不统一

不同地方的方言和个体特有的发音习惯使得输入难以标准化。此外,输入设备的不一致也导致了语音输入的不规范。

(2)噪声干扰

在嘈杂环境中,机器很难区分人声和其他背景噪声。虽然目前主流的技术思路是通过算法降低误差,但在实际应用中仍面临诸多挑战。

(3)模型有效性

在大词汇量和连续语音识别中,现有的语言模型和词法模型还不能完全发挥作用,需要综合其他学科的知识来提高模型的有效性。

智能语音识别系统研发方向

尽管语音识别技术已经取得了一定的进展,但要实现真正的人机交流,还需要进一步的技术突破。未来,语音识别技术将在智能家居、智能车载、智能客服机器人等领域广泛应用,甚至深入到学习、生活和工作的各个方面。良好的用户体验将是推动语音识别技术发展的关键因素。

    本文来源:图灵汇
责任编辑: : 预言家
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
辨认揭秘语音终究了解手机
    下一篇