近日,贵州省政府、清华大学和相关企业联合宣布,将共同开展一项试点项目,旨在将个人独特的语音特征与身份证信息关联,从而建立和维护声纹数据库。
目前,在商场、银行、酒店和安检处最常用的识别方式是人脸识别技术。中国对人脸识别技术的应用力度在其他国家并不常见,而声纹数据库的创建表明,中国市场正在向语音识别技术发展。
经过几十年的发展,语音识别技术已经相当成熟,并在多个领域发挥作用。在中国,语音识别技术很可能成为继人脸识别技术之后的下一个广泛应用的识别方式。然而,语音识别技术在发展过程中也面临一些挑战,需要在各方面进一步改进。
语音识别技术,又称自动语音识别(ASR),其目标是将人类语音中的文字内容转化为计算机可读的数据,如字符序列或二进制编码等。
早在计算机发明之前,人类就开始研究语音识别技术。早期的声码器被视为语音识别及合成的雏形。1920年代,最早的语音识别器——“Radio Rex”玩具狗诞生,只要呼唤它的名字,它就会从底座上弹出来。
1952年,贝尔实验室的Davis等人开发了Audrey语音识别系统,这是世界上首个能够识别十个英文数字发音的实验系统,其准确率为98%。1950年代末,伦敦学院将语法概率引入语音识别技术。1960年,英国的Denes等人成功开发了第一个计算机语音识别系统,并引入了人工神经网络技术。随后,语音识别技术在孤立词和小词汇量的识别方面取得了显著进展。
20世纪70年代后,研究重点转向大词汇量和非特定人连续语音识别。研究思路从基于标准模板匹配转变为基于HMM(统计模型)的技术,并再次引入神经网络技术。1981年,日本在第五代计算机计划中提出了语音识别的自然语言输入输出目标,尽管未完全实现,但推动了语音识别技术的进步。1987年,日本推出了高级人机口语接口和自动电话翻译系统。
20世纪90年代以来,语音识别系统的框架没有重大突破,但在应用和产品化方面取得了显著进展。中国自1958年开始研究语音识别技术,最初由中国科学院声学研究所通过电子管电路识别10个元音。1973年,声学研究所开始研究计算机语音识别技术,但由于条件限制,发展一直较慢。80年代,随着计算机技术在中国的普及,数字信号技术进一步发展,许多单位具备了研究语音技术的基本条件。在此背景下,更多的机构投入到语音识别技术的研究中。
1986年,中国高科技发展计划(863计划)启动,语音识别作为智能计算机系统的重要组成部分,成为专门的研究课题。在863计划的支持下,中国开始了有组织的语音识别技术研究,进入了前所未有的发展阶段。
2006年,深度学习兴起,2009年首次在语音识别任务中取得成功。基于深度学习的语音识别技术取得了显著进展。技术方面,从最初的前馈全连接神经网络,到递归神经网络、长短时记忆模型,再到包含数十层结构的深层全卷积神经网络,网络结构越来越复杂,也越来越能贴合语音特性,效果也越来越明显。
目前,基于深度学习的语音识别系统已经通过大量用户大数据训练,形成了一个通用的识别系统,在日常应用场景中已可使用。技术的成熟和广阔前景促使许多互联网公司纷纷涉足语音识别领域。
去年12月,阿里巴巴宣布在上海所有地铁站的售票机上安装语音识别技术,用于验证上班族身份。科大讯飞也在安徽为医疗信息提供语音签名服务,并为警方提供语音识别服务。此外,百度和腾讯也分别在语音识别领域有所行动。
由此可见,语音识别技术可能成为继人脸识别技术之后的下一个主要生物识别方式,并逐渐受到广泛关注和应用。然而,在发展过程中,仍不可避免地会遇到一些瓶颈。
目前,语音识别技术已经基本成型,处于较为成熟的阶段。例如,在语音识别的Switchboard任务中,最新的IBM系统已经能够将错误率控制在5.5%以下,有经验的转录人员在这一任务中的错误率可以降到4%以下。因此,安静环境下的语音识别系统已经接近人类水平。
目前的进展主要集中在应用层面。语音合成技术已被应用于更多领域,从最初的机械声音进化到能够发出自然人声的程度,甚至出现了各种明星声音的语音助手。在语音识别方面,市场上已经出现了针对方言口音的语音软件。在语义理解方面,聊天机器人正在快速发展,甚至可以讲笑话。在语音唤醒方面,智能音箱等产品大量涌现。虽然许多产品尚未达到高级智能水平,但也为语音识别技术指明了方向。
实际上,语音识别技术在发音规范且背景噪音可控的情况下,多年前就已经可以投入使用。许多高端系统在工程水平较高的情况下仍然表现出色,如早期的Siri及DARPA项目中的语音识别评估系统。
然而,在快速发展过程中,语音识别技术仍无法避免遇到一些瓶颈。
在强噪声干扰的情况下,当前的语音识别系统仍难以满足实际应用的要求。在自然发音、噪声、口音等复杂条件下,语音识别的准确率显著下降。此外,语音训练和测试数据的匹配也不完全一致。
要解决环境复杂的问题,除了高超的技术外,声学模型自适应等方法也是可行的。对于数据匹配问题,则可以更加倾向于研究方向,对语音的本质进行更深入的理解。
例如,人类听觉系统中存在一种“鸡尾酒会效应”:即使在背景噪声干扰的情况下,人类也能集中注意力聆听某个人的讲话。如果能够将这种功能赋予语音识别系统,目前的技术还难以实现。
此外,远场识别仍然是一个具有挑战性的难题。当前,远场语音识别的错误率是近场的两倍左右。因此,解决远场及强噪声干扰条件下的语音识别是目前亟待研究的问题。
目前,主要的解决方案是将语音识别与麦克风阵列技术结合。通过阵列信号处理技术增强多通道语音技术,然后利用深度学习方法进行声学建模。当然,这种方法仍有待提高和优化,并需考虑多方面因素,如如何将阵列信号处理技术和深度学习方法相结合,如何利用阵列信号处理的相关知识指导深度神经网络的结构设计,以便直接从多通道语音信号中学习多通道语音增强方法,进而与后端声学模型结合优化等。
此外,个体发音和用词习惯存在差异,如何使语音识别更加智能化也是一个挑战。
可以看到,语音识别技术已经进入相对成熟的阶段,未来将在应用市场上普及,但在发展过程中仍存在许多瓶颈。生物识别技术先进且便捷,但人们对其涉及的隐私问题仍存担忧。
当然,目前语音识别技术尚未大规模普及,但在那一天到来之前,人们需要弥补语音识别技术中的不足。实际上,对于深度学习神经网络而言,这一切只是时间问题。充足的语音数据加上充分的训练,语音识别技术的发展依然值得期待。