自语音识别技术诞生以来,其经历了漫长的发展历程,直至2009年深度学习技术的发展,才显著提升了识别精度。尽管目前语音识别仍无法完全适用于所有场景,但它已经在许多领域提供了便捷高效的沟通方式。
语音识别,又称自动语音识别,英文简称ASR,主要是将人类语音中的词汇内容转换为计算机可读的形式,通常是可理解的文本内容。这种转换过程也可称为语音转文本(Speech To Text,STT),以便与语音合成(Text To Speech,TTS)对应。
语音识别是一项涵盖多种学科前沿技术的领域,涉及数学、统计学、声学、语言学、计算机科学及人工智能等。然而,语音识别技术长期以来未能在实际应用中得到广泛认可,这与技术本身的局限性有关,如识别精度和速度问题,以及业界对其期望值过高等因素。
深度学习技术自2009年以来取得了显著进展,特别是在安静环境、标准口音和常用词汇的识别方面,准确率已超过95%。这意味着语音识别技术已经具备了与人类相似的语音识别能力。随着技术的进步,口音、方言、噪音等场景下的识别性能也得到了大幅提升,尤其是在智能音箱等设备上的应用,使其成为消费电子领域的重要技术之一。
现代语音识别始于1952年,当时Davis等人发明了首个能识别10个英语数字发音的实验系统。此后,语音识别技术历经多次变革,大致可分为三个主要阶段。
在20世纪70年代,语音识别主要集中在小词汇量、孤立词的识别上。这一时期主要采用模板匹配方法,即提取语音信号的特征并进行匹配。进入80年代,研究思路转向基于统计模型(HMM)的技术。HMM模型假设每个音素包含3到5个状态,不同状态间的转换按一定概率进行。GMM-HMM框架中,HMM描述语音的短时稳定性,GMM则描述每个状态内的发音特征。
2006年,Hinton提出了深度信念网络(DBN),推动了深度神经网络(DNN)的研究。2009年,DNN技术被应用于语音声学建模,显著提高了识别精度。DNN模型取代了原有的GMM模型,对每个状态进行建模,不再需要对语音数据分布进行假设,同时通过拼帧包含了语音的时序信息,增强了对噪声和口音的鲁棒性。
递归神经网络(RNN)和长短期记忆网络(LSTM)进一步提升了语音识别性能。LSTM通过输入门、遗忘门和输出门更好地控制信息流动,具有长短时记忆能力。双向LSTM(BLSTM)不仅考虑历史信息,还考虑未来信息,从而更好地建模上下文信息。
目前,主流的语音识别框架包括声学模型、语言模型和解码器。近年来,深度神经网络和端到端技术的兴起推动了声学模型的发展。国内在声学模型的研究上进展较快,主流方向是更深更复杂的神经网络技术结合端到端方法。
2018年,科大讯飞提出了深度全序列卷积神经网络(DFCNN),利用大量卷积直接对整句语音信号进行建模。同年,阿里提出了LFR-DFSMN,融合低帧率算法和DFS-MN算法,显著提升了识别准确率。
远场语音识别技术主要解决真实场景中舒适距离内的人机交互问题。这一技术在智能家居、智能汽车等领域得到了广泛应用。国内的远场语音识别技术主要采用前端信号处理和后端语音识别引擎,前端使用麦克风阵列去除混响和噪声,然后送入后端识别引擎。
语音识别技术将继续向远场化和融合化方向发展。然而,远场技术仍有许多挑战需要克服,如回声消除、噪声下的识别等。此外,如何更好地利用深度学习和信号处理技术结合,以及如何实现大规模数据下的迁移学习,都是未来的研究热点。
语音识别产业经历了多个关键节点,包括1988年基于HMM的Sphinx系统,2009年深度学习的广泛应用,以及2015年Amazon Echo的推出。这些节点标志着技术突破和应用场景的扩展。
1988年的Sphinx系统是第一个基于HMM的语音识别系统,标志着语音识别技术的初步成熟。2009年,深度学习技术的引入显著提高了识别精度。2015年,Amazon Echo的推出将语音识别技术推向了新的高度。
随着语音识别技术的发展,产业竞争也从研发转向应用。智能音箱等产品的普及推动了远场语音技术的应用。未来,语音识别技术将更加注重用户体验,平台服务商将在这一过程中发挥重要作用。
随着语音识别技术的普及,平台服务商的重要性日益凸显。他们不仅要提供技术支持,还需要整合内容和服务,以降低试错成本并提升用户体验。新兴的人工智能公司在这方面具有一定的优势,如更好的兼容性和更灵活的服务模式。
尽管语音识别技术尚未完全解决所有场景下的识别问题,但已在各个实际场景中得到了广泛应用,并且技术与产业形成了良好的正向循环。未来,语音识别技术将更加注重多技术、多学科、多传感器的融合,推动人工智能技术的发展。
[1] W. Minhua, K. Kumatani, S. Sundaram, N. Ström and B. Hoffmeister, "Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6640-6644.
[2] Li B, Sainath TN, Narayanan A, Caroselli J, Bacchiani M, Misra A, Shafran I, Sak H, Pundak G, Chin KK, Sim KC. Acoustic Modeling for Google Home. InInterspeech 2017 Aug 20 (pp. 399-403).
[3] Chiu CC, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, Jaitly N. State-of-the-art speech recognition with sequence-to-sequence models. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Apr 15 (pp. 4774-4778). IEEE.
[4] Li J, Deng L, Gong Y, Haeb-Umbach R. An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014 Feb 5;22(4):745-77.
[5] 俞栋,邓力. 解析深度学习:语音识别理论. 电子工业出版社. 2016年.
[6] 韩纪庆,张磊,郑铁然. 语音信号处理. 清华大学出版社. 2005年.
[7] 王东. 语音识别技术的现状与未来. 2017年.
[8] https://developer.amazon.com/zh/blogs/alexa/post/92bb9391-e930-464b-8ece-1fd8b476702a/amazon-scientist-outlines-multilayer-system-for-smart-speaker-echo-cancellation-and-voice-enhancement
[9] https://venturebeat.com/2019/04/01/alexa-researchers-develop-2-mic-speech-recognition-system-that-beats-a-7-mic-array/
[10] https://yq.aliyun.com/articles/704173
[11] http://azero.soundai.com
[12] http://research.baidu.com/Blog/index-view?id=109
陈孝良,声智科技创始人、董事长兼CEO,
冯大航,声智科技联合创始人、CTO
李智勇,声智科技战略合伙人、CSO