文/王轩
语音识别是未来人工智能的重要组成部分。如果计算机无法理解人类的语言,那么所谓的智能也就无从谈起。近年来,一些大公司通过收购来推动语音识别技术的发展,例如苹果收购了Siri、Facebook收购了Wit.ai、中国移动投资了科大讯飞。此外,许多公司还推出了各自的语音助手,如微软的Cortana、谷歌的Allo、百度的百度语音等。
语音识别的目标是使计算机能够理解人类的语言。为此,通常需要经历几个步骤:预处理、特征提取、特征匹配和语言模型训练。下面我们逐一了解这些步骤。
我们知道,语音是以声波的形式存在的。预处理的第一步是去除噪音,然后检测语音信号的起点和终点,并将语音分割成若干小段。比如,每10毫秒为一个片段,5秒的语音会被分成500个片段。
特征提取是通过算法计算出每个小段语音频谱的关键信息。这些信息以向量的形式表示。例如,计算机听到“天气”这个词时,会将其表示为向量“(13,4,10),(40,17,5)”。实际上,需要的数字会更多。
系统会建立一个特征数据库,其中包含每个词的发音描述。将待识别的语音与数据库进行比对,由于即使是同一个人连续读同一词也会有差异,因此识别结果是一个概率值。例如,“天气”这个词被识别为90%的可能性是“天气”,53%的可能性是“甜蜜”,0.1%的可能性是“早晨”。
语言模型训练主要是教计算机理解和处理语法和语义,以便在特征匹配时缩小搜索范围。语音识别系统大多基于用户说话的习惯,定义哪些词可能出现在上一个已识别词之后。例如,单独的词可能是“巧克力”“飞翔”“宝石”,但当它们组成一句话时,计算机可能会识别为“巧克力非常好吃”。
语音识别的效果经历了三个阶段:独立字识别、短语识别和结合情景的语义识别。独立字识别是指计算机能够识别单个词或音节,如“fu”可能对应“付”“复”“负”“富”等。短语识别是指计算机能够识别词组,如“bao fu”可能对应“报复”“抱负”“暴富”。结合情景的语音识别则是在特定情境下,计算机能够识别出更精确的词。
语音识别根据对说话人的要求分为特定人语音识别和非特定人语音识别。特定人语音识别针对某一特定用户,识别准确率较高,但适用范围有限。而非特定人语音识别适用于所有用户,但准确率较低。
根据说话方式,语音识别又可分为孤立词识别和连续语音识别。孤立词识别每次只识别一个词,连续语音识别则可以识别连续的句子。连续语音识别更符合人们的自然交流习惯,是未来的发展方向。
目前,多家公司基于语音识别技术推出了语音助手,用于辅助操作电子设备或充当秘书。例如,Windows 10的小娜、科大讯飞的灵犀语音助手等。
用户可以用语音设置日历提醒。例如,用户说“明天早上八点去学习”,小娜会自动设置提醒。
用户可以直接用语音打开已安装的应用程序,如“打开QQ”。
小娜还可以接受查询指令,如“劳动节放假几天”,它会自动显示相关信息。
小娜还可以调用系统内置的计算器,如用户说“526除以35等于几”,小娜会自动计算并显示结果。
语音助手除了基本的提醒和查询功能外,还可以实现自动拨号、发送信息、设置闹钟、播放音乐等。例如,用户说“打电话给XX”,手机会自动拨打电话。用户说“播放刘德华的《恭喜发财》”,语音助手会自动播放该歌曲。
语音识别作为人工智能的“耳朵”,不仅能够“听”,还能部分替代大脑进行语音意义分析。其技术将在人机对话、信息处理等方面发挥重要作用。未来,语音识别将更加普及和便捷,用户可以通过自然语言与计算机互动,智能家居也将通过语音控制变得更加智能化。
来源:今日科协微信公众号 [indent] 中国科协各级组织要坚持为科技工作者服务、为创新驱动发展服务、为提高全民科学素质服务、为党和政府科学决策服务的职责定位,推动开放型、枢纽型、平台型科协组织建设。接长手臂,扎根基层,团结引领广大科技工作者积极进军科技创新,组织开展创新争先行动,促进科技繁荣发展,促进科学普及和推广,真正成为党领导下团结联系广大科技工作者的人民团体,成为科技创新的重要力量。——习近平 [/indent]