提到百度旗下的智能音箱小度,大家可能会想到它曾亮相春晚和在真人秀节目《向往的生活》中的出色表现。只需呼唤“小度,小度”,它就能迅速回应并满足你的各种需求。
根据市场研究机构Strategy Analytics最新发布的《2019 Q2全球智能音箱报告》,小度在国内智能音箱市场的出货量排名第一,达到470万台;在全球范围内,小度的出货量紧随亚马逊和Google之后。
小度之所以能够在智能音箱领域取得成功,背后有哪些技术支持呢?雷锋网指出,评价一款智能音箱好坏的标准主要看三点:听清、听懂和满足。
首先,在“听清”方面,指的是将用户的声波转化为准确的文字,这通常被称为语音识别或唤醒。在嘈杂环境中,设备需要准确识别用户的指令。为此,小度采用了一种名为流式多级截断注意力模型(SMLTA)的技术,大幅提升了语音识别的效果。
我们熟悉的ASR技术(自动语音识别)相当于人的耳朵,负责将声音转换为文字;而TTS技术(文本转语音)则相当于人的嘴巴,负责将文字转换为语音。大家在Siri等语音助手中听到的声音都是由TTS生成的,并非真实的人声。
SMLTA技术利用CTC算法的峰值信息对连续语音流进行截断处理,并在每个截断的小段语音上进行注意力建模。这种方法将全局注意力建模转变为局部语音段的注意力建模。此外,为了克服CTC模型带来的插入删除错误,该算法引入了多级注意力机制,实现了更精确的特征选择。这种创新的建模方法不仅提高了识别率,还保持了计算量和解码速度等方面的性能。
其次,在“听懂”方面,指的是设备能否准确理解用户的意图并给予恰当的回应。例如,当用户发出模糊指令时,小度会尝试分析并校正指令,以更好地满足用户需求。这得益于百度的ERNIE自然语言处理模型,该模型采用了超大数据预训练深度学习模型。
7月30日,百度发布了ERNIE的升级版——ERNIE 2.0自然语言理解框架。该框架通过持续的多任务学习,逐步学习和建立预训练任务。它支持增量引入词汇、语法和语义等多个层次的自定义预训练任务,并通过多任务学习进行训练,全面捕捉训练语料中的词法、语法和语义等潜在信息。此外,每当引入新任务时,该框架还能记住先前任务的信息。
最后,在“满足”方面,指的是设备能否满足用户的各种需求。小度融合了百度全网搜索能力和精准用户画像,从简单的响应进化为个性化的助手。
智能音箱的满足能力主要取决于设备的知识完备程度和服务生态。百度智能生活事业群组(SLG)首席技术官朱凯华表示,小度依靠百度生态中的知识图谱和搜索请求以及网页内容支持,知识完备程度较高。此外,小度助手的开放平台上已有33000多名开发者,积累了2400多项技能。
在软硬件一体化方面,小度采用了全双工免唤醒技术。这一技术的应用需要满足三个条件:软件和硬件的紧密结合、语音识别和语义理解的深度融合,以及完善的技术储备和解决方案。小度从设计之初就注重硬件的声学效果,即使在高噪音环境下也能准确唤醒。这种深度整合的能力也是百度的独特优势之一。相比之下,其他产品往往采用来自不同供应商的技术,而百度则拥有完整的技术体系和解决方案,为小度提供了强大的支持。