完整的语音交互,需要经过这五个环节
作者头像
  • 张倩
  • 2022-07-17 07:49:50 4

本文将从“若琪,帮我设置明天早上8点的闹钟”这一场景出发,探讨智能音箱的工作流程及语音交互设计流程。同时,本文还会介绍各类AI产品经理和AI运营的工作内容及其考核指标。

近年来,随着智能音箱市场的快速发展,其销量也在持续增长。据统计,2018年全球智能音箱销量达到1.2亿台,而中国市场销量则达到了2200万台。语音交互逐渐成为一种自然高效的交互方式,具备高输入效率、低门槛、解放双手以及良好的情感交流优势。据预测,2020年全球语音助手市场规模有望达到约100亿美元。

一次完整的语音交互过程包括五个步骤:唤醒、自动语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)和技能(Skill)。接下来,我们将逐一解析这五个环节。

一、唤醒

智能音箱的唤醒机制与智能手机不同,需要通过特定方式激活设备。常见的激活方式有两种:通过按键激活或设置激活词。大多数智能音箱采用后者,如“天猫精灵”、“小爱同学”、“若琪”等。激活词通常为四音节,以避免误唤醒问题。误唤醒指的是设备因环境音被错误激活,这是一个行业难题。为解决这个问题,业界采取了多种措施,包括云端二次验证和产品策略调整。此外,智能音箱还可以通过声纹检测来判断用户身份,但目前这种方法的准确性仍有待提高。

进阶知识点: - 智能仲裁: 当家庭中有多台设备同时被唤醒时,需要通过感知用户位置和距离,选择合适的设备进行响应。 - 算法产品经理职责: 核心职责在于了解算法能力和边界,提出产品解决方案以放大算法优势或规避缺陷,如设置夜间模式压制误唤醒,增加用户自定义唤醒词提升用户体验。 - 唤醒的衡量指标: 包括唤醒率、误唤醒率和唤醒响应时长,分别在安静、噪音和AEC环境下进行测试。

二、自动语音识别(ASR)

ASR技术将声学语音转化为文字或拼音信息。语音识别系统分为训练和解码两个阶段。训练阶段利用大量标注的语音和文本数据训练数学和语言模型;解码阶段则通过声学和语言模型将语音转化为文字。为了提高识别率,系统还提供了热词服务,使特定内容的识别更加准确。

进阶知识点: - 寻向/声源定位: 多麦克风设计用于判断用户方向,确保采集到清晰的语音数据。 - 降噪: 在有环境音的情况下,需要进行降噪处理以提高识别准确率。 - AEC: 回音消除技术用于避免播放声音被拾音设备重新拾取。 - VAD: 语音端点检测技术用于确定人声的起始和结束时间点。 - 算法运营职责: 负责ASR优化,包括纠正错误识别结果以满足用户需求,并将纠正后的语料作为后续算法迭代的素材。

三、自然语言处理(NLP)

NLP技术用于将用户的指令转化为结构化语言,便于机器理解和处理。NLP将指令分解为领域、意图和词槽三个层次。例如,“帮我设置明天早上8点的闹钟”这句话的领域是“闹钟”,意图是“新建闹钟”,词槽是“明天8点”。NLP算法运营的主要职责是扩展NLP说法和词表,以提高系统的理解和处理能力。

四、语音合成(TTS)

TTS技术将文本转化为语音,使机器能够发出声音。TTS主要有两种实现方法:拼接法和参数法。拼接法通过预先录制的语音片段拼接而成,虽然自然度高但成本昂贵;参数法则通过统计模型生成语音参数,成本较低但自然度稍逊。随着技术进步,参数法的效果已显著改善,成为越来越受欢迎的选择。

五、技能(Skill)

Skill相当于智能音箱中的应用,负责处理用户意图并给予反馈。Skill的设计需遵循一定的原则,如增加回复多样性、重要信息后置以及合理简洁等。Skill的建立流程包括定义用户特征和使用场景、设计产品人设、收集用户意图并编写语义协议、撰写TTS文案、设计业务逻辑和最终开发实现。Skill产品经理的核心任务是确保覆盖所有可能的用户意图,并给出最合适的反馈,从而提高Skill的活跃率和留存率。

以上是关于智能音箱工作流程及语音交互设计流程的详细解读,希望能为您提供有价值的参考信息。

    本文来源:图灵汇
责任编辑: : 张倩
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
交互语音环节经过完整需要
    下一篇