完整的语音交互，需要经过这五个环节

张倩
2022-07-17 07:49:50 4

本文将从“若琪，帮我设置明天早上8点的闹钟”这一场景出发，探讨智能音箱的工作流程及语音交互设计流程。同时，本文还会介绍各类AI产品经理和AI运营的工作内容及其考核指标。

近年来，随着智能音箱市场的快速发展，其销量也在持续增长。据统计，2018年全球智能音箱销量达到1.2亿台，而中国市场销量则达到了2200万台。语音交互逐渐成为一种自然高效的交互方式，具备高输入效率、低门槛、解放双手以及良好的情感交流优势。据预测，2020年全球语音助手市场规模有望达到约100亿美元。

一次完整的语音交互过程包括五个步骤：唤醒、自动语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）和技能（Skill）。接下来，我们将逐一解析这五个环节。

一、唤醒

智能音箱的唤醒机制与智能手机不同，需要通过特定方式激活设备。常见的激活方式有两种：通过按键激活或设置激活词。大多数智能音箱采用后者，如“天猫精灵”、“小爱同学”、“若琪”等。激活词通常为四音节，以避免误唤醒问题。误唤醒指的是设备因环境音被错误激活，这是一个行业难题。为解决这个问题，业界采取了多种措施，包括云端二次验证和产品策略调整。此外，智能音箱还可以通过声纹检测来判断用户身份，但目前这种方法的准确性仍有待提高。

进阶知识点： - 智能仲裁： 当家庭中有多台设备同时被唤醒时，需要通过感知用户位置和距离，选择合适的设备进行响应。 - 算法产品经理职责： 核心职责在于了解算法能力和边界，提出产品解决方案以放大算法优势或规避缺陷，如设置夜间模式压制误唤醒，增加用户自定义唤醒词提升用户体验。 - 唤醒的衡量指标： 包括唤醒率、误唤醒率和唤醒响应时长，分别在安静、噪音和AEC环境下进行测试。

二、自动语音识别（ASR）

ASR技术将声学语音转化为文字或拼音信息。语音识别系统分为训练和解码两个阶段。训练阶段利用大量标注的语音和文本数据训练数学和语言模型；解码阶段则通过声学和语言模型将语音转化为文字。为了提高识别率，系统还提供了热词服务，使特定内容的识别更加准确。

进阶知识点： - 寻向/声源定位： 多麦克风设计用于判断用户方向，确保采集到清晰的语音数据。 - 降噪： 在有环境音的情况下，需要进行降噪处理以提高识别准确率。 - AEC： 回音消除技术用于避免播放声音被拾音设备重新拾取。 - VAD： 语音端点检测技术用于确定人声的起始和结束时间点。 - 算法运营职责： 负责ASR优化，包括纠正错误识别结果以满足用户需求，并将纠正后的语料作为后续算法迭代的素材。

三、自然语言处理（NLP）

NLP技术用于将用户的指令转化为结构化语言，便于机器理解和处理。NLP将指令分解为领域、意图和词槽三个层次。例如，“帮我设置明天早上8点的闹钟”这句话的领域是“闹钟”，意图是“新建闹钟”，词槽是“明天8点”。NLP算法运营的主要职责是扩展NLP说法和词表，以提高系统的理解和处理能力。

四、语音合成（TTS）

TTS技术将文本转化为语音，使机器能够发出声音。TTS主要有两种实现方法：拼接法和参数法。拼接法通过预先录制的语音片段拼接而成，虽然自然度高但成本昂贵；参数法则通过统计模型生成语音参数，成本较低但自然度稍逊。随着技术进步，参数法的效果已显著改善，成为越来越受欢迎的选择。

五、技能（Skill）

Skill相当于智能音箱中的应用，负责处理用户意图并给予反馈。Skill的设计需遵循一定的原则，如增加回复多样性、重要信息后置以及合理简洁等。Skill的建立流程包括定义用户特征和使用场景、设计产品人设、收集用户意图并编写语义协议、撰写TTS文案、设计业务逻辑和最终开发实现。Skill产品经理的核心任务是确保覆盖所有可能的用户意图，并给出最合适的反馈，从而提高Skill的活跃率和留存率。

以上是关于智能音箱工作流程及语音交互设计流程的详细解读，希望能为您提供有价值的参考信息。

图灵汇

责任编辑：：张倩

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

交互语音环节经过完整需要

区块世界

2022-07-17

一文读懂语言识别技术原理｜新课速递