语音辨认基础，总有一天你会用到

无人机市场
2020-12-21 13:24:30 1

+关注

语音交互将成为新的重要入口，各大公司都在积极争夺这一资源，而争夺的核心在于高质量的数据，而非单纯的技术。因此，项目管理者需要深入了解语音识别技术的基本原理，因为这种技术将在不久的将来发挥重要作用。

接下来，我将介绍语音识别的基础知识：

语音识别的基础概念

1. 概念

自动语音识别（Automatic Speech Recognition，ASR）是一种将语音转换为文本的技术。这项技术旨在促进人与人、人与机器之间的交流，已经活跃了超过半个世纪。

2. 发展

近年来，ASR技术的普及得益于以下几个关键领域的进步： - 摩尔定律：推动了多核处理器、通用计算图形处理器（GPGPU）和CPU/GPU集群等技术的发展，显著降低了ASR系统的错误率。 - 大数据：利用互联网和云计算，获得了大量可用于训练模型的真实场景数据，提高了ASR系统的鲁棒性。 - 移动智能：移动设备、可穿戴设备、智能家居设备和车载娱乐系统日益流行，推动了语音交互技术的应用。

3. 研究领域分类

根据不同的研究任务，语音识别可以分为多个领域，具体分类如下：

4. 识别任务分类

语音识别可以根据任务的不同分为四大类，具体分类如下：

5. 应用

语音交互作为新的入口，主要应用于两大场景：促进人与人的交流和人与机器的交流。

促进人与人的交流（HHC）：例如，翻译系统、微信中的语音转文字功能等。语音到语音（S2S）翻译系统可以集成到Skype等通讯工具中，实现远程交流。
促进人与机器的交流（HMC）：例如，语音搜索、个人数字助手（PDA）、游戏和车载娱乐系统等。

6. 对话系统

需要注意的是，我们在下面提到的应用场景和系统都是基于语音对话系统的例子。语音识别技术只是构建完整对话系统的关键环节之一，还需要其他技术的支持。

语音识别系统

语音识别本质上是一个模式识别的问题。给定一段声波，机器需要判断它是“a”还是“b”。这个过程分为两个主要部分：生成机器可以理解的声音向量，以及通过模型算法识别这些声音向量，最终得出识别结果。

1. 系统架构概述

语音识别系统主要由四个部分组成：信号处理和特征提取、声学模型（AM）、语言模型（LM）和解码搜索部分。

a. 信号处理和特征提取

这部分包括消除噪声和信道失真，将信号从时域转换到频域，并提取出有代表性的特征向量。

b. 声学模型

声学模型整合了声学和发音学的知识，输入特征向量并生成声学模型得分。

c. 语言模型

语言模型估计词与词之间的关系，评估假设词序列的可能性。

d. 解码搜索

综合声学模型和语言模型的得分，确定最佳识别结果。

2. 语音识别技术详解

语音识别的基本单元包括音素、音节和单词。具体选择哪种单元取决于具体的任务需求。

语音识别单元

语音识别的基本单元有三种：音素、音节和单词。具体选择哪种单元取决于任务的需求，如词汇量大小和训练数据的数量。

信号的数字化和预处理

接下来，需要将采集到的语音信号转化为数字信号，以便机器处理。这包括采样和预处理步骤，如分帧处理。

a. 数字化

采样定理规定，采样频率应至少是期望最高频率的两倍。常见的采样率有16kHz和44.1kHz。

b. 预处理

预处理包括分帧处理，即将语音信号分割为短片段进行分析。

特征提取

特征提取是从语音波形中提取有用信息的过程。常用的特征参数包括线性预测系数（LPC）和倒谱系数（如MFCC）。

语音识别评价标准

常用的评价标准是词错误率（WER），反映了识别系统的性能。WER通过计算替代、删除和插入错误的比例来衡量识别结果的质量。

以上内容介绍了语音识别的基础知识和技术细节，希望对您有所帮助。

图灵汇

责任编辑：：无人机市场

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

辨认用到语音基础

沙桐雨

2020-12-24