语音辨认基础,总有一天你会用到
作者头像
  • 无人机市场
  • 2020-12-21 13:24:30 1

语音交互将成为新的重要入口,各大公司都在积极争夺这一资源,而争夺的核心在于高质量的数据,而非单纯的技术。因此,项目管理者需要深入了解语音识别技术的基本原理,因为这种技术将在不久的将来发挥重要作用。

接下来,我将介绍语音识别的基础知识:

语音识别的基础概念

1. 概念

自动语音识别(Automatic Speech Recognition,ASR)是一种将语音转换为文本的技术。这项技术旨在促进人与人、人与机器之间的交流,已经活跃了超过半个世纪。

2. 发展

近年来,ASR技术的普及得益于以下几个关键领域的进步: - 摩尔定律:推动了多核处理器、通用计算图形处理器(GPGPU)和CPU/GPU集群等技术的发展,显著降低了ASR系统的错误率。 - 大数据:利用互联网和云计算,获得了大量可用于训练模型的真实场景数据,提高了ASR系统的鲁棒性。 - 移动智能:移动设备、可穿戴设备、智能家居设备和车载娱乐系统日益流行,推动了语音交互技术的应用。

3. 研究领域分类

根据不同的研究任务,语音识别可以分为多个领域,具体分类如下:

4. 识别任务分类

语音识别可以根据任务的不同分为四大类,具体分类如下:

5. 应用

语音交互作为新的入口,主要应用于两大场景:促进人与人的交流和人与机器的交流。

  • 促进人与人的交流(HHC):例如,翻译系统、微信中的语音转文字功能等。语音到语音(S2S)翻译系统可以集成到Skype等通讯工具中,实现远程交流。
  • 促进人与机器的交流(HMC):例如,语音搜索、个人数字助手(PDA)、游戏和车载娱乐系统等。

6. 对话系统

需要注意的是,我们在下面提到的应用场景和系统都是基于语音对话系统的例子。语音识别技术只是构建完整对话系统的关键环节之一,还需要其他技术的支持。

语音识别系统

语音识别本质上是一个模式识别的问题。给定一段声波,机器需要判断它是“a”还是“b”。这个过程分为两个主要部分:生成机器可以理解的声音向量,以及通过模型算法识别这些声音向量,最终得出识别结果。

1. 系统架构概述

语音识别系统主要由四个部分组成:信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。

a. 信号处理和特征提取

这部分包括消除噪声和信道失真,将信号从时域转换到频域,并提取出有代表性的特征向量。

b. 声学模型

声学模型整合了声学和发音学的知识,输入特征向量并生成声学模型得分。

c. 语言模型

语言模型估计词与词之间的关系,评估假设词序列的可能性。

d. 解码搜索

综合声学模型和语言模型的得分,确定最佳识别结果。

2. 语音识别技术详解

语音识别的基本单元包括音素、音节和单词。具体选择哪种单元取决于具体的任务需求。

语音识别单元

语音识别的基本单元有三种:音素、音节和单词。具体选择哪种单元取决于任务的需求,如词汇量大小和训练数据的数量。

信号的数字化和预处理

接下来,需要将采集到的语音信号转化为数字信号,以便机器处理。这包括采样和预处理步骤,如分帧处理。

a. 数字化

采样定理规定,采样频率应至少是期望最高频率的两倍。常见的采样率有16kHz和44.1kHz。

b. 预处理

预处理包括分帧处理,即将语音信号分割为短片段进行分析。

特征提取

特征提取是从语音波形中提取有用信息的过程。常用的特征参数包括线性预测系数(LPC)和倒谱系数(如MFCC)。

语音识别评价标准

常用的评价标准是词错误率(WER),反映了识别系统的性能。WER通过计算替代、删除和插入错误的比例来衡量识别结果的质量。

以上内容介绍了语音识别的基础知识和技术细节,希望对您有所帮助。

    本文来源:图灵汇
责任编辑: : 无人机市场
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
辨认用到语音基础
    下一篇