语音辨认流程的引见
作者头像
  • wubin123
  • 2019-12-15 21:57:34 0

语音识别是一种将声音转换为文字的技术,而自然语言理解则是将文字转化为语义的过程。语音合成则是通过语音方式传递用户所需的信息,实现人机交互。这一过程主要涵盖语音识别、自然语言理解和语音合成。

相比于机器翻译,语音识别更具挑战性。机器翻译的输入通常是书面文本,计算机能够清晰地分辨单词和词组。然而,语音识别的输入是声音,其复杂度更高,尤其是口语中存在大量不确定性。人们在交流时,常依靠上下文信息猜测对方的意思,并结合音调、面部表情和手势等获取更多信息。特别是在说话者需要更正或重复某些信息时,计算机要达到人类水平的语音识别难度更大。

语音识别过程包括从连续的声音波形中采样,将每个采样值量化,得到压缩的数字化表示。采样值被分组到帧中,每帧提取描述频谱特征的向量。随后,根据语音信号的特征识别出对应的单词。整个过程大致分为五个步骤:

  1. 语音信号采集

    语音信号采集是语音处理的基础。声音通常通过麦克风输入计算机,麦克风将声波转换为电压信号,再经由模数转换器(如声卡)采样,将连续的电压信号转化为计算机可以处理的数字信号。

    现代多媒体计算机普遍配备声卡、扬声器和麦克风等设备,其中声卡是处理语音信号的关键组件,具备滤波、放大、模数/数模转换等功能。此外,现代操作系统大多附带录音软件,可驱动声卡采集语音并保存为文件。

    在现场环境不佳或空间受限的情况下,通常采用基于单片机或DSP芯片的语音采集与处理系统。

  2. 语音信号预处理

    采集后的语音信号首先需进行滤波、模数转换、预加重和端点检测等预处理步骤,才能用于实际的识别、合成和增强操作。

    滤波的目的是抑制超出采样频率一半的所有频率成分,防止混叠干扰,并抑制电源工频干扰,因此滤波器应为带通滤波器。

    模数转换将模拟语音信号转换为数字信号,量化过程中会产生量化误差,称为量化噪声。

    预加重处理旨在提升低频部分,使信号频谱趋于平坦,便于频谱分析。

    端点检测用于确定语音信号的起点和终点,有效的方法包括时域特征法和频域特征法。时域特征法利用音量和过零率,计算量小但易受气音影响;频域特征法则通过频谱变化和熵值检测语音,计算量较大。

  3. 语音信号的特征参数提取

    人说话的频率通常低于10kHz。根据香农采样定理,为了包含所需单词的信息,计算机的采样频率应至少是语音信号中最高频率的两倍。通常将信号分割成多个片段,每个片段称为一帧,为避免重要信息丢失,帧之间应有一定重叠。例如,当采样率为20kHz时,一帧为10毫秒,包含200个采样值。

    麦克风等语音输入设备采集到声波波形。虽然这些波形包含所需单词的信息,但肉眼难以解读,因此需要从采样数据中提取有助于区分单词的特征信息。常用的语音特征提取技术是线性预测编码(LPC)。

    LPC的核心思想是语音采样点间存在相关性,可以通过过去的若干采样点预测当前和未来的采样点值。LPC系数可通过最小化预测信号与实际信号的均方误差来确定。

    LPC系数作为语音信号的特征参数,在语音处理领域广泛应用。

  4. 向量量化

    向量量化(VQ)是一种数据压缩和编码技术,发展于20世纪80年代末期。向量量化后的特征向量可用于后续的隐马尔可夫模型(HMM)作为输入观察符号。

    标量量化将动态范围划分为多个区间,每个区间有一个代表值,对于输入的标量信号,量化时落入某个区间的值用该区间代表值替代。而向量量化则是将标量改为向量,对向量进行量化。向量量化将向量空间划分为多个小区域,每个小区域选择一个代表向量,量化时落入某区域的向量用该区域的代表向量替代。

    向量量化的基本原理是在多维空间中对一组标量数据(或一帧语音数据中的特征向量)进行整体量化,从而在信息损失较小的情况下压缩数据。

  5. 语音识别

    提取特征参数后,即可识别这些特征所代表的单词。本节主要讨论单个单词的识别。识别系统的输入是从语音信号中提取的特征参数,如LPC预测编码参数,单词对应于字母序列。语音识别常用的方法包括模板匹配法、随机模型法和概率语法分析法,这三种方法均基于最大似然决策贝叶斯(Bayes)准则。

    • 模板匹配法:在训练阶段,用户将词汇表中的每个词依次说出,并将其特征向量存储到模板库。识别阶段,将输入语音的特征向量序列依次与模板库中的每个模板进行相似度比较,最高相似度者作为识别结果。

    • 随机模型法:这是目前语音识别研究的主要方向之一,隐马尔可夫模型(HMM)是其典型代表。HMM用概率统计方法描述语音信号的时变过程。

    • 概率语法分析法:这种方法适用于长段连续语音的识别。语音学家通过研究发现,虽然不同人说话时的语音图谱存在差异,但总有某些共性特征足以区分。结合词法、语法和语义等约束条件,语音识别专家提出了“区别性特征”,通过规则描述不同层次的知识。

除了上述方法,还有许多其他语音识别技术,例如基于人工神经网络的识别方法,近年来深度学习技术在语音识别领域的应用取得了显著进展。目前研究中使用的神经网络包括BP神经网络、Kohonen特征映射神经网络等。

    本文来源:图灵汇
责任编辑: : wubin123
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
引见辨认语音流程
    下一篇