揭开语音辨认系统在托福口语中的奥秘面纱

于九野
2020-04-15 09:51:16 1

上周六我们介绍了机器修改在托福写作中的应用，许多同学留言希望继续看到与托福考试相关的科普文章。今天我们将深入探讨托福口语评分中使用的语音识别（ASR）系统。

语音识别技术有着悠久的研究历史，研究人员从最初的简单阅读式语音识别逐步发展到现在的复杂场景。如今，即使在以往被认为非常困难的自由对话形式中，机器也能达到甚至超越人类的识别水平。

语音识别技术的基础理论源于Bachman对语言交际能力（Communicative Language Ability, CLA）的定义。Bachman将语言交际能力分为三个组成部分：语言能力（Language Competence）、策略能力（Strategic Competence）和心理生理机制（Psychophysiological Mechanism）。语言交际能力是一个动态模型，各组成部分之间相互作用。

随着Bachman理论的发展和语言教学领域的深入研究，语言交际能力的观点已经成为共识：语言学习不仅需要记忆语言知识，还需要完成交际任务，这涉及语境、话题和交际主体的隐性特征等因素。

ETS使用的口语自动评分系统中，第一个组件是ASR系统，它可以对口语输入内容进行数字化解码、采集语音样本，并为每个口语段生成带有时间标注的假设。语音识别实际上是从语音信号序列转化为文字或词序列的过程。许多研究人员一直认为解决这个问题只需要找到一种有效的序列到序列转换模型。

为了更好地理解和实现语音识别，语言学家们设计了一个实验模型：参与者在每个实验中会听到一个问题，并在屏幕上看到一组可能的答案选项。当屏幕上出现绿色的响应提示时，参与者会被指示选择并给出一个答案。同时，从大脑的跨颞叶和额叶皮层植入的ECoG电极获取大脑皮层的活性，并实时过滤以提取伽马波频率。计算机将进行话语检测（Utterance Detection）。计算机模型将检测到的话语进行分类（Utterance Classification）并进行语音解码（Decoding）。可能性最高的回答将作为解码后的输入问题。

为了整合问题和答案，模型设计者引入了上下文先验（Context Prior）机制，通过语义分割引入上下文信息，使每个答案仅适用于某些问题。将上下文先验与预测的回答可能性结合，形成答案先验。当语音检测模型检测到回答事件时，神经活动的时间窗口将传递给答案分类器，该分类器使用电话级别的维特比解码（Viterbi Decoding）计算回答的可能性。上下文整合模型将这些回答可能性与答案先验结合，以得出后验概率（Posterior Probability）。具有最高后验概率的答案将作为解码后的答案输入。

关于伽马波，大脑神经元通过离子流入和流出每个细胞产生的电脉冲进行通信。当一组神经元重复激发时，会产生振荡的电波纹并席卷整个大脑。伽马波是频率最高的波段，范围从25到140赫兹。语音检测模型利用高伽马波的时间和空间模型来预测受试者是否在某个时间点听到了问题或尝试回答。在话语分类阶段，当语音检测模型检测到音频波动时，高伽马波信号将传递给识别器，该识别器使用维特比解码来计算受试者发声的可能性。

模块化的对话系统通过分模块串行处理对话任务，每个模块负责特定的任务，并将结果传递给下一个模块。这些模块包括自然语言理解（NLU）、对话状态跟踪（DST）、对话策略学习（DPL）和自然语言生成（NLG）。NLU将用户输入的自然语言语句映射为机器可读的结构化语义表示，这种结构化语义通常由用户意图（User Intention）和槽值（Slot-Value）组成。

用户意图，也称为口语语句分类（Spoken Utterance Classification），即将受试者的自然语言会话划分为不同的类别。例如，“明天天气如何？”的意图是“询问天气”。自然语言理解通常可以视为文本分类任务，而意图的定义与对话系统的定位和所具有的知识库有很大关系。

槽位是意图所带的参数。一个意图可以对应多个槽位，例如查询公交路线时需要给出出发地、目的地和时间等必要参数。这些参数即“查询公交路线”这一意图对应的槽位。语义槽位填充任务的主要目的是在已知特定领域或特定意图的语义框架下，从输入语句中抽取该语义框架中预先定义好的语义槽的值。语义槽位填充任务可以转化为序列标注任务，即使用经典的IOB标记法，标记某一个词是否是某一语义槽的开始、延续或非语义槽。

为了使面向任务的对话系统正常运行，首先需要设计意图和槽位。意图和槽位可以让系统知道执行哪项特定任务，并提供执行该任务所需的数据类型。以“询问天气”为例，我们来看看面向任务的对话系统中如何设计意图和槽位。

示例输入： “明天上海天气怎么样？”

意图定义： 询问天气，Ask_Weather

槽位定义： - 时间，Date - 地点，Location

意图与槽位定义：

在上述示例中，“询问天气”任务定义了两个必要的槽位：“时间”和“地点”。

托福考试在口语部分采用了Speech Rater®与评分员共同评分的方式，确保全面准确地反映考生的英语能力，同时避免因单一评分员而导致的偏见，保证考试的公平公正。

教书匠阿伦将继续陪伴您的托福学习之旅！

更多精彩内容，请关注教书匠阿伦！

图灵汇

责任编辑：：于九野

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。