关于语音辨认技术在会议中的运用

VR动态
2020-08-21 08:37:41 0

+关注

1. 语音识别技术的现状

语言是人类最自然的交流方式。自从计算机诞生以来，尽管交流手段一度局限于键盘和鼠标等面向机器的方式，但人类从未停止过让机器理解和回应人类语言的努力。这些场景在许多科幻电影中都有展现，智能机器人通过语音与人类自由交流。

从计算机模拟人类语言交流的角度来看，这一过程涵盖了倾听、理解、思考和表达四个阶段。在当前的计算机领域，按照技术复杂度和技术普及程度，可以大致分为以下几类技术：

自然语言生成：将大脑的思想转化为语言。
语音合成：将语言转化为语音。
语音识别：识别语音中的内容。
自然语言理解：理解语音中的语言含义。

其中，语音识别技术指的是机器自动将人的语音转换成文字，称为自动语音识别（Automatic Speech Recognition，简称ASR）。这是一种涉及声学、语音学、语言学、心理学、信息理论、模式识别、数字信号处理、人工智能和数理统计等多学科交叉的技术。近年来，随着人工智能的发展，语音识别技术在实际应用中取得了重大突破，不仅从实验室走向市场，还逐渐融入人们的日常生活。

语音识别技术的核心在于基于语音特征参数的模式识别，即通过学习，系统可以将输入的语音按一定模式分类，进而根据判断原则找出最佳匹配结果。

图形展示

（此处省略图形展示）

语音识别技术的主要类别

语音识别技术主要分为三大类： - 第一类是模型匹配方法，包括矢量量化（VQ）、动态时间规整（DTW）等； - 第二类是概率统计方法，包括高斯混合模型（GMM）、隐马尔科夫模型（HMM）等； - 第三类是分类方法，如支持向量机（SVM）、人工神经网络（ANN）和深度神经网络（DNN）等。

目前，语音识别技术已经相当成熟，各大公司宣称的识别率已达到97%甚至98%。语音识别技术的应用范围广泛，包括语音输入、语音搜索、语音广告平台、智能客服等。然而，这些高识别率通常是在安静环境、近距离、标准发音条件下测试的结果。在实际场景中，各种异常情况（如距离过远、发音不标准、环境噪音、频繁中断等）会导致识别效果大打折扣。

因此，语音识别技术的实际应用受到特定场景的限制，需要配合多种解决方案。尽管如此，这并不妨碍我们开发产品原型和初步实现产品化。相反，这是AI产品经理的绝佳机会——通过产品体验设计来弥补技术不足。

2. 语音识别技术的发展与挑战

在现代办公中，会议仍然是不可或缺的一部分。虽然电子邮件、电话、工作群、OA系统等在线工具可以部分替代面对面会议，但会议仍然是重要的沟通方式。因此，会议室建设一直受到重视，投资比例远高于办公区域。

早期的会议室建设目标集中在电子化和自动化上： - 电子化：利用显示和扩声技术实现多媒体会议，丰富会议表现形式。 - 自动化：利用会议控制系统实现设备自动化管理，简化会议操作。

接下来的阶段，人们将注意力转向会议组织过程，通过在线化和智能化来优化会议流程： - 人员在线：通过手机应用、人员定位、人脸识别等方式显示人员状态。 - 设备在线：集成会议设备，面向最终使用者提供服务。 - 场景在线：利用物联网技术，结合空间管理应用，实现会议室及相关设施的在线管理。 - 过程在线：结合人、物、场的数字化，重构会议流程，提升效率。

下一步，会议内容的在线化变得至关重要。会议内容是促进会议目标达成的关键。然而，现有的会议内容记录往往是非结构化的音视频资料，难以查阅、分享和检索。这使得会议内容缺乏流动性，不符合在线应用的要求。

随着AI技术的发展，特别是语音识别技术的进步，会议内容的在线化成为可能。人类通过阅读获取信息的速度远快于通过听觉获取信息。因此，会议纪要的转写应用变得越来越重要。然而，目前的语音识别技术主要适用于单一话筒、预先准备的发言、标准普通话等条件下的会议纪要转写。大多数会议环境中，由于环境噪音、多人交互、现场组织等原因，最终生成的会议纪要可读性较差。

尽管各大厂商宣称的识别率已达到97%，但这种高识别率难以应对外部环境干扰。因此，会议纪要转写似乎陷入了困境。

3. 语音识别技术在会议中的应用

语音识别技术通过人工智能已经将识别率提高到了97%，尽管在非理想场景中，会议纪要转写未必能达到良好的阅读要求，但依然可以提取出大量有价值的信息。这就像原油，虽然含有杂质，但同样富含有用的信息。我们可以借鉴石化企业的做法，将有用的信息提取出来，应用于不同的场景。

语音识别技术在会议中的应用可分为三个层次： - 数据转换：将音频数据转换为文本数据。虽然不完全精准，但其中包含丰富的可用信息。 - 信息提取：利用搜索引擎技术，提取关键字、常用词和高频词，形成可衡量的标签，并与音频片段对应。这使得音频检索成为可能，提高了会议回顾效率。 - 信息应用：将提取的信息应用于具体业务场景，实现信息的再利用。例如，数字会议纪要、知识图谱、事项跟踪等。