关于语音辨认技术在会议中的运用
作者头像
  • VR动态
  • 2020-08-21 08:37:41 0

1. 语音识别技术的现状

语言是人类最自然的交流方式。自从计算机诞生以来,尽管交流手段一度局限于键盘和鼠标等面向机器的方式,但人类从未停止过让机器理解和回应人类语言的努力。这些场景在许多科幻电影中都有展现,智能机器人通过语音与人类自由交流。

从计算机模拟人类语言交流的角度来看,这一过程涵盖了倾听、理解、思考和表达四个阶段。在当前的计算机领域,按照技术复杂度和技术普及程度,可以大致分为以下几类技术:

  • 自然语言生成:将大脑的思想转化为语言。
  • 语音合成:将语言转化为语音。
  • 语音识别:识别语音中的内容。
  • 自然语言理解:理解语音中的语言含义。

其中,语音识别技术指的是机器自动将人的语音转换成文字,称为自动语音识别(Automatic Speech Recognition,简称ASR)。这是一种涉及声学、语音学、语言学、心理学、信息理论、模式识别、数字信号处理、人工智能和数理统计等多学科交叉的技术。近年来,随着人工智能的发展,语音识别技术在实际应用中取得了重大突破,不仅从实验室走向市场,还逐渐融入人们的日常生活。

语音识别技术的核心在于基于语音特征参数的模式识别,即通过学习,系统可以将输入的语音按一定模式分类,进而根据判断原则找出最佳匹配结果。

图形展示

(此处省略图形展示)

语音识别技术的主要类别

语音识别技术主要分为三大类: - 第一类是模型匹配方法,包括矢量量化(VQ)、动态时间规整(DTW)等; - 第二类是概率统计方法,包括高斯混合模型(GMM)、隐马尔科夫模型(HMM)等; - 第三类是分类方法,如支持向量机(SVM)、人工神经网络(ANN)和深度神经网络(DNN)等。

目前,语音识别技术已经相当成熟,各大公司宣称的识别率已达到97%甚至98%。语音识别技术的应用范围广泛,包括语音输入、语音搜索、语音广告平台、智能客服等。然而,这些高识别率通常是在安静环境、近距离、标准发音条件下测试的结果。在实际场景中,各种异常情况(如距离过远、发音不标准、环境噪音、频繁中断等)会导致识别效果大打折扣。

因此,语音识别技术的实际应用受到特定场景的限制,需要配合多种解决方案。尽管如此,这并不妨碍我们开发产品原型和初步实现产品化。相反,这是AI产品经理的绝佳机会——通过产品体验设计来弥补技术不足。

2. 语音识别技术的发展与挑战

在现代办公中,会议仍然是不可或缺的一部分。虽然电子邮件、电话、工作群、OA系统等在线工具可以部分替代面对面会议,但会议仍然是重要的沟通方式。因此,会议室建设一直受到重视,投资比例远高于办公区域。

早期的会议室建设目标集中在电子化和自动化上: - 电子化:利用显示和扩声技术实现多媒体会议,丰富会议表现形式。 - 自动化:利用会议控制系统实现设备自动化管理,简化会议操作。

接下来的阶段,人们将注意力转向会议组织过程,通过在线化和智能化来优化会议流程: - 人员在线:通过手机应用、人员定位、人脸识别等方式显示人员状态。 - 设备在线:集成会议设备,面向最终使用者提供服务。 - 场景在线:利用物联网技术,结合空间管理应用,实现会议室及相关设施的在线管理。 - 过程在线:结合人、物、场的数字化,重构会议流程,提升效率。

下一步,会议内容的在线化变得至关重要。会议内容是促进会议目标达成的关键。然而,现有的会议内容记录往往是非结构化的音视频资料,难以查阅、分享和检索。这使得会议内容缺乏流动性,不符合在线应用的要求。

随着AI技术的发展,特别是语音识别技术的进步,会议内容的在线化成为可能。人类通过阅读获取信息的速度远快于通过听觉获取信息。因此,会议纪要的转写应用变得越来越重要。然而,目前的语音识别技术主要适用于单一话筒、预先准备的发言、标准普通话等条件下的会议纪要转写。大多数会议环境中,由于环境噪音、多人交互、现场组织等原因,最终生成的会议纪要可读性较差。

尽管各大厂商宣称的识别率已达到97%,但这种高识别率难以应对外部环境干扰。因此,会议纪要转写似乎陷入了困境。

3. 语音识别技术在会议中的应用

语音识别技术通过人工智能已经将识别率提高到了97%,尽管在非理想场景中,会议纪要转写未必能达到良好的阅读要求,但依然可以提取出大量有价值的信息。这就像原油,虽然含有杂质,但同样富含有用的信息。我们可以借鉴石化企业的做法,将有用的信息提取出来,应用于不同的场景。

语音识别技术在会议中的应用可分为三个层次: - 数据转换:将音频数据转换为文本数据。虽然不完全精准,但其中包含丰富的可用信息。 - 信息提取:利用搜索引擎技术,提取关键字、常用词和高频词,形成可衡量的标签,并与音频片段对应。这使得音频检索成为可能,提高了会议回顾效率。 - 信息应用:将提取的信息应用于具体业务场景,实现信息的再利用。例如,数字会议纪要、知识图谱、事项跟踪等。

数字会议纪要

传统的会议纪要依赖记录员的专业水平、理解能力和概括能力,往往准确度不高。现在,通过语音识别技术,我们可以将每条纪要与对应的音频片段关联,提高会议纪要的准确性和可用性。

知识图谱

语音标签通过会议纪要或其他方式在不同人群中传播时,可以通过点赞、推荐等方式使有价值的内容从混杂信息中脱颖而出。这种方法无需专人整理,更容易被大众接受。

事项跟踪

会议中通常会涉及多个事项,回顾会议记录本质上是横向了解其涵盖范围内的所有事项。但很多时候,我们更关心一个事项从头到尾的纵向信息,尤其是在会议上讨论的重要信息。以前没有好的方法解决这个问题,但现在通过有价值的语音标签,我们可以将不同会议按目的纵向连接起来。

总之,语音识别技术的应用前景广阔。以前没有这项技术时,很多设想都无法实现,但现在有了人工智能的加持,未来人类的行为方式将会得到加速改进。

    本文来源:图灵汇
责任编辑: : VR动态
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
辨认语音运用会议关于技术
    下一篇