在WAIC 2021 AI开发者论坛上,好未来集团技术副总裁吴中勤发表了题为《多模态机器学习及大规模自动生成技术:算法框架与实际应用》的主题演讲。他在演讲中重点介绍了多模态深度学习和大规模自动生成技术在教育领域的应用,并分享了好未来AI研究院的最新研究成果和成功案例。
以下是吴中勤在WAIC 2021 AI开发者论坛上的演讲内容:
非常荣幸能来到上海与大家分享人工智能算法及其在行业中的实际应用。今天,我将重点介绍与工作中密切相关的多模态深度学习、大规模自动生成技术,以及这些技术在教育行业的实际案例,希望能为大家带来更易于理解的演讲。
所谓多模态是指机器能够感知的电子信号输入,包括声音、图像、自然对话的语言,甚至更多电子传感器信号。通过结合多种模态的数据,我们可以更好地解决单一模态无法解决的问题。
例如,单纯依靠语音识别可能会丢失一些信息,但如果结合唇语识别的能力,通过观察说话者的面部动作,就能更好地理解其意图。这种结合视觉与听觉的AVSR模型,在更高的信噪比条件下,可以获得更加稳定可靠的识别效果。
多模态技术在现实生活中有着广泛的应用,如表情识别、媒体分析、图像描述、视频描述,以及基于视觉和视频的自动问答系统等。在观看长视频时,带有字幕的视频就是一个典型的多模态应用实例。
多模态技术的研究方向包括以下几个方面:表征、转换、融合和对齐。表征是指结合多个模态进行事物或语义的表示;转换是指在不同模态之间进行转换;融合是指在单模态识别后进行后端融合;对齐是指将文字、视频等不同模态的内容进行匹配。
以实际工作为例,好未来作为国内较大的K12教育机构之一,在课堂上会遇到许多问题。为了评估课堂教学质量和师生互动情况,我们开发了一套名为GodEye的教学辅助系统,该系统基于多模态深度学习理念,能够智能识别教师和学生的行为,通过视频片段和关键行为定位课堂互动情况,最终提升学习效果。
我们还致力于打造一套能够帮助教师成长的AI系统,通过对教师授课质量的全面分析和解构,提供更加详细的指导。此外,我们还利用多模态深度学习技术,对教师授课过程中的情感进行细粒度分类,捕捉每个字词之间的情感变化,从而提升教学效果。
人类情感是一个复杂且难以实时捕捉的过程。我们的研究集中在教师授课过程中,通过多模态方法对情感进行细粒度分类。这项研究采用了时间对齐的池化机制,能够捕捉每个字词之间的情感要素,同时利用多模态深度学习技术,通过多个模态的交叉刺激模块,增强在情感分类中的信息捕捉,从而达到更好的效果。
除了在课堂上进行情感分析,我们还在一对一教学中进行了尝试。一对一教学中,如何区分教师和学生的发言是一个挑战。为此,我们开发了一种算法,能够在软件层面自动完成说话人分离,而无需依赖额外的设备。这项技术已经发表在ICASSP 2020,并取得了良好的效果。
除了多模态机器学习,我们还关注自动生成技术。近年来,AI技术不仅限于识别和理解,也开始探索能否智能化地生成内容。例如,我们与智源研究院合作,基于大规模预训练模型推出了适用于教育场景的大规模GPT模型。这种模型不仅可以自动生成练习题,还可以根据学生的需求生成个性化的作文题目。
目前,这种功能已经在学习软件题拍拍APP上线,可以根据学生的薄弱项生成针对性的题目。此外,我们还利用这种技术自动生成作文,并将其转化为多模态内容,使学生可以通过自己喜爱的IP形象来朗读作文。
好未来与世界人工智能大会有着深厚的渊源。在2019年的世界人工智能大会上,科技部宣布依托好未来构建智慧教育新一代人工智能平台。目前,好未来已成为智慧教育领域唯一一家AI国家队,得到了国家的支持。2020年,由于特别注重教育的公平性和普适性,我们被联合国教科文组织授予奖项。在最近的云原生消费业大会上,我们的AI平台被评为2021年度优秀云原生案例。
在学术研究方面,好未来在INTERSPEECH 2021中获得了非母语儿童语音识别比赛的双项冠军。在CVPR 2021中,我们也在与教育高度相关的四项赛事中获得冠军,如暗光下的人脸检测和辨认、场景中人与物体的关系等。此外,在今年的人工智能教育大会上,我们有五篇论文展示了AI与教育之间的关系。