中科视拓助力ACM ICMI 2019音视频语音辨认竞赛 (MAVSR)

DoNews
2019-11-08 10:48:12 10

唇语识别技术前沿

10月14日至18日，第21届ACM多模态交互大会（ICMI 2019）在苏州顺利闭幕。此次大会涵盖了研讨会、主题演讲、行动报告、海报展示、Demo演示及竞赛等多种形式，吸引了超过200位国内外知名专家学者参与。其中，中科视拓赞助了ACM ICMI 2019的音视频语音识别竞赛（MAVSR），为优秀科研人才提供了展示才华的平台。

ACM ICMI 2019

ACM ICMI大会是ACM的重要活动之一，专注于多模态交互技术的实际应用与实证研究。大会涵盖的技术领域包括组件技术、界面设计以及系统开发，旨在促进多模式人机交互和接口领域的跨学科研究。其录用的论文在人机交互领域期刊和会议中的影响力排名第七。

MAVSR竞赛

MAVSR普通话音视频语音识别竞赛是ACM ICMI 2019的重要组成部分，于今年4月11日正式开启。该竞赛由来自中国科学院计算技术研究所的山世光、陈熙霖、杨双，牛津大学的谢伟迪，伦敦帝国理工学院的Stavros Petridis以及三星美国研究院的王晓龙共同担任组委会成员。

MAVSR竞赛的主题是音视频结合的语音识别与检索，主要包含三个挑战任务：

闭集的词级单视觉/音视结合的语音识别；
开集的词级单视觉/音视结合的语音识别；
基于视觉信息的关键词检索。

每个任务的获胜者都将获得相应的奖金。

本次竞赛的优胜者分别是来自东南大学和澳大利亚国立大学的团队： - 东南大学VAMG团队，队长袁有根，音视结合的词级唇语识别冠军，其在词级闭集语音识别任务上的准确率达到82.78%，比单独使用音频识别提高了5.94%。 - 澳大利亚国立大学西天取经团队，队长姚越，在闭集合的词级视觉语音识别和视觉语音关键词检索两个任务上均获得冠军。

袁有根和姚越在大会上分享了他们的方法原理和研究成果，引起了包括来自日本奈良先端科技大学和某知名科技公司的与会者的极大兴趣。

此外，组委会还接收了与唇语识别、语音活动检测、基于视频/音频的关键词检索、说话人脸生成、利用视觉信息的语音增强、音视频融合、声源定位以及音视频自监督学习等相关主题的论文。所有通过双盲评审的论文将被收录进ACM ICMI的论文集。

中科视拓的支持

中科视拓一直关注人工智能行业的前沿科学研究和技术进步，大力支持音视频语音识别与检索的发展。此次赞助MAVSR竞赛，不仅为比赛提供了坚实的保障，也体现了企业助力科研、回馈社会的初衷。通过这次竞赛，中科视拓发掘了一批高水平人才，推动了产学研深度融合。

中科视拓（北京）科技有限公司是一家源自中国科学院计算技术研究所的人工智能基础设施服务商。核心团队由国家“万人计划”领军人才山世光研究员和国家自然科学基金杰出青年基金获得者陈熙霖研究员领导。中科视拓依托在人脸识别和通用计算机视觉技术方面的深厚积累，秉承“开源赋能共发展”的理念，推出了三大产品线：SeetaFace人脸识别与感知计算解决方案、SeeTaaS自主可控人工智能生产平台以及中科视拓云智中心，致力于为政府、教育、制造、金融和零售等行业提供一站式人工智能基础设施服务。

图灵汇

责任编辑：： DoNews

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。