科大讯飞荣获OpenASR国际低资源多语种语音识别挑战赛冠军
作者头像
  • 龙清姣
  • 2021-11-24 14:46:44 2

中国发展网讯 11月10日,OpenASR国际低资源多语种语音识别挑战赛圆满结束。科大讯飞-中科大语音及语言信息处理国家工程实验室联合团队(USTC-NELSLIP)在此次比赛中表现优异,包揽了所有15个语种受限赛道和7个语种非受限赛道的第一名。

此次胜利不仅巩固了科大讯飞在多语言领域的领先地位,也为其在推动人机交互更加自然、实现无障碍沟通方面迈出了重要一步。这为中国的多语种语音语言技术追赶国际先进水平以及中国智能制造的全球化打下了坚实的基础。

从小语种到低资源多语种的发展

近年来,随着深度学习技术的进步,汉语、英语等大语种的语音识别技术已经相当成熟,广泛应用在各种场景中。然而,小语种的语音识别技术却面临更多挑战,如语音数据难以获取、标注困难、缺乏专业人员等问题,导致其实用化程度相对较低。

OpenASR挑战赛更加关注小语种技术,探索如何在数据有限的情况下,实现较好的识别效果。此次比赛吸引了多家国内外知名研究机构和企业的参与,共设有15个语种,分为受限赛道、受限附加赛道和非受限赛道。

科技创新助力语音识别

在此次比赛中,科大讯飞-中科大联合团队提出了基于语音和文本统一空间表达的半监督语音识别框架(USRS-ASR)。这一框架有效提升了低资源语音识别的效果,展示了其算法的良好推广性。

在受限赛道中,由于每个语种仅有10小时的语音数据,如何使用少量文本数据,利用无监督的方法增加训练数据的多样性成为关键。科大讯飞-中科大团队采用Flow-TTS语音合成进行数据扩增,并使用语音属性解耦技术保证合成语音的多样性,从而显著提升了识别效果。

在非受限赛道中,尽管参赛者可以使用公开的语音数据,但数据总量仍然有限。为了充分利用少量语音数据和大量文本数据,科大讯飞-中科大团队采用了USRS-ASR框架。这一框架通过创新设计的文本掩码语言模型任务和合成数据语音识别任务,实现了海量无监督文本的有效利用。

为全球提供多语种智能语音解决方案

最近,工信部正式批准成立了国家智能语音创新中心和国家高端智能化家用电器创新中心,科技创新正在不断引领产业升级。值得注意的是,科大讯飞在两家国家级创新中心的股东名单中占据一席之地。

科大讯飞致力于打造源头技术创新策源地,不断追求“顶天立地”的产业梦想。多语种语音语言技术是实现万物互联时代人机交互的关键技术,也是实现“一带一路”语言大互通的基础技术。

自2014年以来,科大讯飞一直在这个方向上持续投入,不断攻克技术难题。经过多年的积累,科大讯飞已经掌握了69种语言的语音识别能力,其中35种语言的准确率超过了90%,并在多个国家部署了海外站点,为当地开发者提供语音识别、语音合成、机器翻译、图文识别等服务。

多语种技术不仅推动了科大讯飞智能硬件产品的创新,还在翻译终端、会议同传、录音笔等方面取得了显著成果。例如,科大讯飞智能翻译硬件在2016年推出后,开创了AI翻译机的新品类。2019年发布的智能录音笔,也在2021年日本市场取得了单月销售破千台的好成绩。

除了自身产品外,科大讯飞还积极为“中国制造”出海产品提供自主可控的解决方案。在手机、家电方面,为国内手机厂商提供多语种语音识别、语音合成能力解决方案,并与海尔合作开发多语种识别系统,助力其开拓东南亚市场。在车载交互方面,科大讯飞与多家国内及海外汽车制造商合作,提供多语种项目合作,覆盖多种语言。

此外,科大讯飞的多语种技术还应用于北京2022年冬奥会官方APP(冬奥通),助力冬奥会信息沟通无障碍。

作为人工智能国家队,科大讯飞将继续坚持源头核心技术创新,联合国内研究机构和企业,构建多语言技术的系统性创新研发生态,共同推动我国多语言技术的进步与应用落地。

    本文来源:图灵汇
责任编辑: : 龙清姣
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
讯飞多语种挑战赛科大荣获语音识别冠军OpenASR国际
    下一篇