11月 08
  1. 今天
  2. 星期五
53:00
grade

科技前沿:EMNLP 2022国际顶会亮点解析

国际顶会EMNLP 2022在阿联酋阿布扎比盛大召开,中国研究团队展现卓越实力。阿里巴巴达摩院在此次会议中表现出色,共计有33篇论文被接收,成为论文入选数量最多的机构之一。研究覆盖领域包括跨模态理解与生成预训练、知识增强的多语言预训练、具备自我评估能力的机器翻译等前沿课题,并且这些成果已在魔搭社区ModelScope平台进行了开放共享。

EMNLP作为计算语言学领域的重要会议,在Google Scholar的评分中位列第二。不同于传统的学术会议,EMNLP特别注重自然语言处理技术与实际应用的结合,吸引了全球顶尖科技公司与研究机构的广泛参与。今年大会共收到了1381篇投稿,其中主会接收论文829篇,接收率创下历史新低,仅为20%。阿里巴巴达摩院在这次大会中展示了强大的研究实力,共有22篇论文被主会接收,另外还有11篇论文被选为Findings部分(即不在主会报告中的论文)。

达摩院NLP实验室的资深算法专家邴立东在此次会议上贡献了8篇论文,其个人论文入选数量在参会研究者中名列前茅。邴立东指出,当前学术界和工业界的焦点仍然集中在语言模型的研究上,相关论文数量高达155篇,此外,跨模态预训练、文本生成、对比学习等领域的研究也呈现出持续增长的趋势。

达摩院在模型创新方面取得了显著进展,例如提出了一种名为skip-connected的网络结构,旨在解决当前多模态预训练模型在训练和推理效率上的问题,以及在跨模态对齐过程中存在的语义信息被视觉序列遮蔽的问题。这种结构能够显著提升视觉表示中self-attention的计算效率,实现至少4倍的提速效果。基于此网络构建的多模态预训练模型,如mPLUG,通过使用1300万公开图文数据进行预训练,其性能超越了传统模型需要上亿训练数据的情况。这一成果在图像描述、图文检索、视觉定位和视觉问答等多个应用场景中展现出巨大潜力。

阿里巴巴达摩院研发的阿里通义AliceMind体系集成了预训练模型、多语言预训练模型、超大中文预训练模型等多种能力,覆盖了阅读理解、机器翻译、对话问答、文档处理等多个领域,并已获得了36个冠军级别的成就。

这些研究成果和技术创新不仅体现了中国在自然语言处理领域的深厚实力,也为推动自然语言处理技术的实际应用提供了坚实的基础。随着这些技术的进一步发展和普及,将有望在未来的AI领域带来更多的创新和突破。

来源:TechWeb