智源NLP重大研究方向发布“智源指数”,全面系统评测机器中文语言能力
作者头像
  • 马齐齐
  • 2022-01-04 00:00:00 3081

智源指数:全面评测机器中文语言能力的新方案

发布背景与参与团队

在1月4日的报道中,北京智源人工智能研究院在自然语言处理(NLP)重大研究方向的前沿技术开放日上,发布了针对大模型评测的创新方案——“智源指数”。这一方案旨在构建一个全面均衡的机器中文语言能力评测基准,涵盖多种关键能力、任务与数据集,以确保评测的全面性和公平性。

CUGE:面向大模型的多层次、多维度评测方案

清华大学副教授刘知远作为智源指数建设的核心成员,介绍了CUGE(Chinese Language Enderstanding and Generation Evaluation)这一评测方案。CUGE是一个全面均衡的基准框架,它不仅考虑了机器语言能力的不同层面,还针对当前NLP研究现状,以“语言能力-任务-数据集”的分层结构组织数据集,涵盖7种重要语言能力、17个主流NLP任务和19个代表性数据集,确保评测的全面性和公平性。

智源指数的特色与功能

  • 多层次、多维度评测:智源指数构建了一个多层次的评测方案,能更全面地展现模型在不同维度上的模型语言智能差异。
  • 用户友好型排名系统:提供模型性能排行榜,方便参与者筛选感兴趣的能力或角度进行评测。
  • 标签体系:支持用户通过标签筛选定制排行榜,同时官方提供推荐套餐,如精简榜,便于开展有针对性的能力评测。
  • 直观展示模型能力:基于7种语言能力的雷达图,直观反映不同模型在不同能力上的提升效果。
  • 单数据集排行榜与评测:支持单数据集排行榜和评测,有利于追踪特定数据集研究的进展。

存在问题与对策

穗志方教授在智源学者成果报告会上,指出了NLP评测中面临的问题与解决方案:

  • 评测缺乏规范性:建议制定统一的评测标准和流程,提高评测的公正性和可靠性。
  • 评测效率衰退:探索更加有效的评测方法和技术,以适应大型模型的发展趋势。
  • 评测生命周期短:开发持续更新的评测数据集,增强评测的持久性。

多项科研成果与落地应用

智源NLP研究方向的学者团队展示了10余项科研成果,包括预训练模型、知识计算、人机对话、文本生成等领域。具体成果包括:

  • 多模态北京旅游知识图谱:为游客提供旅游行程规划支持。
  • 基于多视角的机器阅读理解模型:显著提高长文本理解能力。
  • 文本复述生成:构建面向学术文献领域的文本复述数据集和多样化复述模型。
  • 高效计算框架与超大规模预训练语言模型CPM-2:降低预训练语言模型的计算成本,提高应用适配性。

智源学者计划与成就

智源研究院的“智源学者计划”汇聚了近百位顶尖人工智能学者,鼓励自由探索与目标导向相结合的研究。该计划已发表1470余篇顶会顶刊论文,申请82件中国专利,获得49件发明专利授权,登记24项软件著作权。

结语:中文NLP评测的未来展望

戴琼海院士指出,建立科学的评价标准对于中文NLP至关重要。随着智能语言处理技术的快速发展,尤其是超大规模预训练语言模型的突破,智源指数有望成为推动中文NLP技术进步的重要力量。未来,智源指数将在各位学者、师生和业界人士的共同努力下,不断完善评价体系,促进更多研究机构和组织的协作,共同推动中文NLP技术的创新与发展。

    本文来源:图灵汇
责任编辑: : 马齐齐
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
研究方向中文评测机器重大指数能力语言全面发布
    下一篇