智源NLP重大研究方向发布“智源指数”，全面系统评测机器中文语言能力

马齐齐
2022-01-04 00:00:00 3081

智源指数：全面评测机器中文语言能力的新方案

发布背景与参与团队

在1月4日的报道中，北京智源人工智能研究院在自然语言处理（NLP）重大研究方向的前沿技术开放日上，发布了针对大模型评测的创新方案——“智源指数”。这一方案旨在构建一个全面均衡的机器中文语言能力评测基准，涵盖多种关键能力、任务与数据集，以确保评测的全面性和公平性。

CUGE：面向大模型的多层次、多维度评测方案

清华大学副教授刘知远作为智源指数建设的核心成员，介绍了CUGE（Chinese Language Enderstanding and Generation Evaluation）这一评测方案。CUGE是一个全面均衡的基准框架，它不仅考虑了机器语言能力的不同层面，还针对当前NLP研究现状，以“语言能力-任务-数据集”的分层结构组织数据集，涵盖7种重要语言能力、17个主流NLP任务和19个代表性数据集，确保评测的全面性和公平性。

智源指数的特色与功能

多层次、多维度评测：智源指数构建了一个多层次的评测方案，能更全面地展现模型在不同维度上的模型语言智能差异。
用户友好型排名系统：提供模型性能排行榜，方便参与者筛选感兴趣的能力或角度进行评测。
标签体系：支持用户通过标签筛选定制排行榜，同时官方提供推荐套餐，如精简榜，便于开展有针对性的能力评测。
直观展示模型能力：基于7种语言能力的雷达图，直观反映不同模型在不同能力上的提升效果。
单数据集排行榜与评测：支持单数据集排行榜和评测，有利于追踪特定数据集研究的进展。

存在问题与对策

穗志方教授在智源学者成果报告会上，指出了NLP评测中面临的问题与解决方案：

评测缺乏规范性：建议制定统一的评测标准和流程，提高评测的公正性和可靠性。
评测效率衰退：探索更加有效的评测方法和技术，以适应大型模型的发展趋势。
评测生命周期短：开发持续更新的评测数据集，增强评测的持久性。

多项科研成果与落地应用

智源NLP研究方向的学者团队展示了10余项科研成果，包括预训练模型、知识计算、人机对话、文本生成等领域。具体成果包括：

多模态北京旅游知识图谱：为游客提供旅游行程规划支持。
基于多视角的机器阅读理解模型：显著提高长文本理解能力。
文本复述生成：构建面向学术文献领域的文本复述数据集和多样化复述模型。
高效计算框架与超大规模预训练语言模型CPM-2：降低预训练语言模型的计算成本，提高应用适配性。

智源学者计划与成就

智源研究院的“智源学者计划”汇聚了近百位顶尖人工智能学者，鼓励自由探索与目标导向相结合的研究。该计划已发表1470余篇顶会顶刊论文，申请82件中国专利，获得49件发明专利授权，登记24项软件著作权。

结语：中文NLP评测的未来展望

戴琼海院士指出，建立科学的评价标准对于中文NLP至关重要。随着智能语言处理技术的快速发展，尤其是超大规模预训练语言模型的突破，智源指数有望成为推动中文NLP技术进步的重要力量。未来，智源指数将在各位学者、师生和业界人士的共同努力下，不断完善评价体系，促进更多研究机构和组织的协作，共同推动中文NLP技术的创新与发展。

图灵汇

责任编辑：：马齐齐

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。