发布背景与参与团队
在1月4日的报道中,北京智源人工智能研究院在自然语言处理(NLP)重大研究方向的前沿技术开放日上,发布了针对大模型评测的创新方案——“智源指数”。这一方案旨在构建一个全面均衡的机器中文语言能力评测基准,涵盖多种关键能力、任务与数据集,以确保评测的全面性和公平性。
清华大学副教授刘知远作为智源指数建设的核心成员,介绍了CUGE(Chinese Language Enderstanding and Generation Evaluation)这一评测方案。CUGE是一个全面均衡的基准框架,它不仅考虑了机器语言能力的不同层面,还针对当前NLP研究现状,以“语言能力-任务-数据集”的分层结构组织数据集,涵盖7种重要语言能力、17个主流NLP任务和19个代表性数据集,确保评测的全面性和公平性。
穗志方教授在智源学者成果报告会上,指出了NLP评测中面临的问题与解决方案:
智源NLP研究方向的学者团队展示了10余项科研成果,包括预训练模型、知识计算、人机对话、文本生成等领域。具体成果包括:
智源研究院的“智源学者计划”汇聚了近百位顶尖人工智能学者,鼓励自由探索与目标导向相结合的研究。该计划已发表1470余篇顶会顶刊论文,申请82件中国专利,获得49件发明专利授权,登记24项软件著作权。
戴琼海院士指出,建立科学的评价标准对于中文NLP至关重要。随着智能语言处理技术的快速发展,尤其是超大规模预训练语言模型的突破,智源指数有望成为推动中文NLP技术进步的重要力量。未来,智源指数将在各位学者、师生和业界人士的共同努力下,不断完善评价体系,促进更多研究机构和组织的协作,共同推动中文NLP技术的创新与发展。