Compass Arena大模型竞技场首期对战榜单公布，智谱AI持续领跑国内大模型

张倩
2024-06-14 00:00:00 3023

大语言模型竞技场Compass Arena：GLM-4 w/search登顶首期榜单

在6月13日，司南OpenCompass与魔搭ModelScope两大科技力量携手，推出了大语言模型竞技场Compass Arena，旨在为国内大语言模型领域引入新颖的竞争机制。Compass Arena提供了一个匿名、随机的评测环境，让互联网用户能够直观对比不同大语言模型的性能，基于个人对生成内容质量的主观感受进行评价。

Compass Arena汇聚了包括Qwen-Max、GLM-4、abab6.5与Llama 3系列在内的20多个主流大语言模型，通过创新的竞技模式，用户得以轻松体验和比较模型差异。首期榜单收集了近6000条用户的真实反馈，通过数据清洗与分析，利用Bradley-Terry模型估算出大语言模型的竞技场Elo等级分数及其置信区间，并据此进行排名。

在本次首期榜单中，智谱AI的GLM-4 w/search模型以其独特优势脱颖而出，位列国内大模型榜首。该模型在交互过程中引入了外部搜索引擎信息，显著提升了内容生成的准确性和完整性，仅次于GPT-4o，展现出强大的实力。

GLM-4 w/search：业内认可与权威评测

自发布以来，智谱AI的GLM-4系列模型已赢得业界及用户的广泛赞誉，并在多个权威评测中表现出色。根据清华大学的《SuperBench大模型综合能力评测报告》，GLM-4在语义理解等领域超越众多国际顶尖模型，特别是在代码与智能体方面，其表现在国内市场居于领先地位。在中文原生金融大模型测评基准SC-Fin中，GLM-4荣获A+与多项A级评价，荣登国内大模型榜首。

GLM-4-9B：新一代大模型的崛起

智谱AI于今年1月发布了新一代基座大模型GLM-4，并在6月初推出最新开源版本GLM-4-9B。这款模型具备更强的基础能力，支持更长的上下文处理（最高可达1M字），拥有更精准的函数调用与All Tools功能，同时首次实现了多模态能力。相较于ChatGLM3-6B，GLM-4-9B的整体性能提升40%，在中文学科能力上提升50%，支持高达1百万tokens的文本长度，兼容26种语言，并在函数调用能力上与GPT-4-Turbo相匹敌。