在6月13日,司南OpenCompass与魔搭ModelScope两大科技力量携手,推出了大语言模型竞技场Compass Arena,旨在为国内大语言模型领域引入新颖的竞争机制。Compass Arena提供了一个匿名、随机的评测环境,让互联网用户能够直观对比不同大语言模型的性能,基于个人对生成内容质量的主观感受进行评价。
Compass Arena汇聚了包括Qwen-Max、GLM-4、abab6.5与Llama 3系列在内的20多个主流大语言模型,通过创新的竞技模式,用户得以轻松体验和比较模型差异。首期榜单收集了近6000条用户的真实反馈,通过数据清洗与分析,利用Bradley-Terry模型估算出大语言模型的竞技场Elo等级分数及其置信区间,并据此进行排名。
在本次首期榜单中,智谱AI的GLM-4 w/search模型以其独特优势脱颖而出,位列国内大模型榜首。该模型在交互过程中引入了外部搜索引擎信息,显著提升了内容生成的准确性和完整性,仅次于GPT-4o,展现出强大的实力。
自发布以来,智谱AI的GLM-4系列模型已赢得业界及用户的广泛赞誉,并在多个权威评测中表现出色。根据清华大学的《SuperBench大模型综合能力评测报告》,GLM-4在语义理解等领域超越众多国际顶尖模型,特别是在代码与智能体方面,其表现在国内市场居于领先地位。在中文原生金融大模型测评基准SC-Fin中,GLM-4荣获A+与多项A级评价,荣登国内大模型榜首。
智谱AI于今年1月发布了新一代基座大模型GLM-4,并在6月初推出最新开源版本GLM-4-9B。这款模型具备更强的基础能力,支持更长的上下文处理(最高可达1M字),拥有更精准的函数调用与All Tools功能,同时首次实现了多模态能力。相较于ChatGLM3-6B,GLM-4-9B的整体性能提升40%,在中文学科能力上提升50%,支持高达1百万tokens的文本长度,兼容26种语言,并在函数调用能力上与GPT-4-Turbo相匹敌。
上述模型均已入驻智谱AI MaaS大模型开放平台,开发者可通过bigmodel.cn轻松获取GLM-4全系列模型的API接口,享受卓越的性能体验。