近期,上海人工智能实验室发布了“司南2.0”,一个面向大模型的开源开放评测体系。该体系旨在全面评估大模型在知识、语言、理解与推理等五大关键能力上的表现,为推动技术创新提供科学依据。
亮点解析
在“司南2.0”的评估结果中,GPT-4 Turbo以其卓越表现拔得头筹,显示了其在多项测试中的领先优势。紧随其后的GLM-4,由智谱AI最新研发,位列第二。这彰显了中国模型在中文应用场景中的竞争力,其性能与国际顶级水平相近。
全面评估
“司南2.0”不仅聚焦于大语言模型,还涵盖了多模态大模型,全面评估了超过150个模型,覆盖了国内外知名企业和科研机构,如Meta、阿里巴巴、腾讯、百度等。这凸显了“司南2.0”的广泛影响力和权威性。
智谱AI的突破
智谱AI发布的GLM-4,在整体性能上取得了巨大飞跃,逼近GPT-4的水平。这款模型具备更长的上下文支持、更强的多模态能力与更快的推理速度,显著降低了推理成本。其智能体能力增强,能根据用户意图规划和执行复杂指令,甚至调用多种工具完成任务。
开放API与社区参与
GLM-4的开放API已于1月30日上线,为开发者提供了高效体验模型能力的渠道。智谱AICEO张鹏表示,面对全球科技竞争,自主可控的人工智能基础模型的研发至关重要。
智谱AI的进展与目标
智谱AI自2020年底启动GLM预训练架构研发,已推出一系列大模型,包括GLM-10B、万亿级稀疏模型及中英双语千亿级超大规模预训练模型GLM-130B。2023年,智谱AI推出了对话模型ChatGLM,并开源了ChatGLM-6B,为研究者和开发者提供了更多可能。
展望未来,智谱AI致力于构建新一代认知智能大模型,通过建立完整模型生态与提供全流程技术支持,为各行业注入创新动力,共同加速向通用人工智能时代的前进。