11月 08
  1. 今天
  2. 星期五
32:00
grade

阿里云发布通义千问 2.0:综合性能超GPT-3.5,加速逼近GPT-4

技术创新与性能飞跃

阿里云于10月31日正式推出了通义千问 2.0,这款千亿级参数大模型在综合性能上实现了重大突破,其能力在多项权威测评中超越了GPT-3.5,并正快速向GPT-4靠拢。通义千问 2.0在过去6个月的迭代中,在复杂指令理解、文学创作、通用数学、知识记忆及幻觉抵御等方面取得了显著进步。

跨语言能力与数学逻辑

在英语和中文任务的测评中,通义千问 2.0表现出色。在MMLU基准测试中,其得分紧随GPT-4之后,通过增加参数量,模型展现了对复杂语言结构和概念的理解力。在中文任务上,它以压倒性优势在C-Eval基准测试中取得最高分,这得益于模型在训练过程中对大量中文资料的学习,增强了其在中文理解与表达上的能力。

数学推理与代码理解

在数学推理领域,通义千问 2.0表现出强大的计算与逻辑推理能力,在GSM8K基准测试中位居第二。在HumanEval测试中,其表现与GPT-4和GPT-3.5接近,该测试重点评估模型理解和执行代码片段的能力,这是其在编程辅助、自动代码修复等应用场景中发挥关键作用的基础。

行业模型全面升级

为了适应多样化需求,阿里云在通义大模型的基础上,推出了8款针对特定行业的专业模型,包括智能编码助手、AI阅读助手、工作学习AI助手、个性化角色创作平台、智能投研助手、智能客服、个人专属健康助手和AI法律顾问。这些模型均采用行业特定数据进行训练,旨在为用户在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域提供专业支持。

广泛合作与开源策略

截至10月,阿里云已与超过60家行业领导者展开深度合作,共同推动通义千问在各类场景下的应用落地。阿里云还计划近期开源通义千问 72B版本,此举将推动模型和应用创新,支持千行百业的开发者进行模型与应用的二次开发。


此段文字旨在传达通义千问 2.0在性能提升、跨语言处理、数学逻辑、代码理解以及行业应用等方面的最新进展,同时展示了阿里云的开源策略与广泛合作网络。通过调整表述和结构,我们力求保持信息的准确性和完整性,同时确保与原文在风格和语言上有所区别。