2024年下半年将是大模型技术从理论走向实际应用的关键阶段。随着大模型在推动实体经济发展中的作用愈发重要,对算力的需求也急剧增加。中国科学院院士陈润生在2024年中国算力专家研讨会上指出:“大模型是新型生产力的象征,其与超级计算的结合至关重要。”近期,国产大模型正在努力成为全球“第二个选择”。
10月24日,在2024年科大讯飞全球1024开发者节开幕式上,科大讯飞、华为以及合肥市大数据资产运营有限公司联手打造的国产超大规模智算平台“飞星二号”正式启动,标志着国产大模型智算集群的又一次升级。这一平台不仅支持大规模训练和推理,还加快了讯飞星火大模型的迭代进程。
去年10月24日,首个国产万卡算力集群“飞星一号”上线,星火大模型在国产算力平台发展中一直占据领先地位。科大讯飞董事长刘庆峰表示,过去一年里,公司攻克了许多大模型集群训练中的难题,解决了500多次软硬件问题。模型训练适配优化平台的时间从90天缩短至15天,新增了30多项框架和平台特性,并优化了150多个基础、通信和融合算子。
“飞星二号”的推出将进一步提升新模型和新算法的适配性,并推动智算集群规模的进一步扩大。这将助力国产大模型的发展,为全球提供另一种选择。正如刘庆峰所说:“只有在完全自主可控的平台上,中国的人工智能才能拥有光明的未来。”
讯飞星火在国产算力平台上持续引领着国产大模型的迭代。在10月24日的科大讯飞全球开发者节上,讯飞星火4.0 Turbo正式发布,七大核心能力全面超越GPT-4 Turbo,尤其在数学和代码能力方面表现尤为突出。这些结论都是基于真实数据的严格测试得出的。
目前,在大模型领域,艾伦人工智能研究所、OpenAI等权威机构发布的涵盖理解推理、综合考试、数学和科学、代码等多种任务类型的14项主流测试集,是评估大模型能力的重要工具。讯飞星火4.0 Turbo在14项测试中的9项中实现了对美国三大主流模型(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5pro)的超越,效率提高了50%。
特别是在数学和代码能力方面,根据实用数学任务构建的测试集CAppliedMath-1.0显示,讯飞星火4.0 Turbo在计算、财务、金融、度量等多个维度上的表现均优于GPT-4o。它已经完成了超长思维链、树搜索和自我反思评价等算法验证,预计今年年底将显著提升高难度数学能力,达到接近OpenAI的水平。在代码生成方面,根据HumanEval测试集的结果,讯飞星火4.0 Turbo在Python、Java、JavaScript等任务上的表现与GPT-4o相差无几,而在C++能力上则超越了GPT-4o。在真实应用场景中,基于认知智能全国重点实验室构建的iFLYCode-Eval-2.0代码实用场景测试集显示,讯飞星火4.0 Turbo在代码生成、代码检错、单元测试等任务上的表现均优于GPT-4o。
此次讯飞星火4.0 Turbo的发布,不仅巩固了其在七大核心能力上的优势,还在决定大模型“聪明程度”的数学和代码能力上取得了显著进展,使其更具可用性和行业适用性。
人工智能的应用正逐渐进入更加复杂和具体的应用场景。面向未来,科大讯飞董事长刘庆峰提出了人工智能产业发展的重要关键词:顶天立地、自主可控、通专结合、端云联动、软硬一体。基于国产算力的大模型自主创新,以“飞星二号”启动为标志,科大讯飞将继续探索前沿领域,不仅为全球提供另一种选择,还将推动技术飞跃和算力升级,惠及各行各业,共同建设一个自主可控、共享共建的繁荣AI生态系统。