百川智能发布Baichuan2大模型：全面领先Llama2，训练切片也开源了

20:00

百川智能持续创新，全面开源大模型与技术报告

在业界对于百川智能以平均28天发布一款大型模型的速度感到震惊之时，该公司并未止步于此。于9月6日举行的发布会上，百川智能宣布正式开源经过微调的Baichuan-2大模型，这标志着其继8月发布Baichuan-53B大型模型之后的又一重要里程碑。

本次开源涵盖了Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat及其4bit量化版本，所有模型均可免费商用。除了模型的全面公开外，百川智能还开源了模型训练的检查点，并发布了Baichuan 2技术报告，详尽阐述了新模型的训练细节。公司创始人兼CEO王小川强调，此举旨在促进大模型学术研究与社区技术进步，帮助研究机构、开发者和企业用户深入了解模型训练流程。

Baichuan 2大模型开源链接：GitHub，技术报告：PDF

开源的模型相较于大型模型而言规模稍小，Baichuan2-7B-Base和Baichuan2-13B-Base基于2.6万亿高质量多语言数据训练而成。在保持上一代开源模型的生成与创作能力、流畅对话能力和低部署门槛等优势的同时，这两个模型在数学、代码、安全、逻辑推理、语义理解等方面取得了显著提升。

王小川指出，Baichuan7B 70亿参数模型在英文基准上与LLaMA2的130亿参数模型性能相当，实现了“小而强”的模型设计，即小型模型具有大型模型的功能，同时在相同规模的模型上性能显著优于LLaMA2。

性能对比与技术创新

Baichuan2-13B-Base相较于上一代13B模型，数学能力提升49%，代码能力提升46%，安全能力提升37%，逻辑推理能力提升25%，语义理解能力提升15%。这一系列改进使模型在多项关键任务上表现出色，特别是在MMLU、CMMLU、GSM8K等权威评估基准中，以明显优势超越LLaMA2，甚至在与LLaMA2同等参数量的模型比较中，Baichuan2系列模型的性能大幅领先。

开源与支持

除了模型发布，百川智能还提供了对学术领域的更多支持，包括开放Baichuan2大模型训练过程中的权重参数模型，这有助于研究人员理解和优化预训练过程，以及进行微调强化。这是国内首次有公司开放如此详细的训练过程。

推动中国大模型生态繁荣

百川智能自成立以来，始终致力于通过开源方式促进中国大模型生态的繁荣。短短四个月内，已发布两款开源的中文大模型（Baichuan-7B、Baichuan-13B）及一款搜索增强大模型（Baichuan-53B），这些模型在多个权威评测榜单上名列前茅，累计下载量超过500万次。

合作与市场反响

首批大模型公共服务的落地引起了科技领域的广泛关注，百川智能成为唯一一家通过《生成式人工智能服务管理暂行办法》备案，能够正式向公众提供服务的公司。其发布的两款Baichuan 2大模型受到了上下游企业的积极响应，腾讯云、阿里云、火山方舟、华为、联发科等多家知名企业均参与了本次发布会，并与百川智能达成了合作。据统计，百川智能的大模型在Hugging Face平台上的下载量在过去一个月内已达到337万次。

未来规划与展望

百川智能计划在年内发布千亿参数大模型，并预计在明年一季度推出“超级应用”，继续引领大模型领域的技术创新与应用发展。

利空

利好

首页 - 快讯 - 快讯详情