在业界对于百川智能以平均28天发布一款大型模型的速度感到震惊之时,该公司并未止步于此。于9月6日举行的发布会上,百川智能宣布正式开源经过微调的Baichuan-2大模型,这标志着其继8月发布Baichuan-53B大型模型之后的又一重要里程碑。
本次开源涵盖了Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat及其4bit量化版本,所有模型均可免费商用。除了模型的全面公开外,百川智能还开源了模型训练的检查点,并发布了Baichuan 2技术报告,详尽阐述了新模型的训练细节。公司创始人兼CEO王小川强调,此举旨在促进大模型学术研究与社区技术进步,帮助研究机构、开发者和企业用户深入了解模型训练流程。
开源的模型相较于大型模型而言规模稍小,Baichuan2-7B-Base和Baichuan2-13B-Base基于2.6万亿高质量多语言数据训练而成。在保持上一代开源模型的生成与创作能力、流畅对话能力和低部署门槛等优势的同时,这两个模型在数学、代码、安全、逻辑推理、语义理解等方面取得了显著提升。
王小川指出,Baichuan7B 70亿参数模型在英文基准上与LLaMA2的130亿参数模型性能相当,实现了“小而强”的模型设计,即小型模型具有大型模型的功能,同时在相同规模的模型上性能显著优于LLaMA2。
Baichuan2-13B-Base相较于上一代13B模型,数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。这一系列改进使模型在多项关键任务上表现出色,特别是在MMLU、CMMLU、GSM8K等权威评估基准中,以明显优势超越LLaMA2,甚至在与LLaMA2同等参数量的模型比较中,Baichuan2系列模型的性能大幅领先。
除了模型发布,百川智能还提供了对学术领域的更多支持,包括开放Baichuan2大模型训练过程中的权重参数模型,这有助于研究人员理解和优化预训练过程,以及进行微调强化。这是国内首次有公司开放如此详细的训练过程。
百川智能自成立以来,始终致力于通过开源方式促进中国大模型生态的繁荣。短短四个月内,已发布两款开源的中文大模型(Baichuan-7B、Baichuan-13B)及一款搜索增强大模型(Baichuan-53B),这些模型在多个权威评测榜单上名列前茅,累计下载量超过500万次。
首批大模型公共服务的落地引起了科技领域的广泛关注,百川智能成为唯一一家通过《生成式人工智能服务管理暂行办法》备案,能够正式向公众提供服务的公司。其发布的两款Baichuan 2大模型受到了上下游企业的积极响应,腾讯云、阿里云、火山方舟、华为、联发科等多家知名企业均参与了本次发布会,并与百川智能达成了合作。据统计,百川智能的大模型在Hugging Face平台上的下载量在过去一个月内已达到337万次。
百川智能计划在年内发布千亿参数大模型,并预计在明年一季度推出“超级应用”,继续引领大模型领域的技术创新与应用发展。