摘要:Mistral AI 推出首个开源 MoE 大模型,引发 AI 开发者社区的热烈反响。此模型采用 MoE 架构,与传闻中的 GPT-4 方案相类似,且以宽松的 Apache-2.0 开源协议发布,允许免费商业使用。基于 Mistral-7B 微调的 Zephyr-7B-beta 在多项评测中表现出色,成为唯一在排行榜前列的 7B 模型。
详细报道:
随着 AI 技术的快速发展,Mistral AI 近日发布了首个开源 MoE(Mixture-of-Experts)大模型,这一举动迅速吸引了众多 AI 开发者的关注。该模型采用了 MoE 架构,与业界传言中的 GPT-4 使用的方案相似,被认为是开源大模型向 GPT-4 接近的一大步。MoE 架构通过将任务分配给多个“专家”模型,提高了模型的灵活性和效率。
Mistral AI 以一种相对低调的方式发布此模型,仅提供磁力链接供下载,却引发了巨大的反响。开发者们纷纷取消原定计划,投入到对该模型的探索和应用中。值得注意的是,Mistral-7B 原本就是开源基础模型中的佼佼者,常能在大型模型中取得不俗表现。
此外,Mistral AI 的开源 MoE 模型可能沿用 Apache-2.0 协议,这意味着开发者可自由使用、修改和分发此模型,且无需支付版税。这种开放性的策略为 AI 社区带来了新的活力,尤其是在最大深度学习会议 NeurIPS 开启之际,引发了更加激烈的讨论和创新。
基于 Mistral-7B 微调的 Zephyr-7B-beta 在多个评测中位列前茅,特别是在 LLMSYS Chatbot Arena 和 AlpacaEval 上分别排名第 12 和第 15,证明了其强大的性能和竞争力。
社区内普遍称呼此新 MoE 模型为 Mistral-7Bx8 MoE,预计其相对于单体 Mistral-7B 的性能提升将显著,类似于 GPT-4 对比 GPT-3.5 的提升。然而,有观察指出 MoE 架构在本地运行时内存占用较高,更适合部署于云端环境,利用跨设备的专家并行处理能力,为公司处理并发需求提供成本优势。
Mistral AI 成立于今年五月,已完成 4.87 亿美元的新融资,估值接近 20 亿美元,成功跻身独角兽行列。三位联合创始人包括 CEO Arthur Mensch,曾于 DeepMind 巴黎工作;CTO Timothée Lacroix 和首席科学家 Guillaume Lample,在 Meta 共同参与了 Llama 系列的研发。
Arthur Mensch 强调了构建更小模型的重要性,以支持 Agent 的发展,若能将计算成本降低百倍,将能够构建出更多有趣的应用。Mistral AI 在短短几个月内取得了显著进展,从种子轮的 1.13 亿美元融资到首次开源模型 Mistral-7B 的发布,再到 MoE 模型的推出,展示了其在 AI 技术领域的快速成长和创新动力。
总结:Mistral AI 的首个开源 MoE 大模型不仅引起了 AI 开发者社区的广泛关注,还体现了开源策略在推动技术创新和促进知识共享方面的重要作用。此模型的发布不仅展现了 Mistral AI 在 AI 技术研发方面的实力,也为行业提供了新的发展方向和灵感。