Meta连夜加入AI大模型混战!用1/10参数量干过GPT-3,单个GPU就能跑
作者头像
  • 周芳
  • 2023-02-25 00:00:00 3026

Meta 携全新 AI 大型语言模型 LLaMA 加入 AI 混战

在生成式 AI 的前沿技术竞争日益激烈之际,Meta 近日公布了一款名为 LLaMA 的全新 AI 大型语言模型,旨在助力研究人员解决生成式 AI 工具可能引发的偏见、不当言论及误传信息等问题。这一成果标志着 Meta 对 AI 研究的又一重大贡献。

Meta CEO 扎克伯格在最新财报电话会议上提及“生成式 AI”的频率已超过“元宇宙”。LLaMA 的推出,无疑是 Meta 对 AI 研究领域的一次重要突破,为学术界带来了高效且易于操作的基础模型。以下是 LLaMA 的关键特性及成就:

  • 开源性质:Meta 宣布 LLaMA 基础大型语言模型开源,免费供研究者使用,不用于商业目的。目前,Meta 在 GitHub 平台上提供了简化版 LLaMA 模型。

  • 参数规模:Meta 目前提供了四种不同参数规模的 LLaMA 模型供研究者选择。

  • 性能超越:在某些基准测试中,130 亿参数的 LLaMA 模型性能超越了拥有 1750 亿参数的 GPT-3,而 650 亿参数的 LLaMA 模型甚至能与拥有 700 亿参数的 Chinchilla 和 5400 亿参数的 PaLM 模型竞争。

  • 数据集来源:LLaMA 使用的训练数据集来自多个开放资源,包括 Common Crawl、C4、GitHub、维基百科和 ArXiv,以确保模型的开源兼容性和可复现性。

  • 广泛适用性:作为基础模型,LLaMA 不专门针对特定任务,而是通过标记 Tokens 来进行训练,便于后续针对具体应用场景进行微调。

  • 性能评估:在多种基准测试中,LLaMA 展示了与 GPT-3、Gopher、Chinchilla 等模型相比的出色性能,尤其是在单个 GPU 上运行时,130 亿参数的 LLaMA 性能甚至超越了 1750 亿参数的 GPT-3。

Meta 的 LLaMA 成果不仅展示了 AI 研究的新方向,也为开发人员提供了一种利用更少资源进行测试的途径,有望在未来实现类 ChatGPT 功能的语言模型在个人电脑和手机上的运行。这一创新体现了 Meta 在 AI 领域的前瞻性和对研究贡献的重视,同时也为科技行业在 AI 模型的开发和应用上提供了新的思路和可能性。

    本文来源:图灵汇
责任编辑: : 周芳
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
混战连夜单个模型数量加入MetaGPUGPT10
    下一篇