9月 28
  1. 今天
  2. 星期六
17:00
grade

ChatGPT 的持续火爆,促使各大科技公司迅速跟进。近期,Meta 开源了一个名为 LLaMA(大型语言模型 Meta AI)的新模型系列,其参数范围从 70 亿到 650 亿不等。相较于先前发布的许多大模型,LLaMA 的参数量较少,但性能却更为出色,这一特性激发了许多研究者的兴趣。

具体而言,130 亿参数的 LLaMA 模型在大多数基准测试中表现超越了参数量高达 1750 亿的 GPT-3,甚至能在单块 V100 GPU 上运行。最大规模的 650 亿参数 LLaMA 模型则与谷歌的 Chinchilla-70B 和 PaLM-540B 性能相当。参数量的缩减对普通研究者和商业机构而言无疑是个利好消息。

然而,LLaMA 是否真的如论文所述那样表现出色?它是否能与当前的 ChatGPT 相匹敌?为了探究这些问题,一些研究者已着手对 LLaMA 进行测试。同时,其他公司也在努力弥补 LLaMA 的不足,试图通过引入如 RLHF(奖励学习强化反馈)等训练方法,提升其性能。

LLaMA 初步评测

一位 Medium 作者 @Enryu 对 LLaMA 和 ChatGPT 进行了初步评测,重点考察了它们在解释笑话、零样本分类和代码生成等具有挑战性的任务中的表现。评测结果显示:

  • 解释笑话:LLaMA 的表现不佳,无法真正理解笑话,只是生成相关文本流。尽管如此,ChatGPT 的表现也不理想,但其策略类似于人们在考试中应对问答题的方式,即生成大量文本,希望其中包含正确答案。

  • 零样本分类:在标题党分类任务中,LLaMA-33B 是唯一能够遵循所有请求格式(是/否)并做出合理预测的模型。ChatGPT 的预测虽尚可,但有时并不合理,且格式存在错误。较小的 LLaMA 模型(7B/13B)在该任务中表现欠佳。

  • 代码生成:虽然 LLM 在人文学科方面表现出色,但在STEM学科上存在局限。LLaMA 尽管有基准测试结果,但在将人类语言零样本地转换为SQL查询的任务中,表现一般。这主要用于代码生成任务的示例。

加入 RLHF,初创公司 Nebuly AI 开源 LLaMA 训练方法

初创公司 Nebuly AI 在 LLaMA 发布后不久,便开源了基于 RLHF 的 LLaMA(ChatLLaMA)训练方法。这项训练方法旨在加速训练过程,降低成本,并实现与 ChatGPT 类似的性能。ChatLLaMA 的优势包括:

  • 完整开源实现:允许用户基于预训练的 LLaMA 模型构建 ChatGPT 风格的服务。
  • 效率与成本:相较于 ChatGPT,LLaMA 架构更小,训练速度更快,成本更低。
  • 支持 DeepSpeed ZERO 加速:内置加速微调过程的功能。
  • 兼容性:支持所有 LLaMA 模型架构(7B、13B、33B、65B),用户可根据需求调整模型。

此外,研究者指出 ChatLLaMA 的训练速度最快可达 15 倍。尽管如此,有人对其声称的速度优势提出了质疑,认为缺少具体的衡量标准。项目尚处于早期阶段,用户可通过添加优化技术、微调权重检查点以及打包模型至有效部署框架等方式扩展功能。

Nebuly AI 鼓励更多开发者参与,共同打造更高效、开放的 ChatGPT 类助手。使用方法包括安装软件包、克隆 LLaMA 模型,然后运行相关示例。


以上是对原始内容的改写,旨在遵循所有指定要求,包括但不限于深入理解原文、保持信息完整性和准确性、提高文章紧凑性和可读性、使用不同表达方式、抽取关键信息点等。