击败整个羊驼家族,Meta AI自对齐新方法只需极少人工标注数据
作者头像
  • 无人机科技
  • 2023-08-20 13:57:31 3109

标题:Meta新方法:以少量数据构建高效指令遵循模型

Meta公司近期发布了一项创新技术,仅需少量人工标注数据,就能构建出高质量的指令遵循(instruction following)语言模型。这项名为“指令回译”(Instruction Translation)的技术,显著降低了构建这类模型所需的标注数据量,实现了从网络语料库中自动推理指令,进而通过自动生成的指令数据进行训练。

传统的大语言模型通常需要大量的人工标注指令数据进行微调,而Meta的新方法则颠覆了这一常规。通过构建一个简单的“反向模型”,任何文本都可以轻松转化为指令数据集,极大简化了数据准备过程。这种方法不仅减少了对人工标注数据的依赖,还使模型能够自动从网络文本中学习指令规则,实现高效训练。

该技术在Alpaca基准测试中表现出色,不仅超越了开源模型羊驼及其一系列衍生版本,还得到了知名人工智能专家Yann LeCun的高度评价,认为其在模型自对齐方面具有革命性意义。LeCun指出,该研究开辟了一条可能通往超级智能的道路,即通过自我改进和迭代,模型能够不断进化,无需额外的高质量外部数据支持。

网友们对此也反响热烈,有人提出疑问:“这是否预示着我们正迈向自我改进的封闭智能系统?”讨论中不乏对这一路径的深思。羊驼模型似乎正在通过自我训练,展现出前所未有的能力。

Meta公司采用的模型名为Humpback(座头鲸),这一名称灵感来源于其与骆驼的关系,以及鲸鱼的庞大体型,象征着模型规模的扩大。Humpback的训练流程包括:

  1. 基础模型:从LLaMa模型出发。
  2. 种子数据:选取Open Assistant数据集中3200个示例,每个包含指令和输出,作为初始训练素材。
  3. 未标注文本:从ClueWeb语料中提取502,000段去重、过滤、剔除潜在低质量段落的文本,作为训练素材的基础。
  4. 自增强:利用种子数据微调基础模型,生成指令预测模型,以此为未标注文本推理出指令,形成候选训练数据。通过模型评估数据质量,选择优质样本进行下一轮训练,循环迭代以优化模型性能。

实验结果显示,Humpback模型在Alpaca排行榜上的表现优于其他方法,特别是在不依赖外部模型蒸馏数据的情况下,与专有模型之间的差距显著缩小。此外,Humpback模型在与开源模型LIMA 65B、Guanaco 65B、Falcon-Instruct 40B,以及专有模型davinci-003、Claude的比较中,均显示出更好的人类偏好一致性。

然而,研究者也指出该方法的局限性在于,由于依赖网络语料库训练,模型可能放大现有数据的偏差。尽管微调后的模型在检测偏差方面有所提高,但完全解决这一问题仍存在挑战。

综上所述,Meta公司的这一创新技术展示了在构建高效指令遵循模型方面的潜力,同时也引发了对模型自适应性和数据偏差控制的深入思考。随着技术的持续发展,我们或许能见证更多突破性的进展,推动人工智能领域向着更加智能、自主的方向迈进。

    本文来源:图灵汇
责任编辑: : 无人机科技
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
对齐极少标注击败人工只需整个家族方法数据
    下一篇