9月 28
  1. 今天
  2. 星期六
35:00
grade

开源语言模型界的新星:LLaMA与Falcon的对决

在人工智能领域,开源模型的探索持续引发关注。近期,Meta开源的大型语言模型LLaMA引起了广泛讨论,这款模型提供了7B、13B、33B、65B四种版本,尤其在LLaMA-13B与LLaMA-65B上表现亮眼,它们在多数数据集上的性能超越了GPT-3(175B)和与Chinchilla-70B、PaLM-540B相匹敌。

自二月份发布以来,LLaMA成为了开源社区的热门话题,激发了多款“羊驼”大模型的创作,如Alpaca和Vicuna,甚至一度让生物学中关于羊驼属的英文词汇资源面临枯竭的假象。

然而,挑战者也随之涌现。阿联酋阿布扎比的技术创新研究所(TII)开源了一个名为Falcon-40B的模型,参数规模达到400亿。该模型在RefinedWeb的1万亿token上进行训练,并结合精选数据集进行增强,发布之初便在Huggingface的OpenLLM排行榜上崭露头角,不仅击败了参数规模为其1.5倍的LLaMA-65B,还优于MPT、RedPajama和StableLM等开源大模型。

Falcon-40B的Instruct版本更是占据排行榜首位,而LLaMA-65B则降至第六名。然而,数据对比中出现了一丝疑问——在HuggingFace的Open LLM排行榜上,LLaMA-65B的MMLU(Massive Multitask Language Understanding)分数仅为48.8,显著低于官方数据63.4,引发了社区内的质疑。

为了探究真相,一些研究者选择亲自验证。爱丁堡大学博士生符尧等人利用Chain-of-thought Hub重新编写了开源的LLaMA评估代码,采用官方提示、fp16和HF默认代码进行公平对比,Falcon和LLaMA在MMLU上的表现进行比较。

结果揭示了令人惊讶的反转:在初始测评中,经过修复一个因长提示引起的bug后,LLaMA-65B的最终得分为63.64,与论文报告的数据基本一致,而Falcon-40B的得分则为49.08,低于排行榜分数,显示了LLaMA在某些方面的强大实力。

此次事件突显了模型性能评估的复杂性以及社区内自我验证的重要性。符尧团队的行动不仅澄清了部分疑虑,也为后续的研究提供了可靠的数据和代码资源,促进了模型评估方法的进一步完善和公开透明。

结论

在开源模型的竞争中,LLaMA和Falcon-40B展示了各自的优势和局限性。LLaMA凭借其强大的性能和广泛的社区支持,继续在多个领域展现出色的表现;而Falcon-40B以其参数规模和特定场景下的出色性能,为开源模型领域注入了新的活力。两者的合作与竞争,共同推动了人工智能技术的发展,为未来模型的优化和创新提供了宝贵的参考。