百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法
作者头像
  • 大话智能
  • 2024-06-25 00:00:00 2954

近期,昆仑万维与新加坡南洋理工大学合作,推出了一款名为Q的创新算法,旨在显著增强现有大型模型的推理效能。此算法在GSM8K数据集上,助力Llama-2-7b的准确率提升至80.8%,超越了ChatGPT;在MATH数据集上,Q使DeepSeek-Math-7b的准确率达到了55.4%,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat的准确率上升至77.0%,在编程能力上与GPT-4拉近了差距。

Q*的显著特性在于它能促使较小的模型达到性能接近甚至超过参数量数十倍乃至上百倍模型的推理水平,极大地提高了小型模型的效能,同时显著减少了计算资源的需求,为人工智能的广泛运用开辟了新途径,开启了高效智能的新时代。

研究论文《Q: 改进LLMs的多步推理能力》已公开发布,详细阐述了Q算法的原理与应用。

Q*项目的影响力引发了业界广泛讨论,被认为是OpenAI探索人工通用智能领域的重要尝试,有望在数学问题解决、自主学习及自我优化等方面对人工智能技术产生革新性影响。

尽管OpenAI暂未公布Q算法的详细信息,其效果如何仍待验证。昆仑万维自Q项目曝光以来,迅速组建研究团队,致力于自主研发Q*算法,以期打破OpenAI的垄断,提升现有开源模型的推理能力。

Q的核心理念在于全盘规划复杂推理任务,通过分解大语言模型的推理轨迹,采用集成g(s_t)和Q(st, at)函数的方法,综合考虑历史状态收益与未来预期收益,进而利用A*搜索算法实现最优路径选择,显著提升开源模型在推理任务的性能。

Q框架的实施策略包括定义Path Cost函数g(s_t),以及通过监督学习训练代理Q值模型Q̂来获取状态-动作对(s_t, a_t)的最优Q值。实验结果显示,Q能够显著提升LLM的推理能力,特别是在GSM8K数据集上,Llama-2-7b的准确率从原基础上提升了约17.8%;在MATH数据集上,DeepSeek-Math-7b的准确率提升约25.4%;在MBPP数据集中,CodeQwen1.5-7b-Chat的准确率提升了约3.4%,在编程能力上与GPT-4相比缩小了差距。

研究发现,Q不仅能够大幅度提升模型性能,而且降低了对计算资源的需求,显示出在人工智能领域的巨大潜力。目前,Q的研究仍处于初步阶段,仍有改进空间。昆仑万维将持续深入研究,不断提升国产开源模型的推理能力,挑战OpenAI的技术壁垒,推动人工智能前沿技术的发展。

    本文来源:图灵汇
责任编辑: : 大话智能
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
万维南洋昆仑新加坡百倍理工大学算法推理模型携手
    下一篇