近期,昆仑万维与新加坡南洋理工大学合作,推出了一款名为Q的创新算法,旨在显著增强现有大型模型的推理能力。在GSM8K数据集的测试中,Q助力Llama-2-7b的准确率攀升至80.8%,超越了ChatGPT;在MATH数据集上,Q使DeepSeek-Math-7b的准确率提升至55.4%,超过了Gemini Ultra;而在MBPP数据集中,Q协助CodeQwen1.5-7b-Chat的准确率达到了77.0%,在编程能力上与GPT-4拉近了差距。
Q的显著特性在于它能促使小型模型达到参数量远超自身数十倍乃至上百倍的模型所具备的推理能力,这不仅极大地提高了小型模型的效能,同时也减少了对计算资源的需求,为人工智能的广泛应用开辟了新天地,开启了高效智能的新篇章。该项目的研究成果《Q: 提升多步骤推理能力的LLMs通过详尽规划》已在学术界公开发布。
昆仑万维在Q项目曝光后迅速响应,成立了专门的研究小组,着手开发自有版本的Q算法,旨在打破OpenAI的技术壁垒,优化现有的开源模型。经过几个月的努力,该团队提出了一套独特的Q*框架,并成功使得开源模型在GSM8K、MATH和MBPP数据集上超越了行业标杆,如ChatGPT和Gemini Ultra。
该框架的核心理念在于对复杂的推理任务进行全面规划。通过将大语言模型的推理路径分解为一系列状态,并综合考虑当前状态的历史收益与未来预期收益,Q利用A搜索算法实现最优解的选择,从而有效提升了模型在推理任务上的表现。
实验结果显示,采用昆仑万维开发的Q*框架,Llama-2-7b在GSM8K数据集上的准确率提升至80.8%,DeepSeek-Math-7b在MATH数据集上的准确率达到55.4%,而CodeQwen1.5-7b-Chat在MBPP数据集上的准确率攀升至77.0%,缩小了与GPT-4在编程领域的差距。
研究发现,Q能够使参数量仅为7b的模型达到远超自身数十倍乃至百倍参数量模型的推理能力,显著增强了模型性能,降低了计算资源消耗。目前,Q的研究仍处于初期阶段,仍有待进一步优化和完善。未来,昆仑万维将继续深耕这项技术,致力于提高国产开源模型的推理能力,挑战OpenAI的闭源限制,为人工智能前沿技术的发展注入新的活力。