标题:AI 数学奥林匹克竞赛:国产模型DeepSeekMath引领风骚
近日,全球首场AI数学奥林匹克竞赛(AIMO)的获奖名单揭晓,引发广泛关注。本次竞赛共有五支团队脱颖而出,其中Numina团队荣获冠军,CMU_MATH紧随其后位居第二,after exams暂列第三。Codeinter和Conor #2分获第四、第五名。
竞赛中,各参赛队伍均选择了国产模型DeepSeekMath作为基础,表现出色。冠军Numina团队采用的是微调版的NuminaMath 7B TIR模型,此模型基于deepseek-math-7b-base进行优化,通过两阶段的监督微调,使其在处理数学问题时表现出色。
获得第二名的队伍则利用了两个DeepSeek-Math-7B-RL模型,一个负责生成解决方案,另一个作为奖励模型,用于评估加权多数投票的解决方案。第三名同样采用了DeepSeek-Math-7B-RL模型,未做任何调整,而是通过制定评分规则,采用多数投票策略来选择正确答案。排名第四的队伍使用了deepseek-math-7b-rl,参数设置温度为0.9、top_p为1.0、最大令牌数为2048,与代码工具配合,在MATH基准测试中达到58.8%的优秀成绩。
值得注意的是,所有前四名的队伍均选择了DeepSeekMath-7B作为基础模型,该模型在数学推理方面表现卓越,在MATH基准榜单上超越了众多30B~70B的开源模型。
冠军队伍的方案显示,NuminaMath是一系列经过训练的语言模型,能集成工具进行推理。NuminaMath 7B TIR是deepseek-math-7b-base的改进版,通过两个阶段的微调,提升了模型解决数学问题的能力。第一阶段在包含自然语言数学问题和解决方案的大型多样数据集上进行微调,确保模型能理解和生成正确的思维链。第二阶段在工具集成推理(TIR)合成数据集上进一步优化,将数学问题分解为基本原理、Python程序及其输出,通过GPT-4生成带有代码执行反馈的ToRA格式解决方案,提升了解题效率。
然而,尽管该模型在解决AMC 12级别的问题上表现出色,但在处理AIME和数学奥林匹克级别的复杂难题时,生成有效解决方案的能力受限。此外,模型在解决几何问题时也面临挑战,这可能是由于其容量限制以及缺乏视觉等其他模态导致的。
总之,DeepSeekMath系列模型在AI数学奥林匹克竞赛中展现出色性能,特别是Numina团队的夺冠方案,为未来AI在数学领域的发展提供了重要启示。