大模型IMO25数学竞赛成绩公布了

发布时间：2025-07-19 20:46 浏览量：64

一场关于数学的挑战，结果出来了。

事情的组织者是MathArena。他们找来了五个大模型，分别是Gemini 2。5 Pro、o3、o4-mini、Grok4，还有一个叫DeepSeek-R1。测试的环境和提示词对所有模型都是一样的，确保公平。

Gemini的总成绩超过30%，是第一名。这个分数比第二名高了89%。这个领先的差距很大。

第二名和第三名是o3和o4-mini。Grok4的分数是11。9，但它的成本却比第一名的Gemini要高22%。

为了评分，MathArena找了四个懂IMO级别数学的人当评委。一道题满分是7分。每一份答案都去掉了名字，并且会有两个人独立打分，打分看到的界面也是一样的。

有一个现象，很多模型得分在3到4分。在真人比赛里，这种情况不多见。模型出错的地方，或者不会做的地方，对人来说反而简单。这说明人和模型的能力不一样。

每个模型要对着一个问题，先弄出32个回答。然后，模型自己从这32个里面，选出它觉得最好的四个。这四个答案的平均分，就是这个模型的最后分数。

这次测试，有一个模型表现和大家想的不一样，是Grok4。它大多数没被选中的答案，就只写了一个最终数字，没有解释过程。

模型在回答问题时，过去很喜欢在答案格式上下功夫，现在这种行为少了。这说明它们在处理数学推理这种开放任务上，有了一些进步。

也有些人在想，要是让之前拿过IMO银牌的AlphaProof来做，会是个什么结果。

有一道平面几何题。有两个圆，一个大一个小，相交于两点。题目给了一堆点和线的关系，最后要证明一条线和一个圆相切。为了方便理解，有示意图，但模型是看不到图的。

还有一道题是关于图形的组合数学。在一个2025×2025的格子里放长方形，要求每一行和每一列都正好有一个空格子。问题是，最少要放多少个长方形。

结果，上面说的这道组合数学题，所有模型都是零分。而那道平面几何题，也只有Grok4拿了4%的分数，换算成7分制就是0。28分。这两道题是所有模型表现最差的。

有个关于函数的题目，要求找一个最小的实数c。

第四题是数论。一个整数序列，后一个数是前一个数最大的三个真因子的和。问题是，这个序列的第一个数可能是多少。很多模型做这题的方法和人想的差不多，但逻辑上有错。

还有个博弈论的游戏题。Alice和Bazza两个人玩，要根据一个数λ来轮流选数字。模型能看出来正确的策略，但是没法证明为什么这个策略能赢。

Gemini之前在美国数学奥林匹克竞赛中编造了一些不存在的“定理”，这个问题在这次IMO挑战里改善了很多。

人类版的IMO结果会在这个星期六公布。MathArena觉得，就算是表现最好的Gemini，这次大概也拿不到奖牌。

标签：模型数学竞赛 imo25数学竞赛模型imo25 imo2