大模型IMO25数学竞赛成绩公布了
发布时间:2025-07-19 20:46 浏览量:34
一场关于数学的挑战,结果出来了。
事情的组织者是MathArena。他们找来了五个大模型,分别是Gemini 2。5 Pro、o3、o4-mini、Grok4,还有一个叫DeepSeek-R1。测试的环境和提示词对所有模型都是一样的,确保公平。
Gemini的总成绩超过30%,是第一名。这个分数比第二名高了89%。这个领先的差距很大。
第二名和第三名是o3和o4-mini。Grok4的分数是11。9,但它的成本却比第一名的Gemini要高22%。
为了评分,MathArena找了四个懂IMO级别数学的人当评委。一道题满分是7分。每一份答案都去掉了名字,并且会有两个人独立打分,打分看到的界面也是一样的。
有一个现象,很多模型得分在3到4分。在真人比赛里,这种情况不多见。模型出错的地方,或者不会做的地方,对人来说反而简单。这说明人和模型的能力不一样。
每个模型要对着一个问题,先弄出32个回答。然后,模型自己从这32个里面,选出它觉得最好的四个。这四个答案的平均分,就是这个模型的最后分数。
这次测试,有一个模型表现和大家想的不一样,是Grok4。它大多数没被选中的答案,就只写了一个最终数字,没有解释过程。
模型在回答问题时,过去很喜欢在答案格式上下功夫,现在这种行为少了。这说明它们在处理数学推理这种开放任务上,有了一些进步。
也有些人在想,要是让之前拿过IMO银牌的AlphaProof来做,会是个什么结果。
有一道平面几何题。有两个圆,一个大一个小,相交于两点。题目给了一堆点和线的关系,最后要证明一条线和一个圆相切。为了方便理解,有示意图,但模型是看不到图的。
还有一道题是关于图形的组合数学。在一个2025×2025的格子里放长方形,要求每一行和每一列都正好有一个空格子。问题是,最少要放多少个长方形。
结果,上面说的这道组合数学题,所有模型都是零分。而那道平面几何题,也只有Grok4拿了4%的分数,换算成7分制就是0。28分。这两道题是所有模型表现最差的。
有个关于函数的题目,要求找一个最小的实数c。
第四题是数论。一个整数序列,后一个数是前一个数最大的三个真因子的和。问题是,这个序列的第一个数可能是多少。很多模型做这题的方法和人想的差不多,但逻辑上有错。
还有个博弈论的游戏题。Alice和Bazza两个人玩,要根据一个数λ来轮流选数字。模型能看出来正确的策略,但是没法证明为什么这个策略能赢。
Gemini之前在美国数学奥林匹克竞赛中编造了一些不存在的“定理”,这个问题在这次IMO挑战里改善了很多。
人类版的IMO结果会在这个星期六公布。MathArena觉得,就算是表现最好的Gemini,这次大概也拿不到奖牌。