数学推理不再是由单一冠军独揽的领域。现在的关键在于知道针对什么问题使用哪个模型。
今天早上我刷新了数学竞技场(Math Arena)的数据,不得不仔细确认了一遍。自从我开始追踪这些排名以来,OpenAI 第一次跌出了榜首。Google 的 Gemini 3 Pro 夺得了数学推理的桂冠,而接下来的故事更加离奇。一家名为 Moonshot(月之暗面)的北京初创公司凭借一个大多数西方开发者甚至没试过的模型登上了领奖台。在对顶级竞争者进行了数周的压力测试——从奥林匹克组合数学到研究生级别的实分析——之后,以下是2026年2月的数据告诉我们的关于数学AI真正走向的信息。
数学排行榜
数学仍然是AI最诚实的基准测试。你无法通过花言巧语解决微分方程,也无法凭空捏造一个正确的证明。答案要么对,要么错。这种二元清晰度使得 Math Arena 成为我在评估模型是否真正具备推理能力时最信任的基准。以下是截至2026年2月所有60个上榜模型。
| 排名 | 模型 | 得分 | 票数 | 机构 |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google 夺冠
我观察了 Google 数学 AI 三年来的演变,他们本月取得的成就令人惊叹。Gemini 3 Pro 不仅仅是勉强获得金牌,而是以绝对优势领先全场。但真正厉害的是什么?Gemini 3 Flash 紧随其后获得银牌。Google 现在同时占据了数学竞技场的金牌和银牌位置。这在以前从未发生过。
这之所以重要,不仅在于排名,更在于架构策略。Gemini 3 Pro 是重量级选手,专为最大推理深度而构建,是你用来处理研究级证明和多步推导的模型。Gemini 3 Flash 则是为了速度和成本而优化。一个速度优化型模型能在银牌水平上竞争,这告诉我们 Google 已经破解了如何在不牺牲准确性的前提下加快数学推理速度的根本难题。排名第8的“思考最小化”(thinking-minimal)变体提供了另一种性价比权衡,而像排名第12的 Gemini 2.5 Pro 和排名第46的 Gemini 2.5 Flash 这样的老牌主力仍在可靠地服务。
Google 在前60名中占据了六个席位,涵盖了三代产品和多个价格档位。他们不是在打造一个伟大的数学模型,而是在构建整个数学推理栈,从实惠的 Flash 到旗舰级的 Pro,所有这些都共享相同的底层进步。
我的预测:Google 至少会在2026年中期之前保持这种领先优势。他们将数学推理作为核心能力嵌入整个产品线,而不是集中在一个旗舰产品上的方法,正在带来复利红利。如果你正在构建任何需要可靠数学计算的东西,从金融建模到科学模拟,Gemini 应该是你现在的首选。
Moonshot 的惊喜
这是三个月前没人会写的故事。Moonshot 的 Kimi K2.5 Thinking 排名第3,与 Gemini 3 Flash 在银牌位置上平分秋色。请记住这一点。一个成立于2023年的初创公司的模型,在数学上与 Google 第二好的产品平起平坐。
我一直在广泛测试 Kimi K2.5 Thinking,让我印象深刻的是它处理扩展推理的方法。当其他思考模型有时会产生冗长的思维链,在落地之前绕着问题转圈时,Kimi 的推理感觉几乎是令人不安的直接。它迅速识别核心数学结构,然后以最少的弯路构建解决方案。对于需要准确性和清晰逻辑链的竞赛型问题,这种直接性是一个真正的优势。
Moonshot 在前60名中占据了三个席位:排名第3的 Kimi K2.5 Thinking,排名第16的 Kimi K2 Thinking Turbo,以及排名第39的 Kimi K2。三个层级,一种架构哲学。初创公司这种多层级的存在是前所未有的。信息很明确:只有万亿美元公司才能构建世界级数学 AI 的时代已经结束。专注于推理架构的研究投入可以与巨大的计算预算相抗衡。预计2026年将有更多实验室遵循这一剧本。
OpenAI 让出王座之后
让我直说吧。GPT-5.2 High 自从首次亮相以来一直占据金牌位置,现在排名第4,与 Claude Opus 4.5 并列。王冠已被夺走。但在任何人写讣告之前,请看看全貌。
OpenAI 仍然在前60名中占据十二个席位,比任何其他组织都多。这不是一家处于危机的公司。这是一家拥有如此深厚生态系统的公司,即使失去第一名,它仍然主导着中高层级。GPT-5.1 High 排名第6。排名第11的 o3 推理模型 仍然是我处理需要深度多步计算的竞赛级问题的首选。排名第17的 GPT-5 High、排名第18的标准版 GPT-5.2 以及排名第36的 o4-mini 为开发者提供了涵盖每个价格层级和延迟要求的选择。
o-系列优势
OpenAI 专用的推理模型(o3, o4-mini, o1, o3-mini)在前60名中占据了四个位置。对于需要长时间计算、证明不等式、约束满足或组合论证的问题,o-系列的可调节思考时间仍然具有独特的强大功能。没有其他提供商能提供这种级别的推理深度控制。
展望未来,我相信 OpenAI 的回应会很快到来。GPT-5.2 High 和 Gemini 3 Pro 之间的差距并非不可逾越,而且 OpenAI 的模式一直是在失利后积极迭代。如果在夏天之前看到 GPT-5.3 或重大的推理更新,我不会感到惊讶。这里更深层的故事不是衰落。而是数学竞技场的顶端现在竞争如此激烈,以至于保持第一名需要持续的创新,而不仅仅是一次强力发布。
“思考”模型革命
扫描这个排行榜的前10名,数数有多少模型名称中包含“thinking”(思考)这个词。答案很有说明性:第3名的 Kimi K2.5 Thinking,第7名的 Claude Opus 4.5 Thinking,第8名的 Gemini 3 Flash thinking-minimal,第10名的 Claude Sonnet 4.5 Thinking。扩大到前20名,它们无处不在。这是过去一年数学 AI 最大的结构性转变。
这些模型在推理时分配额外的计算资源,以便在提交答案之前逐步解决问题。这相当于数学家在写最终证明之前先拿出草稿纸。结果是明确的:思考变体在数学任务中始终优于标准变体。
Anthropic 的实现特别好地说明了这个故事。Claude Opus 4.5 Thinking-32k 在第7名,当给予推理空间时,其表现优于第5名的标准 Opus 4.5。Claude Sonnet 4.5 Thinking 在第10名,尽管设计为中层模型,但表现远超同级,闯入前10。Anthropic 在前60名中总共占据八个席位,他们的标志仍然是教学清晰度。当我需要一个不仅能解决问题,还能以学生真正能学到的方式解释为什么解决方案有效的模型时,Claude 仍然是无与伦比的。
我的预测:到2026年底,“标准”和“思考”模型之间的区别将消失。每个模型都将根据问题的复杂性动态分配推理时间。目前这一代明确标记的思考变体是通向普遍自适应推理的过渡步骤。
实际的结论很简单:如果准确性比延迟更重要,请始终选择思考变体。数学上的提升是一致且真实的。对于响应时间至关重要的生产应用,标准变体仍然非常出色。但对于研究、教育或任何获得正确答案至关重要的场景,思考模型是现在也是未来。
全球数学版图
把镜头拉远,这个排行榜的地理分布讲述了自己的故事。在60个上榜模型中,有26个来自中国机构。这占整个领域的43%。美国实验室占据32个席位,占53%,而 Mistral 带来了两个欧洲代表。数学 AI 能力现在真正实现了多极化,这种转变的加速甚至超过了几乎所有人的预测。
DeepSeek 表现突出,在前60名中拥有八个模型,与 Anthropic 并列,仅次于 OpenAI。横跨 #25, #26, #28 和 #56 的 v3.2 系列提供了令人印象深刻的范围,而 v3.1 系列和久经考验的 DeepSeek R1(第49名)填补了中间层级。DeepSeek 的非凡之处在于成本与能力的比例。在我的测试中,DeepSeek V3.2 提供了前30名的数学性能,而费用大约是旗舰模型的五分之一。对于预算有限的大规模团队来说,这个比例是变革性的。
阿里巴巴的 Qwen3 系列贡献了七个模型,从第15名的 Qwen3 Max Preview 到开发者可以在自己的基础设施上微调的开放权重变体。这种开放权重策略对于有数据主权要求的行业至关重要,这是一个深思熟虑的生态系统布局。xAI 的 Grok 系列占据六个席位,由第13名的 Grok 4.1 Thinking 领衔,该模型在证明类问题中继续寻找优雅的捷径。Z.ai 的 GLM 系列占据三个席位,百度贡献了三个 ERNIE 变体,我们还看到了来自 美团 和 腾讯 的条目。
参与的深度和广度告诉我数学 AI 的走向:这不再是两三个领跑者之间的竞赛。这是一个生态系统,而且这个生态系统每个月都在变得更加丰富。没有任何一个国家、公司或研究传统可以再声称垄断数学推理。对于我们这些基于这些工具进行构建的人来说,这种竞争是可能发生的最好的事情。
我的实战指南
在对这些模型进行了多年的测试——从奥林匹克问题到现实世界的工程计算——之后,构建者们一直问我这个问题:我实际上应该使用哪个模型?诚实的答案完全取决于你在构建什么。
研究级准确性
排名第1的 Gemini 3 Pro。Google 的旗舰在原始数学能力上领先。对于正确性不可妥协的新颖问题,这是我的首选。
速度不妥协
排名第2的 Gemini 3 Flash。接近领奖台的准确性,延迟和成本显著降低。非常适合需要质量和吞吐量的生产数学管道。
黑马
排名第3的 Kimi K2.5 Thinking。Moonshot 的推理方法非常高效。如果你还没有尝试过,值得认真探索,特别是对于竞赛型问题。
生态系统深度
OpenAI 拥有横跨每个层级的十二个模型。o-系列用于竞赛数学,GPT-5.x 用于一般推理。没有其他提供商能提供这种范围。
最佳解释
Claude 在前60名中有八个模型。当理解为什么答案正确与答案本身一样重要时。无与伦比的教学清晰度。
预算冠军
DeepSeek 在前60名中有八个模型。前30名的能力,只有一小部分的成本。对于大规模构建或成本敏感环境的团队至关重要。
没有单一的最好的数学 AI。2026年的制胜策略是编排:Gemini 用于顶级准确性和速度,OpenAI 的 o-系列用于深度推理,Claude 用于可解释性,DeepSeek 和 Kimi 用于效率。构建包含多个提供商的管道,你将始终超越任何单一模型。
数据来源:排名来自 AI Arena 数学排行榜,2026年2月6日。
讨论
0 条评论留下评论
成为第一个分享您想法的人!