數學推理不再是由單一冠軍獨攬的領域。現在的關鍵在於知道針對什麼問題使用哪個模型。
今天早上我刷新了數學競技場(Math Arena)的數據,不得不仔細確認了一遍。自從我開始追蹤這些排名以來,OpenAI 第一次跌出了榜首。Google 的 Gemini 3 Pro 奪得了數學推理的桂冠,而接下來的故事更加離奇。一家名為 Moonshot(月之暗面)的北京初創公司憑藉一個大多數西方開發者甚至沒試過的模型登上了領獎台。在對頂級競爭者進行了數週的壓力測試——從奧林匹克組合數學到研究生級別的實分析——之後,以下是2026年2月的數據告訴我們的關於數學AI真正走向的資訊。
數學排行榜
數學仍然是AI最誠實的基準測試。你無法通過花言巧語解決微分方程,也無法憑空捏造一個正確的證明。答案要么對,要么錯。這種二元清晰度使得 Math Arena 成為我在評估模型是否真正具備推理能力時最信任的基準。以下是截至2026年2月所有60個上榜模型。
| 排名 | 模型 | 得分 | 票數 | 機構 |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google 奪冠
我觀察了 Google 數學 AI 三年來的演變,他們本月取得的成就令人驚嘆。Gemini 3 Pro 不僅僅是勉強獲得金牌,而是以絕對優勢領先全場。但真正厲害的是什麼?Gemini 3 Flash 緊隨其後獲得銀牌。Google 現在同時佔據了數學競技場的金牌和銀牌位置。這在以前從未發生過。
這之所以重要,不僅在於排名,更在於架構策略。Gemini 3 Pro 是重量級選手,專為最大推理深度而構建,是你用來處理研究級證明和多步推導的模型。Gemini 3 Flash 則是為了速度和成本而最佳化。一個速度最佳化型模型能在銀牌水平上競爭,這告訴我們 Google 已經破解了如何在不犧牲準確性的前提下加快數學推理速度的根本難題。排名第8的「思考最小化」(thinking-minimal)變體提供了另一種性價比權衡,而像排名第12的 Gemini 2.5 Pro 和排名第46的 Gemini 2.5 Flash 這樣的老牌主力仍在可靠地服務。
Google 在前60名中佔據了六個席位,涵蓋了三代產品和多個價格檔位。他們不是在打造一個偉大的數學模型,而是在構建整個數學推理棧,從實惠的 Flash 到旗艦級的 Pro,所有這些都共享相同的底層進步。
我的預測:Google 至少會在2026年中期之前保持這種領先優勢。他們將數學推理作為核心能力嵌入整個產品線,而不是集中在一個旗艦產品上的方法,正在帶來複利紅利。如果你正在構建任何需要可靠數學計算的東西,從金融建模到科學模擬,Gemini 應該是你現在的首選。
Moonshot 的驚喜
這是三個月前沒人會寫的故事。Moonshot 的 Kimi K2.5 Thinking 排名第3,與 Gemini 3 Flash 在銀牌位置上平分秋色。請記住這一點。一個成立於2023年的初創公司的模型,在數學上與 Google 第二好的產品平起平坐。
我一直在廣泛測試 Kimi K2.5 Thinking,讓我印象深刻的是它處理擴展推理的方法。當其他思考模型有時會產生冗長的思維鏈,在落地之前繞著問題轉圈時,Kimi 的推理感覺幾乎是令人不安的直接。它迅速識別核心數學結構,然後以最少的彎路構建解決方案。對於需要準確性和清晰邏輯鏈的競賽型問題,這種直接性是一個真正的優勢。
Moonshot 在前60名中佔據了三個席位:排名第3的 Kimi K2.5 Thinking,排名第16的 Kimi K2 Thinking Turbo,以及排名第39的 Kimi K2。三個層級,一種架構哲學。初創公司這種多層級的存在是前所未有的。訊息很明確:只有萬億美元公司才能構建世界級數學 AI 的時代已經結束。專注於推理架構的研究投入可以與巨大的計算預算相抗衡。預計2026年將有更多實驗室遵循這一劇本。
OpenAI 讓出王座之後
讓我直說吧。GPT-5.2 High 自從首次亮相以來一直佔據金牌位置,現在排名第4,與 Claude Opus 4.5 並列。王冠已被奪走。但在任何人寫訃告之前,請看看全貌。
OpenAI 仍然在前60名中佔據十二個席位,比任何其他組織都多。這不是一家處於危機的公司。這是一家擁有如此深厚生態系統的公司,即使失去第一名,它仍然主導著中高層級。GPT-5.1 High 排名第6。排名第11的 o3 推理模型 仍然是我處理需要深度多步計算的競賽級問題的首選。排名第17的 GPT-5 High、排名第18的標準版 GPT-5.2 以及排名第36的 o4-mini 為開發者提供了涵蓋每個價格層級和延遲要求的選擇。
o-系列優勢
OpenAI 專用的推理模型(o3, o4-mini, o1, o3-mini)在前60名中佔據了四個位置。對於需要長時間計算、證明不等式、約束滿足或組合論證的問題,o-系列的可調節思考時間仍然具有獨特的強大功能。沒有其他提供商能提供這種級別的推理深度控制。
展望未來,我相信 OpenAI 的回應會很快到來。GPT-5.2 High 和 Gemini 3 Pro 之間的差距並非不可逾越,而且 OpenAI 的模式一直是在失利後積極迭代。如果在夏天之前看到 GPT-5.3 或重大的推理更新,我不會感到驚訝。這裡更深層的故事不是衰落。而是數學競技場的頂端現在競爭如此激烈,以至於保持第一名需要持續的創新,而僅僅是一次強力發布。
「思考」模型革命
掃描這個排行榜的前10名,數數有多少模型名稱中包含「thinking」(思考)這個詞。答案很有說明性:第3名的 Kimi K2.5 Thinking,第7名的 Claude Opus 4.5 Thinking,第8名的 Gemini 3 Flash thinking-minimal,第10名的 Claude Sonnet 4.5 Thinking。擴大到前20名,它們無處不在。這是過去一年數學 AI 最大的結構性轉變。
這些模型在推理時分配額外的計算資源,以便在提交答案之前逐步解決問題。這相當於數學家在寫最終證明之前先拿出計算紙。結果是明確的:思考變體在數學任務中始終優於標準變體。
Anthropic 的實現特別好地說明了這個故事。Claude Opus 4.5 Thinking-32k 在第7名,當給予推理空間時,其表現優於第5名的標準 Opus 4.5。Claude Sonnet 4.5 Thinking 在第10名,儘管設計為中層模型,但表現遠超同級,闖入前10。Anthropic 在前60名中總共佔據八個席位,他們的標誌仍然是教學清晰度。當我需要一個不僅能解決問題,還能以學生真正能學到的方式解釋為什麼解決方案有效的模型時,Claude 仍然是無與倫比的。
我的預測:到2026年底,「標準」和「思考」模型之間的區別將消失。每個模型都將根據問題的複雜性動態分配推理時間。目前這一代明確標記的思考變體是通向普遍自適應推理的過渡步驟。
實際的結論很簡單:如果準確性比延遲更重要,請始終選擇思考變體。數學上的提升是一致且真實的。對於響應時間至關重要的生產應用,標準變體仍然非常出色。但對於研究、教育或任何獲得正確答案至關重要的場景,思考模型是現在也是未來。
全球數學版圖
把鏡頭拉遠,這個排行榜的地理分布講述了自己的故事。在60個上榜模型中,有26個來自中國機構。這佔整個領域的43%。美國實驗室佔據32個席位,佔53%,而 Mistral 帶來了兩個歐洲代表。數學 AI 能力現在真正實現了多極化,這種轉變的加速甚至超過了幾乎所有人的預測。
DeepSeek 表現突出,在前60名中擁有八個模型,與 Anthropic 並列,僅次於 OpenAI。橫跨 #25, #26, #28 和 #56 的 v3.2 系列提供了令人印象深刻的範圍,而 v3.1 系列和久經考驗的 DeepSeek R1(第49名)填補了中間層級。DeepSeek 的非凡之處在於成本與能力的比例。在我的測試中,DeepSeek V3.2 提供了前30名的數學性能,而費用大約是旗艦模型的五分之一。對於預算有限的大規模團隊來說,這個比例是變革性的。
阿里巴巴的 Qwen3 系列貢獻了七個模型,從第15名的 Qwen3 Max Preview 到開發者可以在自己的基礎設施上微調的開放權重變體。這種開放權重策略對於有數據主權要求的行業至關重要,這是一個深思熟慮的生態系統佈局。xAI 的 Grok 系列佔據六個席位,由第13名的 Grok 4.1 Thinking 領銜,該模型在證明類問題中繼續尋找優雅的捷徑。Z.ai 的 GLM 系列佔據三個席位,百度貢獻了三個 ERNIE 變體,我們還看到了來自 美團 和 騰訊 的條目。
參與的深度和廣度告訴我數學 AI 的走向:這不再是兩三個領跑者之間的競賽。這是一個生態系統,而且這個生態系統每個月都在變得更加豐富。沒有任何一個國家、公司或研究傳統可以再聲稱壟斷數學推理。對於我們這些基於這些工具進行構建的人來說,這種競爭是可能發生的最好的事情。
我的實戰指南
在對這些模型進行了多年的測試——從奧林匹克問題到現實世界的工程計算——之後,構建者們一直問我這個問題:我實際上應該使用哪個模型?誠實的答案完全取決於你在構建什麼。
研究級準確性
排名第1的 Gemini 3 Pro。Google 的旗艦在原始數學能力上領先。對於正確性不可妥協的新穎問題,這是我的首選。
速度不妥協
排名第2的 Gemini 3 Flash。接近領獎台的準確性,延遲和成本顯著降低。非常適合需要品質和吞吐量的生產數學管道。
黑馬
排名第3的 Kimi K2.5 Thinking。Moonshot 的推理方法非常高效。如果你還沒有嘗試過,值得認真探索,特別是對於競賽型問題。
生態系統深度
OpenAI 擁有橫跨每個層級的十二個模型。o-系列用於競賽數學,GPT-5.x 用於一般推理。沒有其他提供商能提供這種範圍。
最佳解釋
Claude 在前60名中有八個模型。當理解為什麼答案正確與答案本身一樣重要時。無與倫比的教學清晰度。
預算冠軍
DeepSeek 在前60名中有八個模型。前30名的能力,只有一小部分的成本。對於大規模構建或成本敏感環境的團隊至關重要。
沒有單一的最好的數學 AI。2026年的制勝策略是編排:Gemini 用於頂級準確性和速度,OpenAI 的 o-系列用於深度推理,Claude 用於可解釋性,DeepSeek 和 Kimi 用於效率。構建包含多個提供商的管道,你將始終超越任何單一模型。
數據來源:排名來自 AI Arena 數學排行榜,2026年2月6日。
討論
0 條評論留下評論
成為第一個分享您想法的人!