数学的推論はもはや一人のチャンピオンによって勝ち取られるものではありません。どの問題にどのモデルを使用すべきかを知っている者が勝利します。
今朝、数学アリーナを更新して、二度見してしまいました。私がこれらのランキングを追跡し始めて以来初めて、OpenAIがトップに座っていません。GoogleのGemini 3 Proが数学的推論の王座を奪取し、そこからのストーリーは奇妙になるばかりです。Moonshotと呼ばれる北京を拠点とするスタートアップが、西側の開発者のほとんどが試したことさえないモデルで表彰台に着地しました。オリンピックの組み合わせ論から大学院レベルの実解析まで、あらゆるものでトップコンテンダーをストレステストした数週間の後、2月のデータが数学的AIが実際にどこに向かっているのかについて私たちに語っていることは次のとおりです。
数学リーダーボード
数学はAIにおいて最も正直なベンチマークであり続けています。微分方程式を愛想よく解いたり、正しい証明を幻覚で見たりすることはできません。答えは正しいか、そうでないかです。その二元的な明確さが、モデルが本当に推論できるかどうかを評価する際に、私が最も信頼するベンチマークとしてMath Arenaを選んでいる理由です。2026年2月時点での全60のランクインモデルは以下の通りです。
| ランク | モデル | スコア | 投票 | 組織 |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Googleが王冠を奪取
私はGoogleの数学的AIの進化を3年間見てきましたが、今月彼らが成し遂げたことは驚くべきことに他なりません。Gemini 3 Proは単に金を獲得しただけではありません。それは、フィールドの上に明確な日光を浴びて到着しました。しかし、本当のパワープレイは?Gemini 3 Flashが銀でそのすぐ後ろに座っていることです。Googleは現在、数学アリーナで金と銀を同時に保持しています。これは以前には一度も起こったことがありません。
これを重要にしているのはランキングを超えたものです。それはアーキテクチャ戦略です。Gemini 3 Proはヘビー級であり、最大の推論深度のために構築されており、研究レベルの証明や多段階の導出に向ける種類のモデルです。Gemini 3 Flashはスピードとコストのために最適化されています。スピードに最適化されたモデルが銀レベルで競争できるという事実は、Googleが精度を犠牲にすることなく数学的推論をより速くする方法について何か根本的なことを解明したことを私たちに告げています。8位の思考最小限(thinking-minimal)バリアントは、さらに別の価格対性能のトレードオフを提供し、12位のGemini 2.5 Proや46位のGemini 2.5 Flashのような古い働き者は、信頼できるサービスを提供し続けています。
Googleは、3世代と複数の価格帯にわたってトップ60に6つのモデルを配置しています。彼らは1つの優れた数学モデルを構築しているのではありません。彼らは、手頃な価格のFlashからフラッグシップのProまで、すべて同じ基本的な進歩を共有する数学的推論スタック全体を構築しています。
私の予測:Googleは少なくとも2026年半ばまでこのリードを維持するでしょう。数学的推論を単一のフラッグシップに集中させるのではなく、製品ライン全体の中核能力として組み込むという彼らのアプローチは、複利の配当を支払っています。金融モデリングから科学シミュレーションまで、信頼性の高い数学的計算を必要とするものを構築している場合、Geminiは今すぐあなたの最初の呼び出しになるはずです。
Moonshotの驚き
これは3ヶ月前には誰も書いていなかったストーリーです。MoonshotのKimi K2.5 Thinkingは3位に着地し、銀のポジションでGemini 3 Flashと同点になりました。それを登録させてください。2023年に設立されたスタートアップのモデルが、Googleの2番目に良い製品と数学的に同等です。
私はKimi K2.5 Thinkingを広範囲にテストしてきましたが、私を驚かせたのは、拡張された推論へのアプローチです。他の思考モデルが時々、着地する前に問題の周りを回る冗長な思考の連鎖を生成するところで、Kimiの推論はほとんど神経質になるほど直接的に感じられます。それは中核となる数学的構造を素早く特定し、最小限の迂回で解決策に向かって構築します。精度とクリーンな論理チェーンの両方が必要な競技スタイルの問題にとって、その直接性は真の利点です。
Moonshotはトップ60に3つのモデルを配置しています:3位のKimi K2.5 Thinking、16位のKimi K2 Thinking Turbo、そして39位のKimi K2です。3つの層、1つのアーキテクチャ哲学。スタートアップからのこの種の多層的な存在感は前例がありません。メッセージは明確です:兆ドル規模の企業だけが世界クラスの数学的AIを構築できた時代は終わりました。推論アーキテクチャへの集中的な研究投資は、大規模な計算予算と競争できます。2026年を通じて、より多くのラボがこのプレイブックに従うことを期待してください。
王座を追われたOpenAI
率直に言いましょう。デビュー以来金を保持していたGPT-5.2 Highは現在、Claude Opus 4.5と同点の4位に座っています。王冠は奪われました。しかし、誰かが死亡記事を書く前に、全体像を見てください。
OpenAIは依然としてトップ60に12のモデルを配置しており、これは他のどの組織よりも多いです。それは危機にある会社ではありません。それは、1位を失っても中層および上層を支配したままにするほどのエコシステムの深さを持つ会社です。GPT-5.1 Highは6位を保持しています。11位のo3推論モデルは、深い多段階計算を要求する競技レベルの問題に対する私の頼みの綱であり続けています。17位のGPT-5 High、18位の標準GPT-5.2、そして36位のo4-miniは、あらゆる価格帯と遅延要件にわたってビルダーに選択肢を与えます。
oシリーズの利点
OpenAIの専用推論モデル(o3, o4-mini, o1, o3-mini)はトップ60で4つのポジションを占めています。拡張計算、不等式の証明、制約充足、または組み合わせ論的議論を必要とする問題について、oシリーズの調整可能な思考時間は独自に強力なままです。他のどのプロバイダーも、このレベルの推論深度制御を提供していません。
先を見据えると、OpenAIの対応は早いと信じています。GPT-5.2 HighとGemini 3 Proの間のギャップは克服不可能ではなく、OpenAIのパターンは常に、地盤を失った後に積極的に反復することでした。夏前にGPT-5.3または重要な推論の更新を見ても驚きません。ここでのより深いストーリーは没落ではありません。それは、数学アリーナのトップが現在非常に激しく競争しており、1位を維持するには単一の強力なリリースではなく、継続的なイノベーションが必要であるということです。
思考モデル革命
このリーダーボードのトップ10をスキャンして、名前に「thinking」(思考)という言葉が含まれているモデルの数を数えてください。答えは雄弁です:3位のKimi K2.5 Thinking、7位のClaude Opus 4.5 Thinking、8位のGemini 3 Flash thinking-minimal、10位のClaude Sonnet 4.5 Thinking。トップ20まで拡大すると、それらはどこにでもあります。これは過去1年間の数学的AIにおける単一で最大の構造的変化です。
これらのモデルは、答えにコミットする前に問題をステップバイステップで処理するために、推論時に追加の計算を割り当てます。それは、最終的な証明を書く前に計算用紙に手を伸ばす数学者のAI版です。結果は明白です:思考バリアントは、数学的タスクにおいて標準的な対応物を一貫して上回っています。
Anthropicの実装はこのストーリーを特によく語っています。7位のClaude Opus 4.5 Thinking-32kは、推論する余地が与えられた場合、5位の標準Opus 4.5を上回ります。10位のClaude Sonnet 4.5 Thinkingは、設計上は中層モデルであるにもかかわらず、その重量クラスをはるかに上回るパンチを放ち、トップ10に食い込んでいます。Anthropicはトップ60に合計8つのモデルを配置しており、彼らの特徴は教育的な明確さであり続けています。単に問題を解決するだけでなく、学生が本当に学ぶことができる方法で解決策がなぜ機能するのかを説明するモデルが必要な場合、Claudeは依然として比類のない存在です。
私の予測:2026年末までに、「標準」モデルと「思考」モデルの区別はなくなるでしょう。すべてのモデルが、問題の複雑さに基づいて推論時間を動的に割り当てるようになります。明示的にラベル付けされた思考バリアントの現在の世代は、普遍的に適応的な推論への過渡的なステップです。
実用的な結論は単純です:遅延よりも精度が重要である場合は、常に思考バリアントを選択してください。数学的な向上は一貫しており、現実的です。応答時間が重要な本番アプリケーションの場合、標準バリアントは依然として優れています。しかし、研究、教育、または正しい答えを得ることが最も重要なあらゆるシナリオにとって、思考モデルは現在であり未来です。
グローバルな数学の展望
カメラを引いてみると、このリーダーボードの地理がそれ自体のストーリーを語っています。ランクインした60のモデルのうち、26は中国の組織からのものです。それはフィールド全体の43%です。アメリカのラボは53%で32のスポットを保持し、Mistralは2つのモデルでヨーロッパの代表をもたらしています。数学的AI能力は現在、真に多極化しており、そのシフトはほぼ誰もが予測したよりも速く加速しています。
DeepSeekはトップ60に8つのモデルを持ち、OpenAIに次いでAnthropicと並んで2番目に多い数で際立っています。#25、#26、#28、および#56のポジションにまたがるv3.2ファミリーは印象的な範囲を提供し、v3.1シリーズと#49の実戦テスト済みのDeepSeek R1が中間層を埋めています。DeepSeekを注目に値するものにしているのは、コスト対能力の比率です。私のテストでは、DeepSeek V3.2は、フラッグシップモデルが請求するものの約5分の1でトップ30の数学的パフォーマンスを提供します。予算の制約を持って大規模に運営しているチームにとって、その比率は変革的です。
AlibabaのQwen3ファミリーは、15位のQwen3 Max Previewから、開発者が独自のインフラストラクチャで微調整できるオープンウェイトバリアントまで、7つのモデルで貢献しています。そのオープンウェイト戦略は、データ主権の要件を持つ業界にとって重要であり、それは意図的なエコシステムプレイです。xAIのGrokファミリーは、証明スタイルの問題でエレガントな近道を見つけ続けている13位のGrok 4.1 Thinkingを筆頭に、6つのモデルを配置しています。Z.aiのGLMシリーズは3つのスポットを保持し、Baiduは3つのERNIEバリアントで貢献しており、MeituanやTencentからのエントリーも見られます。
参加の深さと広さは、数学的AIがどこに向かっているのかを私に伝えています:これはもはや2、3のフロントランナー間のレースではありません。それはエコシステムであり、エコシステムは月ごとに豊かになっています。どの単一の国、会社、または研究の伝統も、もはや数学的推論の独占を主張することはできません。そして、これらのツールの上に構築している私たちにとって、その競争は起こり得る最高のことです。
私のフィールドガイド
オリンピックの問題から現実世界の工学計算まで、あらゆるものでこれらのモデルを何年もテストした後、ビルダーが私に尋ね続ける質問はこれです:実際にどのモデルを使用すべきですか?正直な答えは、あなたが何を構築しているかに完全に依存します。
研究レベルの精度
1位のGemini 3 Pro。Googleのフラッグシップは、生の数学的能力でリードしています。正しさが交渉不可能である新しい問題に対する私の最初の選択。
犠牲のないスピード
2位のGemini 3 Flash。大幅に低いレイテンシとコストで表彰台に近い精度。品質とスループットの両方を必要とする本番の数学パイプラインに最適です。
ダークホース
3位のKimi K2.5 Thinking。Moonshotの推論アプローチは著しく効率的です。まだ試していない場合は、特に競技スタイルの問題について、真剣に検討する価値があります。
エコシステムの深さ
あらゆる層にわたる12のモデルを持つOpenAI。競技数学のためのoシリーズ、一般的な推論のためのGPT-5.x。この範囲を提供するプロバイダーは他にはありません。
最高の説明
トップ60に8つのモデルを持つClaude。答えがなぜ正しいのかを理解することが、答えそのものと同じくらい重要な場合。比類のない教育的な明確さ。
予算のチャンピオン
トップ60に8つのモデルを持つDeepSeek。コストのほんの一部でトップ30の能力。大規模に、またはコストに敏感な環境で構築しているチームに不可欠です。
単一の最高の数学的AIはありません。2026年の勝利戦略はオーケストレーションです:トップクラスの精度とスピードのためのGemini、深い推論のためのOpenAIのoシリーズ、説明可能性のためのClaude、効率のためのDeepSeekとKimi。複数のプロバイダーでパイプラインを構築すれば、単一のモデルを一貫して上回ることができます。
データソース:AI Arena数学リーダーボードからのランキング、2026年2月6日。
ディスカッション
0 コメントコメントを残す
この記事についてご感想をお聞かせください!