Mathematisches Denken wird nicht mehr von einem einzigen Champion gewonnen. Es wird von denen gewonnen, die wissen, wann welches Modell für welches Problem zu verwenden ist.
Ich habe die Mathe-Arena heute Morgen aktualisiert und musste zweimal hinschauen. Zum ersten Mal, seit ich diese Rankings verfolge, sitzt OpenAI nicht mehr an der Spitze. Googles Gemini 3 Pro hat die Krone im mathematischen Denken erobert, und die Geschichte wird von da an nur noch seltsamer. Ein Startup aus Peking namens Moonshot ist gerade mit einem Modell auf dem Podium gelandet, das die meisten westlichen Entwickler noch nicht einmal ausprobiert haben. Nach Wochen des Stresstests der Top-Konkurrenten in allem, von Olympiade-Kombinatorik bis hin zu reeller Analyse auf Graduiertenniveau, ist hier, was uns die Februar-Daten darüber sagen, wohin sich die mathematische KI tatsächlich entwickelt.
Die Mathematik-Rangliste
Mathematik bleibt der ehrlichste Maßstab in der KI. Man kann sich nicht durch eine Differentialgleichung charmieren oder einen korrekten Beweis halluzinieren. Eine Antwort ist richtig oder sie ist es nicht. Diese binäre Klarheit macht die Math Arena zu dem Maßstab, dem ich am meisten vertraue, wenn ich bewerte, ob ein Modell wirklich schlussfolgern kann. Hier sind alle 60 gerankten Modelle mit Stand Februar 2026.
| Rang | Modell | Punktzahl | Stimmen | Organisation |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google holt die Krone
Ich habe die Entwicklung der mathematischen KI von Google drei Jahre lang beobachtet, und was sie diesen Monat erreicht haben, ist nichts weniger als bemerkenswert. Gemini 3 Pro hat nicht nur Gold geholt. Es kam mit deutlichem Abstand zum Feld an. Aber der eigentliche Schachzug? Gemini 3 Flash sitzt direkt dahinter auf Silber. Google hält jetzt gleichzeitig Gold und Silber in der Math Arena. Das ist noch nie zuvor passiert.
Was dies bedeutsam macht, geht über Rankings hinaus. Es ist die Architekturstrategie. Gemini 3 Pro ist das Schwergewicht, gebaut für maximale Argumentationstiefe, die Art von Modell, die man auf Beweise auf Forschungsniveau und mehrstufige Herleitungen richtet. Gemini 3 Flash ist auf Geschwindigkeit und Kosten optimiert. Die Tatsache, dass ein geschwindigkeitsoptimiertes Modell auf Silber-Niveau konkurrieren kann, sagt uns, dass Google etwas Grundlegendes darüber geknackt hat, wie man mathematisches Denken schneller macht, ohne die Genauigkeit zu opfern. Die Thinking-Minimal-Variante auf Platz 8 bietet einen weiteren Preis-Leistungs-Kompromiss, und ältere Arbeitstiere wie Gemini 2.5 Pro auf Platz 12 und Gemini 2.5 Flash auf Platz 46 leisten weiterhin zuverlässige Dienste.
Google platziert sechs Modelle in den Top 60 über drei Generationen und mehrere Preisstufen hinweg. Sie bauen nicht ein großartiges Mathematikmodell. Sie bauen einen ganzen Stapel für mathematisches Denken, vom erschwinglichen Flash bis zum Flaggschiff Pro, die alle dieselben zugrunde liegenden Fortschritte teilen.
Meine Vorhersage: Google wird diesen Vorsprung bis mindestens Mitte 2026 halten. Ihr Ansatz, mathematisches Denken als Kernfähigkeit in die gesamte Produktlinie einzubetten, anstatt es in einem einzigen Flaggschiff zu konzentrieren, zahlt sich aus. Wenn Sie etwas bauen, das zuverlässige mathematische Berechnungen erfordert, von Finanzmodellierung bis hin zu wissenschaftlicher Simulation, sollte Gemini im Moment Ihre erste Anlaufstelle sein.
Die Moonshot-Überraschung
Hier ist die Geschichte, die vor drei Monaten noch niemand geschrieben hat. Moonshots Kimi K2.5 Thinking ist auf Platz 3 gelandet, punktgleich mit Gemini 3 Flash für die Silberposition. Lassen Sie das sacken. Ein Modell von einem 2023 gegründeten Startup ist mathematisch auf Augenhöhe mit Googles zweitbestem Angebot.
Ich habe Kimi K2.5 Thinking ausgiebig getestet, und was mich beeindruckt, ist sein Ansatz für erweitertes Denken. Wo andere denkende Modelle manchmal weitschweifige Gedankenketten produzieren, die ein Problem umkreisen, bevor sie landen, fühlt sich Kimis Denken fast unnervend direkt an. Es identifiziert die mathematische Kernstruktur schnell und baut dann mit minimalen Umwegen auf die Lösung hin. Für Probleme im Wettbewerbsstil, bei denen man sowohl Genauigkeit als auch eine saubere logische Kette benötigt, ist diese Direktheit ein echter Vorteil.
Moonshot platziert drei Modelle in den Top 60: Kimi K2.5 Thinking auf Platz 3, Kimi K2 Thinking Turbo auf Platz 16 und Kimi K2 auf Platz 39. Drei Stufen, eine Architekturphilosophie. Diese Art von mehrstufiger Präsenz eines Startups ist beispiellos. Die Botschaft ist klar: Die Ära, in der nur Billionen-Dollar-Unternehmen erstklassige mathematische KI bauen konnten, ist vorbei. Fokussierte Forschungsinvestitionen in die Denkarchitektur können mit massiven Rechenbudgets konkurrieren. Erwarten Sie, dass im Laufe des Jahres 2026 mehr Labore diesem Drehbuch folgen werden.
OpenAI nach dem Thron
Lassen Sie mich direkt sein. GPT-5.2 High, das seit seinem Debüt Gold hielt, sitzt jetzt auf Platz 4, gleichauf mit Claude Opus 4.5. Die Krone wurde genommen. Aber bevor jemand den Nachruf schreibt, schauen Sie sich das Gesamtbild an.
OpenAI platziert immer noch zwölf Modelle in den Top 60, mehr als jede andere Organisation. Das ist kein Unternehmen in der Krise. Das ist ein Unternehmen mit einer solchen Ökosystemtiefe, dass selbst der Verlust von Platz 1 es immer noch dominierend in der mittleren und oberen Stufe zurücklässt. GPT-5.1 High hält Platz 6. Das o3-Reasoning-Modell auf Platz 11 bleibt meine erste Wahl für Probleme auf Wettbewerbsniveau, die tiefe mehrstufige Berechnungen erfordern. GPT-5 High auf Platz 17, das Standard-GPT-5.2 auf Platz 18 und o4-mini auf Platz 36 geben Entwicklern Optionen für jede Preisklasse und Latenzanforderung.
Der o-Serien-Vorteil
OpenAIs dedizierte Reasoning-Modelle (o3, o4-mini, o1, o3-mini) besetzen vier Positionen in den Top 60. Für Probleme, die erweiterte Berechnungen, das Beweisen von Ungleichungen, Constraint Satisfaction oder kombinatorische Argumente erfordern, bleibt die einstellbare Denkzeit der o-Serie einzigartig leistungsstark. Kein anderer Anbieter bietet dieses Niveau an Kontrolle über die Denktiefe.
Blickt man nach vorne, glaube ich, dass die Antwort von OpenAI schnell kommen wird. Der Abstand zwischen GPT-5.2 High und Gemini 3 Pro ist nicht unüberwindbar, und das Muster von OpenAI war immer, nach Bodenverlusten aggressiv zu iterieren. Ich wäre nicht überrascht, ein GPT-5.3 oder ein bedeutendes Reasoning-Update vor dem Sommer zu sehen. Die tiefere Geschichte hier ist kein Fall. Es ist, dass die Spitze der Math Arena jetzt so hart umkämpft ist, dass das Halten von Platz 1 kontinuierliche Innovation erfordert, nicht eine einzelne starke Veröffentlichung.
Die Revolution der denkenden Modelle
Scannen Sie die Top 10 dieser Rangliste und zählen Sie, wie viele Modellnamen das Wort "thinking" (denkend) enthalten. Die Antwort ist vielsagend: Kimi K2.5 Thinking auf Platz 3, Claude Opus 4.5 Thinking auf Platz 7, Gemini 3 Flash thinking-minimal auf Platz 8, Claude Sonnet 4.5 Thinking auf Platz 10. Erweitern Sie auf die Top 20 und sie sind überall. Das ist die größte strukturelle Veränderung in der mathematischen KI im letzten Jahr.
Diese Modelle weisen zur Inferenzzeit zusätzliche Rechenleistung zu, um Probleme Schritt für Schritt durchzuarbeiten, bevor sie sich auf eine Antwort festlegen. Es ist das KI-Äquivalent eines Mathematikers, der nach Schmierpapier greift, bevor er den endgültigen Beweis schreibt. Die Ergebnisse sind eindeutig: Denkende Varianten übertreffen ihre Standard-Gegenstücke bei mathematischen Aufgaben konsequent.
Anthropics Implementierung erzählt diese Geschichte besonders gut. Claude Opus 4.5 Thinking-32k auf Platz 7 übertrifft das Standard-Opus 4.5 auf Platz 5, wenn ihm Raum zum Denken gegeben wird. Claude Sonnet 4.5 Thinking auf Platz 10 schlägt weit über seine Gewichtsklasse hinaus und knackt die Top 10, obwohl es vom Design her ein Mittelklasse-Modell ist. Anthropic platziert insgesamt acht Modelle in den Top 60, und ihr Markenzeichen bleibt pädagogische Klarheit. Wenn ich ein Modell brauche, das nicht nur ein Problem löst, sondern erklärt, warum die Lösung funktioniert, auf eine Weise, von der ein Schüler wirklich lernen könnte, ist Claude immer noch unübertroffen.
Meine Vorhersage: Bis Ende 2026 wird die Unterscheidung zwischen "Standard"- und "Thinking"-Modellen verschwinden. Jedes Modell wird die Denkzeit dynamisch basierend auf der Problemkomplexität zuweisen. Die aktuelle Generation explizit gekennzeichneter Thinking-Varianten ist ein Übergangsschritt hin zu universell adaptivem Denken.
Die praktische Schlussfolgerung ist einfach: Wenn Genauigkeit wichtiger ist als Latenz, wählen Sie immer die Thinking-Variante. Der mathematische Auftrieb ist konsistent und real. Für Produktionsanwendungen, bei denen die Reaktionszeit kritisch ist, bleiben Standardvarianten ausgezeichnet. Aber für Forschung, Bildung oder jedes Szenario, in dem das Erhalten der richtigen Antwort von größter Bedeutung ist, sind denkende Modelle die Gegenwart und die Zukunft.
Die globale Mathematik-Landschaft
Ziehen Sie die Kamera zurück und die Geographie dieser Rangliste erzählt ihre eigene Geschichte. Von den 60 gerankten Modellen stammen 26 von chinesischen Organisationen. Das sind 43 % des gesamten Feldes. Amerikanische Labore halten 32 Plätze mit 53 %, und Mistral bringt mit zwei Modellen europäische Vertretung ein. Mathematische KI-Fähigkeit ist jetzt wirklich multipolar, und dieser Wandel hat sich schneller beschleunigt, als fast jeder vorhergesagt hat.
DeepSeek sticht mit acht Modellen in den Top 60 hervor, gleichauf mit Anthropic für die zweithöchste Anzahl nach OpenAI. Die v3.2-Familie über die Positionen #25, #26, #28 und #56 bietet eine beeindruckende Bandbreite, während die v3.1-Serie und das kampferprobte DeepSeek R1 auf #49 die mittleren Ränge ausfüllen. Was DeepSeek bemerkenswert macht, ist das Kosten-Nutzen-Verhältnis. In meinen Tests liefert DeepSeek V3.2 mathematische Leistung der Top 30 zu etwa einem Fünftel dessen, was Flaggschiff-Modelle verlangen. Für Teams, die in großem Maßstab mit Budgetbeschränkungen arbeiten, ist dieses Verhältnis transformativ.
Alibabas Qwen3-Familie trägt sieben Modelle bei, von Qwen3 Max Preview auf #15 bis hin zu Varianten mit offenen Gewichten, die Entwickler auf ihrer eigenen Infrastruktur feinabstimmen können. Diese Open-Weight-Strategie ist wichtig für Branchen mit Datensouveränitätsanforderungen und ist ein bewusstes Ökosystem-Spiel. xAIs Grok-Familie platziert sechs Modelle, angeführt von Grok 4.1 Thinking auf #13, das weiterhin elegante Abkürzungen in Problemen im Beweisstil findet. Z.ais GLM-Serie hält drei Plätze, Baidu trägt drei ERNIE-Varianten bei, und wir sehen auch Einträge von Meituan und Tencent.
Die Tiefe und Breite der Beteiligung sagt mir, wohin sich die mathematische KI entwickelt: Dies ist kein Rennen mehr zwischen zwei oder drei Spitzenreitern. Es ist ein Ökosystem, und das Ökosystem wird jeden Monat reicher. Kein einzelnes Land, kein Unternehmen oder keine Forschungstradition kann mehr ein Monopol auf mathematisches Denken beanspruchen. Und für diejenigen von uns, die auf diesen Werkzeugen aufbauen, ist dieser Wettbewerb das Beste, was passieren konnte.
Mein Feldführer
Nachdem ich diese Modelle jahrelang an allem getestet habe, von Olympiade-Problemen bis hin zu realen Ingenieursberechnungen, ist hier die Frage, die mir Entwickler immer wieder stellen: Welches Modell sollte ich tatsächlich verwenden? Die ehrliche Antwort hängt ganz davon ab, was Sie bauen.
Genauigkeit auf Forschungsniveau
Gemini 3 Pro auf #1. Googles Flaggschiff führt bei der rohen mathematischen Fähigkeit. Meine erste Wahl für neuartige Probleme, bei denen Korrektheit nicht verhandelbar ist.
Geschwindigkeit ohne Opfer
Gemini 3 Flash auf #2. Genauigkeit nahe dem Podium bei deutlich geringerer Latenz und Kosten. Perfekt für Produktions-Mathe-Pipelines, die sowohl Qualität als auch Durchsatz benötigen.
Der Geheimfavorit
Kimi K2.5 Thinking auf #3. Moonshots Denkansatz ist bemerkenswert effizient. Es lohnt sich ernsthaft, es zu erkunden, falls Sie es noch nicht getan haben, insbesondere für Probleme im Wettbewerbsstil.
Ökosystem-Tiefe
OpenAI mit zwölf Modellen auf jeder Stufe. Die o-Serie für Wettbewerbsmathematik, GPT-5.x für allgemeines Denken. Kein anderer Anbieter bietet diese Bandbreite.
Beste Erklärungen
Claude mit acht Modellen in den Top 60. Wenn das Verständnis, warum eine Antwort richtig ist, genauso wichtig ist wie die Antwort selbst. Unübertroffene pädagogische Klarheit.
Budget-Champion
DeepSeek mit acht Modellen in den Top 60. Top-30-Fähigkeit zu einem Bruchteil der Kosten. Unverzichtbar für Teams, die im großen Maßstab oder in kostensensiblen Umgebungen bauen.
Es gibt keine einzelne beste mathematische KI. Die Gewinnstrategie im Jahr 2026 ist Orchestrierung: Gemini für erstklassige Genauigkeit und Geschwindigkeit, OpenAIs o-Serie für tiefes Denken, Claude für Erklärbarkeit, DeepSeek und Kimi für Effizienz. Bauen Sie Ihre Pipeline mit mehreren Anbietern, und Sie werden jedes einzelne Modell konsequent übertreffen.
Datenquelle: Rankings von AI Arena Math Leaderboard, 6. Februar 2026.
Diskussion
0 KommentareKommentar hinterlassen
Seien Sie der Erste, der seine Gedanken teilt!