Matematisk ræsonnement vindes ikke længere af en enkelt mester. Det vindes af dem, der ved, hvornår man skal bruge hvilken model til hvilket problem.
Jeg opdaterede Math Arena i morges og måtte kigge en ekstra gang. For første gang siden jeg begyndte at spore disse ranglister, sidder OpenAI ikke længere på toppen. Googles Gemini 3 Pro har taget kronen inden for matematisk ræsonnement, og historien bliver kun mærkeligere derfra. En Beijing-baseret startup ved navn Moonshot er lige landet på podiet med en model, som de fleste vestlige udviklere ikke engang har prøvet. Efter ugers stresstest af de bedste udfordrere på alt fra olympiade-kombinatorik til reel analyse på kandidatniveau, er her, hvad dataene fra februar fortæller os om, hvor matematisk AI faktisk er på vej hen.
Matematik-ranglisten
Matematik forbliver det mest ærlige benchmark inden for AI. Du kan ikke charme dig gennem en differentialligning eller hallucinere et korrekt bevis. Et svar er rigtigt, eller også er det ikke. Denne binære klarhed er det, der gør Math Arena til det benchmark, jeg stoler mest på, når jeg vurderer, om en model virkelig kan ræsonnere. Her er alle 60 rangerede modeller fra februar 2026.
| Rang | Model | Score | Stemmer | Organisation |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google Tager Kronen
Jeg har observeret udviklingen af Googles matematiske AI i tre år, og hvad de har opnået i denne måned er intet mindre end bemærkelsesværdigt. Gemini 3 Pro tog ikke bare Guld. Den ankom med klar afstand til feltet. Men det virkelige magttræk? Gemini 3 Flash sidder lige bagved på Sølv. Google har nu både Guld og Sølv samtidigt i Math Arena. Det er aldrig sket før.
Hvad der gør dette betydningsfuldt går ud over ranglister. Det er arkitekturstrategien. Gemini 3 Pro er sværvægteren, bygget til maksimal resonnementsdybde, den type model du retter mod beviser på forskningsniveau og flertrinsudledninger. Gemini 3 Flash er optimeret til hastighed og omkostninger. Det faktum, at en hastighedsoptimeret model kan konkurrere på Sølv-niveau, fortæller os, at Google har knækket noget grundlæggende om, hvordan man gør matematisk ræsonnement hurtigere uden at ofre nøjagtighed. Varianten thinking-minimal på 8. pladsen tilbyder endnu en pris-ydelses-afvejning, og ældre arbejdsheste som Gemini 2.5 Pro på 12. pladsen og Gemini 2.5 Flash på 46. pladsen fortsætter med at tjene pålideligt.
Google placerer seks modeller i top 60 på tværs af tre generationer og flere prisniveauer. De bygger ikke én fantastisk matematikmodel. De bygger en hel stak til matematisk ræsonnement, fra den overkommelige Flash til flagskibet Pro, der alle deler de samme underliggende fremskridt.
Min forudsigelse: Google vil holde denne føring mindst indtil midten af 2026. Deres tilgang med at indlejre matematisk ræsonnement som en kernekompetence på tværs af produktlinjen, i stedet for at koncentrere det i ét flagskib, betaler rentes rente. Hvis du bygger noget, der kræver pålidelig matematisk beregning, fra finansiel modellering til videnskabelig simulering, bør Gemini være dit første opkald lige nu.
Moonshot-overraskelsen
Her er historien, som ingen skrev for tre måneder siden. Moonshots Kimi K2.5 Thinking er landet på 3. pladsen, lige i point med Gemini 3 Flash for Sølv-positionen. Lad det synke ind. En model fra en startup grundlagt i 2023 er matematisk på niveau med Googles næstbedste tilbud.
Jeg har testet Kimi K2.5 Thinking omfattende, og hvad der slår mig, er dens tilgang til udvidet ræsonnement. Hvor andre tænkende modeller nogle gange producerer ordrige tankekæder, der cirkler om et problem før landing, føles Kimis ræsonnement næsten nervepirrende direkte. Den identificerer den matematiske kernestruktur hurtigt og bygger derefter mod løsningen med minimale omveje. For problemer i konkurrencestil, hvor du har brug for både nøjagtighed og en ren logisk kæde, er den direktehed en ægte fordel.
Moonshot placerer tre modeller i top 60: Kimi K2.5 Thinking på 3. pladsen, Kimi K2 Thinking Turbo på 16. pladsen, og Kimi K2 på 39. pladsen. Tre niveauer, én arkitekturfilosofi. Denne form for tilstedeværelse på flere niveauer fra en startup er uden fortilfælde. Budskabet er klart: æraen, hvor kun virksomheder til billioner af dollars kunne bygge matematisk AI i verdensklasse, er forbi. Fokuseret forskningsinvestering i ræsonnementsarkitektur kan konkurrere med massive beregningsbudgetter. Forvent at flere laboratorier vil følge denne drejebog gennem hele 2026.
OpenAI Efter Tronen
Lad mig være direkte. GPT-5.2 High, som har haft Guld siden sin debut, sidder nu på 4. pladsen, lige med Claude Opus 4.5. Kronen er taget. Men før nogen skriver nekrologen, så se på det fulde billede.
OpenAI placerer stadig tolv modeller i top 60, mere end nogen anden organisation. Det er ikke en virksomhed i krise. Det er en virksomhed med en sådan økosystemdybde, at selv tabet af 1. pladsen efterlader dem dominerende på mellem- og toppeniveauerne. GPT-5.1 High holder 6. pladsen. o3-ræsonnementsmodellen på 11. pladsen forbliver mit valg til problemer på konkurrenceniveau, der kræver dyb flertrinsberegning. GPT-5 High på 17. pladsen, standard GPT-5.2 på 18. pladsen, og o4-mini på 36. pladsen giver bygherrer muligheder på hvert prisniveau og latenskrav.
o-Serie-fordelen
OpenAIs dedikerede ræsonnementsmodeller (o3, o4-mini, o1, o3-mini) indtager fire positioner i top 60. For problemer, der kræver udvidet beregning, bevisførelse af uligheder, begrænsningstilfredsstillelse eller kombinatoriske argumenter, forbliver o-seriens justerbare tænketid unikt kraftfuld. Ingen anden udbyder tilbyder dette niveau af kontrol over ræsonnementsdybde.
Når jeg ser fremad, tror jeg, at OpenAIs svar vil komme hurtigt. Kløften mellem GPT-5.2 High og Gemini 3 Pro er ikke uoverstigelig, og OpenAIs mønster har altid været at iterere aggressivt efter at have tabt terræn. Jeg ville ikke blive overrasket over at se en GPT-5.3 eller en betydelig ræsonnementsopdatering før sommeren. Den dybere historie her er ikke et fald. Det er, at toppen af Math Arena nu er så hårdt konkurrencepræget, at det kræver kontinuerlig innovation at holde 1. pladsen, ikke en enkelt stærk udgivelse.
Revolutionen af Tænkende Modeller
Scan top 10 på denne rangliste og tæl, hvor mange modelnavne der inkluderer ordet "thinking" (tænkende). Svaret er sigende: Kimi K2.5 Thinking på 3. pladsen, Claude Opus 4.5 Thinking på 7. pladsen, Gemini 3 Flash thinking-minimal på 8. pladsen, Claude Sonnet 4.5 Thinking på 10. pladsen. Udvid til top 20, og de er overalt. Dette er den største enkelte strukturelle ændring i matematisk AI over det seneste år.
Disse modeller allokerer yderligere beregning ved inferenstid for at arbejde gennem problemer trin for trin, før de forpligter sig til et svar. Det er AI-ækvivalenten til en matematiker, der rækker ud efter kladdepapir, før han skriver det endelige bevis. Resultaterne er utvetydige: tænkende varianter overgår konsekvent deres standardmodstykker i matematiske opgaver.
Anthropics implementering fortæller denne historie særligt godt. Claude Opus 4.5 Thinking-32k på 7. pladsen overgår standard Opus 4.5 på 5. pladsen, når den får plads til at ræsonnere. Claude Sonnet 4.5 Thinking på 10. pladsen slår langt over sin vægtklasse og bryder ind i top 10 på trods af at være en mellemklassemodel af design. Anthropic placerer i alt otte modeller i top 60, og deres kendetegn forbliver pædagogisk klarhed. Når jeg har brug for en model, der ikke bare løser et problem, men forklarer hvorfor løsningen fungerer på en måde, en studerende faktisk kunne lære af, er Claude stadig uovertruffen.
Min forudsigelse: ved udgangen af 2026 vil forskellen mellem "standard" og "tænkende" modeller forsvinde. Hver model vil dynamisk allokere ræsonnementstid baseret på problemets kompleksitet. Den nuværende generation af eksplicit mærkede tænkende varianter er et overgangsskridt mod universelt adaptivt ræsonnement.
Den praktiske konklusion er enkel: hvis nøjagtighed betyder mere end latens, vælg altid den tænkende variant. Det matematiske løft er konsistent og ægte. For produktionsapplikationer, hvor responstid er kritisk, forbliver standardvarianter fremragende. Men for forskning, uddannelse eller ethvert scenarie, hvor det er altafgørende at få det rigtige svar, er tænkende modeller nutiden og fremtiden.
Det Globale Matematiklandskab
Træk kameraet tilbage, og geografien for denne rangliste fortæller sin egen historie. Af de 60 rangerede modeller kommer 26 fra kinesiske organisationer. Det er 43% af hele feltet. Amerikanske laboratorier har 32 pladser med 53%, og Mistral bringer europæisk repræsentation med to modeller. Matematisk AI-kapacitet er nu virkeligt multipolær, og det skift er accelereret hurtigere, end næsten nogen havde forudset.
DeepSeek skiller sig ud med otte modeller i top 60, lige med Anthropic for det næsthøjeste antal efter OpenAI. v3.2-familien på tværs af positionerne #25, #26, #28 og #56 tilbyder et imponerende udvalg, mens v3.1-serien og den kamptestede DeepSeek R1 på #49 udfylder mellemniveauerne. Hvad der gør DeepSeek bemærkelsesværdig, er forholdet mellem omkostninger og kapacitet. I mine tests leverer DeepSeek V3.2 top-30 matematisk ydeevne til cirka en femtedel af, hvad flagskibsmodeller opkræver. For teams, der opererer i stor skala med budgetbegrænsninger, er det forhold transformerende.
Alibabas Qwen3-familie bidrager med syv modeller, fra Qwen3 Max Preview på #15 ned gennem åbne vægt-varianter, som udviklere kan finjustere på deres egen infrastruktur. Den åbne vægt-strategi betyder noget for industrier med krav til datasuverænitet, og det er et bevidst økosystemspil. xAIs Grok-familie placerer seks modeller, anført af Grok 4.1 Thinking på #13, som fortsætter med at finde elegante genveje i problemer af bevistypen. Z.ais GLM-serie har tre pladser, Baidu bidrager med tre ERNIE-varianter, og vi ser også indlæg fra Meituan og Tencent.
Dybden og bredden af deltagelsen fortæller mig, hvor matematisk AI er på vej hen: dette er ikke længere et løb mellem to eller tre frontløbere. Det er et økosystem, og økosystemet bliver rigere for hver måned. Intet enkelt land, firma eller forskningstradition kan gøre krav på monopol på matematisk ræsonnement længere. Og for os, der bygger på disse værktøjer, er den konkurrence det bedste, der kunne ske.
Min Feltguide
Efter at have testet disse modeller i årevis på alt fra olympiadeproblemer til virkelige ingeniørberegninger, her er spørgsmålet, som bygherrer bliver ved med at stille mig: hvilken model skal jeg faktisk bruge? Det ærlige svar afhænger helt af, hvad du bygger.
Nøjagtighed på Forskningsniveau
Gemini 3 Pro på #1. Googles flagskib fører i rå matematisk evne. Mit første valg til nye problemer, hvor korrekthed ikke er til forhandling.
Hastighed Uden Ofre
Gemini 3 Flash på #2. Nøjagtighed tæt på podiet med betydeligt lavere latens og omkostninger. Perfekt til produktions-matematikpipelines, der har brug for både kvalitet og gennemløb.
Den Mørke Hest
Kimi K2.5 Thinking på #3. Moonshots ræsonnementstilgang er bemærkelsesværdigt effektiv. Værd at udforske seriøst, hvis du ikke har gjort det endnu, især for problemer i konkurrencestil.
Økosystemdybde
OpenAI med tolv modeller på hvert niveau. o-serien til konkurrencematematik, GPT-5.x til generelt ræsonnement. Ingen anden udbyder tilbyder denne rækkevidde.
Bedste Forklaringer
Claude med otte modeller i top 60. Når det at forstå hvorfor et svar er korrekt betyder lige så meget som svaret selv. Uovertruffen pædagogisk klarhed.
Budgetmester
DeepSeek med otte modeller i top 60. Top-30 kapacitet til en brøkdel af omkostningerne. Væsentligt for teams, der bygger i stor skala eller i omkostningsfølsomme miljøer.
Der er ikke én enkelt bedste matematisk AI. Den vindende strategi i 2026 er orkestrering: Gemini for nøjagtighed og hastighed i topklasse, OpenAIs o-serie for dybt ræsonnement, Claude for forklarbarhed, DeepSeek og Kimi for effektivitet. Byg din pipeline med flere udbydere, og du vil konsekvent overgå enhver enkelt model.
Datakilde: Ranglister fra AI Arena Math Leaderboard, 6. februar 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!