Wiskundig redeneren wordt niet meer gewonnen door één enkele kampioen. Het wordt gewonnen door degenen die weten wanneer welk model voor welk probleem te gebruiken.
Ik ververste de Wiskunde Arena vanochtend en moest twee keer kijken. Voor het eerst sinds ik deze ranglijsten bijhoud, staat OpenAI niet meer aan de top. Google's Gemini 3 Pro heeft de kroon gegrepen in wiskundig redeneren, en het verhaal wordt vanaf daar alleen maar vreemder. Een startup uit Peking genaamd Moonshot is net op het podium geland met een model dat de meeste westerse ontwikkelaars nog niet eens hebben geprobeerd. Na weken van stresstesten van de topkandidaten op alles van olympiade-combinatoriek tot reële analyse op graduate-niveau, is hier wat de data van februari ons vertellen over waar wiskundige AI werkelijk naartoe gaat.
De Wiskunde Ranglijst
Wiskunde blijft de eerlijkste benchmark in AI. Je kunt je niet door een differentiaalvergelijking heen charmeren of een correct bewijs hallucineren. Een antwoord is goed of niet. Die binaire duidelijkheid maakt de Math Arena de benchmark die ik het meest vertrouw bij het evalueren of een model echt kan redeneren. Hier zijn alle 60 gerangschikte modellen per februari 2026.
| Rang | Model | Score | Stemmen | Organisatie |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google Pakt de Kroon
Ik heb de evolutie van Google's wiskundige AI drie jaar lang in de gaten gehouden, en wat ze deze maand hebben bereikt, is niets minder dan opmerkelijk. Gemini 3 Pro pakte niet alleen Goud. Het kwam aan met een duidelijke voorsprong op het veld. Maar de echte machtszet? Gemini 3 Flash zit er vlak achter op Zilver. Google bezit nu tegelijkertijd Goud en Zilver in de Wiskunde Arena. Dat is nog nooit eerder gebeurd.
Wat dit significant maakt, gaat verder dan ranglijsten. Het is de architectuurstrategie. Gemini 3 Pro is het zwaargewicht, gebouwd voor maximale redeneerdiepte, het soort model dat je richt op bewijzen op onderzoeksniveau en meerstaps afleidingen. Gemini 3 Flash is geoptimaliseerd voor snelheid en kosten. Het feit dat een snelheidsgeoptimaliseerd model kan concurreren op Zilver-niveau vertelt ons dat Google iets fundamenteels heeft gekraakt over hoe je wiskundig redeneren sneller kunt maken zonder in te boeten aan nauwkeurigheid. De thinking-minimal variant op #8 biedt nog een andere prijs-prestatie afweging, en oudere werkpaarden zoals Gemini 2.5 Pro op #12 en Gemini 2.5 Flash op #46 blijven betrouwbaar dienen.
Google plaatst zes modellen in de top 60 over drie generaties en meerdere prijsniveaus. Ze bouwen niet één geweldig wiskundemodel. Ze bouwen een hele wiskundige redeneerstack, van betaalbare Flash tot vlaggenschip Pro, die allemaal dezelfde onderliggende vooruitgang delen.
Mijn voorspelling: Google zal deze voorsprong vasthouden tot minstens medio 2026. Hun aanpak om wiskundig redeneren als kerncapaciteit in de hele productlijn in te bedden, in plaats van het te concentreren in één vlaggenschip, werpt samengestelde dividenden af. Als je iets bouwt dat betrouwbare wiskundige berekeningen vereist, van financiële modellering tot wetenschappelijke simulatie, zou Gemini nu je eerste keuze moeten zijn.
De Moonshot Verrassing
Hier is het verhaal dat niemand drie maanden geleden schreef. Moonshot's Kimi K2.5 Thinking is geland op #3, met evenveel punten als Gemini 3 Flash voor de Zilver-positie. Laat dat even inzinken. Een model van een startup opgericht in 2023 staat wiskundig op gelijke hoogte met Google's op een na beste aanbod.
Ik heb Kimi K2.5 Thinking uitgebreid getest, en wat me opvalt is de benadering van uitgebreid redeneren. Waar andere denkende modellen soms breedsprakige gedachteketens produceren die om een probleem heen cirkelen voordat ze landen, voelt Kimi's redenering bijna zenuwslopend direct. Het identificeert de wiskundige kernstructuur snel en bouwt vervolgens met minimale omwegen naar de oplossing. Voor problemen in competitiestijl waar je zowel nauwkeurigheid als een schone logische keten nodig hebt, is die directheid een oprecht voordeel.
Moonshot plaatst drie modellen in de top 60: Kimi K2.5 Thinking op #3, Kimi K2 Thinking Turbo op #16, en Kimi K2 op #39. Drie niveaus, één architectuurfilosofie. Dit soort aanwezigheid op meerdere niveaus van een startup is ongekend. De boodschap is duidelijk: het tijdperk waarin alleen biljoenenbedrijven wiskundige AI van wereldklasse konden bouwen, is voorbij. Gerichte onderzoeksinvesteringen in redeneerarchitectuur kunnen concurreren met enorme rekenbudgetten. Verwacht dat meer labs dit draaiboek zullen volgen gedurende 2026.
OpenAI Na de Troon
Laat ik direct zijn. GPT-5.2 High, dat Goud vasthield sinds zijn debuut, zit nu op #4, gelijk met Claude Opus 4.5. De kroon is afgenomen. Maar voordat iemand de necrologie schrijft, kijk naar het volledige plaatje.
OpenAI plaatst nog steeds twaalf modellen in de top 60, meer dan enige andere organisatie. Dat is geen bedrijf in crisis. Dat is een bedrijf met zo'n ecosysteemdiepte dat zelfs het verliezen van #1 hen dominant laat op de midden- en hogere niveaus. GPT-5.1 High houdt #6 vast. Het o3 redeneermodel op #11 blijft mijn go-to voor problemen op competitieniveau die diepe meerstapsberekeningen vereisen. GPT-5 High op #17, de standaard GPT-5.2 op #18, en o4-mini op #36 geven bouwers opties in elk prijsniveau en elke latentievereiste.
Het o-Serie Voordeel
OpenAI's toegewijde redeneermodellen (o3, o4-mini, o1, o3-mini) bezetten vier posities in de top 60. Voor problemen die uitgebreide berekeningen, het bewijzen van ongelijkheden, constraint satisfaction of combinatorische argumenten vereisen, blijft de aanpasbare denktijd van de o-serie uniek krachtig. Geen enkele andere aanbieder biedt dit niveau van controle over redeneerdiepte.
Vooruitkijkend geloof ik dat het antwoord van OpenAI snel zal komen. Het gat tussen GPT-5.2 High en Gemini 3 Pro is niet onoverkomelijk, en OpenAI's patroon is altijd geweest om agressief te itereren na het verliezen van terrein. Ik zou niet verbaasd zijn om een GPT-5.3 of een aanzienlijke redeneerupdate te zien voor de zomer. Het diepere verhaal hier is geen val. Het is dat de top van de Math Arena nu zo fel concurrerend is dat het vasthouden van #1 continue innovatie vereist, niet één enkele sterke release.
De Revolutie van Denkende Modellen
Scan de top 10 van deze ranglijst en tel hoeveel modelnamen het woord "thinking" (denkend) bevatten. Het antwoord is veelzeggend: Kimi K2.5 Thinking op #3, Claude Opus 4.5 Thinking op #7, Gemini 3 Flash thinking-minimal op #8, Claude Sonnet 4.5 Thinking op #10. Breid uit naar de top 20 en ze zijn overal. Dit is de grootste structurele verschuiving in wiskundige AI in het afgelopen jaar.
Deze modellen wijzen extra rekenkracht toe op het moment van inferentie om problemen stap voor stap door te werken voordat ze zich vastleggen op een antwoord. Het is het AI-equivalent van een wiskundige die naar kladpapier grijpt voordat hij het definitieve bewijs schrijft. De resultaten zijn ondubbelzinnig: denkende varianten presteren consequent beter dan hun standaard tegenhangers in wiskundige taken.
Anthropic's implementatie vertelt dit verhaal bijzonder goed. Claude Opus 4.5 Thinking-32k op #7 presteert beter dan de standaard Opus 4.5 op #5 wanneer hij ruimte krijgt om te redeneren. Claude Sonnet 4.5 Thinking op #10 slaat ver boven zijn gewichtsklasse en breekt door in de top 10 ondanks dat het qua ontwerp een middenklasse model is. Anthropic plaatst in totaal acht modellen in de top 60, en hun kenmerk blijft pedagogische helderheid. Wanneer ik een model nodig heb dat niet alleen een probleem oplost maar uitlegt waarom de oplossing werkt op een manier die een student echt zou kunnen leren, is Claude nog steeds ongeëvenaard.
Mijn voorspelling: tegen het einde van 2026 zal het onderscheid tussen "standaard" en "denkende" modellen verdwijnen. Elk model zal dynamisch redeneertijd toewijzen op basis van de complexiteit van het probleem. De huidige generatie expliciet gelabelde denkende varianten is een overgangsstap naar universeel adaptief redeneren.
De praktische conclusie is simpel: als nauwkeurigheid belangrijker is dan latentie, kies dan altijd de denkende variant. De wiskundige verbetering is consistent en reëel. Voor productietoepassingen waar responstijd cruciaal is, blijven standaardvarianten uitstekend. Maar voor onderzoek, onderwijs of elk scenario waar het verkrijgen van het juiste antwoord van het grootste belang is, zijn denkende modellen het heden en de toekomst.
Het Wereldwijde Wiskunde Landschap
Trek de camera terug en de geografie van deze ranglijst vertelt zijn eigen verhaal. Van de 60 gerankte modellen komen er 26 van Chinese organisaties. Dat is 43% van het hele veld. Amerikaanse laboratoria houden 32 plekken vast met 53%, en Mistral brengt Europese vertegenwoordiging met twee modellen. Wiskundige AI-capaciteit is nu echt multipolair, en die verschuiving is sneller versneld dan bijna iedereen had voorspeld.
DeepSeek valt op met acht modellen in de top 60, gelijk met Anthropic voor het op een na hoogste aantal na OpenAI. De v3.2-familie over posities #25, #26, #28 en #56 biedt een indrukwekkend bereik, terwijl de v3.1-serie en de in de strijd geteste DeepSeek R1 op #49 de middenniveaus vullen. Wat DeepSeek opmerkelijk maakt, is de kosten-capaciteitsverhouding. In mijn tests levert DeepSeek V3.2 top-30 wiskundige prestaties tegen ongeveer een vijfde van wat vlaggenschipmodellen vragen. Voor teams die op schaal werken met budgetbeperkingen, is die verhouding transformerend.
Alibaba's Qwen3-familie draagt zeven modellen bij, van Qwen3 Max Preview op #15 tot open-weight varianten die ontwikkelaars op hun eigen infrastructuur kunnen finetunen. Die open-weight strategie is belangrijk voor industrieën met vereisten voor datasoevereiniteit, en het is een doelbewust ecosysteemspel. xAI's Grok-familie plaatst zes modellen, geleid door Grok 4.1 Thinking op #13, dat elegante kortere wegen blijft vinden in bewijsstijlproblemen. Z.ai's GLM-serie houdt drie plekken vast, Baidu draagt drie ERNIE-varianten bij, en we zien inzendingen van Meituan en Tencent ook.
De diepte en breedte van deelname vertelt me waar wiskundige AI naartoe gaat: dit is niet langer een race tussen twee of drie koplopers. Het is een ecosysteem, en het ecosysteem wordt elke maand rijker. Geen enkel land, bedrijf of onderzoekstraditie kan meer aanspraak maken op een monopolie op wiskundig redeneren. En voor degenen onder ons die op deze tools bouwen, is die concurrentie het beste wat er kon gebeuren.
Mijn Veldgids
Na jaren van testen van deze modellen op alles van olympiade-problemen tot echte technische berekeningen, is hier de vraag die bouwers me blijven stellen: welk model moet ik eigenlijk gebruiken? Het eerlijke antwoord hangt volledig af van wat je bouwt.
Nauwkeurigheid op Onderzoeksniveau
Gemini 3 Pro op #1. Google's vlaggenschip leidt in ruwe wiskundige capaciteit. Mijn eerste keuze voor nieuwe problemen waarbij correctheid niet onderhandelbaar is.
Snelheid Zonder Opoffering
Gemini 3 Flash op #2. Nauwkeurigheid bijna op het podium met aanzienlijk lagere latentie en kosten. Perfect voor productie-wiskundepipelines die zowel kwaliteit als doorvoer nodig hebben.
Het Donkere Paard
Kimi K2.5 Thinking op #3. Moonshot's redeneerbenadering is opmerkelijk efficiënt. De moeite waard om serieus te verkennen als je dat nog niet hebt gedaan, met name voor problemen in competitiestijl.
Diepte van het Ecosysteem
OpenAI met twaalf modellen op elk niveau. De o-serie voor competitiewiskunde, GPT-5.x voor algemeen redeneren. Geen enkele andere aanbieder biedt dit bereik.
Beste Uitleg
Claude met acht modellen in de top 60. Wanneer begrijpen waarom een antwoord correct is net zo belangrijk is als het antwoord zelf. Ongeëvenaarde pedagogische helderheid.
Budget Kampioen
DeepSeek met acht modellen in de top 60. Top-30 capaciteit voor een fractie van de kosten. Essentieel voor teams die bouwen op schaal of in kostengevoelige omgevingen.
Er is geen enkele beste wiskundige AI. De winnende strategie in 2026 is orkestratie: Gemini voor nauwkeurigheid en snelheid op topniveau, OpenAI's o-serie voor diep redeneren, Claude voor uitlegbaarheid, DeepSeek en Kimi voor efficiëntie. Bouw je pipeline met meerdere aanbieders en je zult consequent beter presteren dan elk afzonderlijk model.
Gegevensbron: Ranglijsten van AI Arena Math Leaderboard, 6 februari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!