Matemaatilist arutluskäiku ei võida enam üks tšempion. Selle võidavad need, kes teavad, millal millist mudelit millise probleemi jaoks kasutada.
Värskendasin täna hommikul Matemaatika Areeni ja pidin kaks korda vaatama. Esimest korda pärast seda, kui hakkasin neid edetabeleid jälgima, ei istu OpenAI enam tipus. Google'i Gemini 3 Pro on haaranud krooni matemaatilises arutluskäigus, ja lugu läheb sealt edasi ainult kummalisemaks. Pekingis asuv idufirma nimega Moonshot maandus just poodiumile mudeliga, mida enamik lääne arendajaid pole isegi proovinud. Pärast nädalaid kestnud tippkonkurentide stressitestimist kõiges alates olümpiaadikombinatoorikast kuni magistritaseme reaalanalüüsini, siin on see, mida veebruari andmed meile räägivad sellest, kuhu matemaatiline AI tegelikult suundub.
Matemaatika Edetabel
Matemaatika jääb AI kõige ausamaks mõõdupuuks. Te ei saa sarmiga lahendada diferentsiaalvõrrandit ega hallutsineerida õiget tõestust. Vastus on õige või ei ole. See binaarne selgus on see, mis teeb Math Arenast mõõdupuu, mida ma kõige rohkem usaldan, kui hindan, kas mudel suudab tõesti arutleda. Siin on kõik 60 järjestatud mudelit seisuga veebruar 2026.
| Koht | Mudel | Skoor | Hääled | Organisatsioon |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google Võtab Krooni
Olen jälginud Google'i matemaatilise AI arengut kolm aastat ja see, mida nad sel kuul saavutasid, on midagi märkimisväärset. Gemini 3 Pro ei võtnud mitte ainult Kulda. See saabus selge edumaaga ülejäänud välja ees. Kuid tõeline jõudemonstratsioon? Gemini 3 Flash istub otse selle taga Hõbedal. Google hoiab nüüd Matemaatika Areenil samaaegselt nii Kulda kui ka Hõbedat. Seda pole kunagi varem juhtunud.
Mis teeb selle märkimisväärseks, ulatub edetabelitest kaugemale. See on arhitektuuristrateegia. Gemini 3 Pro on raskekaallane, ehitatud maksimaalse arutlussügavuse jaoks, selline mudel, mida kasutate teadustaseme tõestuste ja mitmeastmeliste tuletuste jaoks. Gemini 3 Flash on optimeeritud kiiruse ja kulude jaoks. Fakt, et kiirusele optimeeritud mudel suudab konkureerida Hõbeda tasemel, ütleb meile, et Google on lahendanud midagi fundamentaalset selles, kuidas muuta matemaatiline arutluskäik kiiremaks ilma täpsust ohverdamata. Mõtlemis-minimalistlik (thinking-minimal) variant 8. kohal pakub veel üht hinna ja jõudluse kompromissi, ja vanemad tööloomad nagu Gemini 2.5 Pro 12. kohal ja Gemini 2.5 Flash 46. kohal teenivad jätkuvalt usaldusväärselt.
Google paigutab kuus mudelit 60 parima hulka kolmes põlvkonnas ja mitmes hinnatasemes. Nad ei ehita ühte suurepärast matemaatikamudelit. Nad ehitavad tervet matemaatilise arutluskäigu virna, alates taskukohasest Flashist kuni lipulaeva Proni, mis kõik jagavad samu aluseks olevaid edusamme.
Minu ennustus: Google hoiab seda edumaad vähemalt 2026. aasta keskpaigani. Nende lähenemine matemaatilise arutluskäigu kinnistamisele põhivõimekusena kogu tootesarjas, selle asemel et koondada see ühte lipulaeva, maksab liitintressiga dividende. Kui ehitate midagi, mis nõuab usaldusväärset matemaatilist arvutamist, alates finantsmudeldamisest kuni teadusliku simulatsioonini, peaks Gemini olema praegu teie esimene valik.
Moonshot Üllatus
Siin on lugu, mida keegi kolm kuud tagasi ei kirjutanud. Moonshoti Kimi K2.5 Thinking on maandunud 3. kohale, jagades punkte Gemini 3 Flashiga Hõbeda positsiooni eest. Laske sellel kohale jõuda. Mudel idufirmalt, mis asutati 2023. aastal, on matemaatiliselt samal tasemel Google'i paremuselt teise pakkumisega.
Olen testinud Kimi K2.5 Thinkingut ulatuslikult ja mis mind rabab, on selle lähenemine laiendatud arutluskäigule. Seal, kus teised mõtlevad mudelid toodavad mõnikord sõnaohtraid mõtteahelaid, mis tiirlevad probleemi ümber enne maandumist, tundub Kimi arutluskäik peaaegu närvesöövalt otsene. See tuvastab matemaatilise tuumstruktuuri kiiresti ja ehitab seejärel lahenduse suunas minimaalsete kõrvalekalletega. Võistlusstiilis probleemide puhul, kus vajate nii täpsust kui ka puhast loogilist ahelat, on see otsesus tõeline eelis.
Moonshot paigutab kolm mudelit 60 parima hulka: Kimi K2.5 Thinking 3. kohal, Kimi K2 Thinking Turbo 16. kohal ja Kimi K2 39. kohal. Kolm taset, üks arhitektuurifilosoofia. Selline mitmetasandiline kohalolek idufirmalt on enneolematu. Sõnum on selge: ajastu, mil ainult triljoni dollari ettevõtted suutsid ehitada maailmatasemel matemaatilist AI-d, on läbi. Keskendunud teadusinvesteeringud arutluskäigu arhitektuuri võivad konkureerida massiivsete arvutus-eelarvetega. Oodake, et rohkem laboreid järgib seda käsikirja kogu 2026. aasta vältel.
OpenAI Pärast Trooni
Olgem otsekohesed. GPT-5.2 High, mis hoidis Kulda alates debüüdist, istub nüüd 4. kohal, jagades kohta Claude Opus 4.5-ga. Kroon on võetud. Kuid enne kui keegi nekroloogi kirjutab, vaadake täielikku pilti.
OpenAI paigutab endiselt kaksteist mudelit 60 parima hulka, rohkem kui ükski teine organisatsioon. See ei ole kriisis ettevõte. See on ettevõte, millel on selline ökosüsteemi sügavus, et isegi 1. koha kaotamine jätab nad domineerima keskmistel ja kõrgematel tasemetel. GPT-5.1 High hoiab 6. kohta. o3 arutlusmudel 11. kohal jääb minu valikuks võistlustaseme probleemide jaoks, mis nõuavad sügavat mitmeastmelist arvutust. GPT-5 High 17. kohal, standardne GPT-5.2 18. kohal ja o4-mini 36. kohal annavad ehitajatele valikuid igal hinnatasemel ja latentsusnõudega.
o-Seeria Eelis
OpenAI spetsiaalsed arutlusmudelid (o3, o4-mini, o1, o3-mini) hõivavad neli positsiooni 60 parima hulgas. Probleemide puhul, mis nõuavad laiendatud arvutust, ebavõrdsuste tõestamist, piirangute rahuldamist või kombinatoorseid argumente, jääb o-seeria reguleeritav mõtlemisaeg unikaalselt võimsaks. Ükski teine pakkuja ei paku sellist arutlussügavuse kontrolli taset.
Tulevikku vaadates usun, et OpenAI vastus tuleb kiiresti. Lõhe GPT-5.2 High ja Gemini 3 Pro vahel ei ole ületamatu, ja OpenAI muster on alati olnud agressiivselt itereerida pärast pinna kaotamist. Ma ei imestaks, kui näeksin GPT-5.3 või märkimisväärset arutluskäigu uuendust enne suve. Sügavam lugu siin ei ole langus. See on see, et Matemaatika Areeni tipp on nüüd nii ägedalt konkurentsitihe, et 1. koha hoidmine nõuab pidevat innovatsiooni, mitte ühte tugevat väljalaset.
Mõtlevate Mudelite Revolutsioon
Skaneerige selle edetabeli esikümmet ja lugege kokku, kui paljud mudelinimed sisaldavad sõna "thinking" (mõtlev). Vastus on kõnekas: Kimi K2.5 Thinking 3. kohal, Claude Opus 4.5 Thinking 7. kohal, Gemini 3 Flash thinking-minimal 8. kohal, Claude Sonnet 4.5 Thinking 10. kohal. Laiendage 20 parima hulka ja neid on igal pool. See on suurim üksik struktuurne muutus matemaatilises AI-s viimase aasta jooksul.
Need mudelid eraldavad järeldamise ajal täiendavat arvutusvõimsust, et töötada probleemid samm-sammult läbi enne vastusele pühendumist. See on AI ekvivalent matemaatikule, kes haarab mustandi paberilehe järele enne lõpliku tõestuse kirjutamist. Tulemused on ühemõttelised: mõtlevad variandid ületavad järjekindlalt oma standardseid vasteid matemaatilistes ülesannetes.
Anthropicu teostus räägib seda lugu eriti hästi. Claude Opus 4.5 Thinking-32k 7. kohal ületab standardse Opus 4.5 5. kohal, kui talle antakse ruumi arutleda. Claude Sonnet 4.5 Thinking 10. kohal lööb tunduvalt üle oma kaalukategooria, murdes esikümnesse vaatamata sellele, et on disainilt keskklassi mudel. Anthropic paigutab kokku kaheksa mudelit 60 parima hulka, ja nende tunnusjooneks jääb pedagoogiline selgus. Kui mul on vaja mudelit, mis mitte ainult ei lahenda probleemi, vaid selgitab, miks lahendus töötab viisil, millest õpilane võiks tõeliselt õppida, on Claude endiselt ületamatu.
Minu ennustus: 2026. aasta lõpuks kaob eristus "standardsete" ja "mõtlevate" mudelite vahel. Iga mudel eraldab arutlusaega dünaamiliselt vastavalt probleemi keerukusele. Praegune selgesõnaliselt märgistatud mõtlevate variantide põlvkond on üleminekusamm universaalselt kohanemisvõimelise arutluskäigu suunas.
Praktiline järeldus on lihtne: kui täpsus on olulisem kui latentsus, valige alati mõtlev variant. Matemaatiline tõus on järjekindel ja reaalne. Tootmisrakenduste jaoks, kus reageerimisaeg on kriitiline, jäävad standardsed variandid suurepäraseks. Kuid teadusuuringute, hariduse või mis tahes stsenaariumi puhul, kus õige vastuse saamine on esmatähtis, on mõtlevad mudelid olevik ja tulevik.
Globaalne Matemaatika Maastik
Tõmmake kaamera tagasi ja selle edetabeli geograafia räägib oma lugu. 60 järjestatud mudelist 26 pärineb Hiina organisatsioonidelt. See on 43% kogu väljast. Ameerika laborid hoiavad 32 kohta 53%-ga ja Mistral toob Euroopa esindatuse kahe mudeliga. Matemaatiline AI võimekus on nüüd tõeliselt mitmepooluseline, ja see nihe on kiirenenud kiiremini, kui peaaegu keegi ennustas.
DeepSeek paistab silma kaheksa mudeliga 60 parima hulgas, olles viigis Anthropicuga suuruselt teise arvu poolest pärast OpenAI-d. v3.2 perekond positsioonidel #25, #26, #28 ja #56 pakub muljetavaldavat valikut, samas kui v3.1 seeria ja lahingus testitud DeepSeek R1 49. kohal täidavad keskmised tasemed. Mis teeb DeepSeeki märkimisväärseks, on kulu-võimekuse suhe. Minu testimisel pakub DeepSeek V3.2 30 parima matemaatilist jõudlust umbes viiendiku eest sellest, mida lipulaevamudelid küsivad. Meeskondadele, kes tegutsevad suures mahus eelarvepiirangutega, on see suhe transformatiivne.
Alibaba Qwen3 perekond panustab seitsme mudeliga, alates Qwen3 Max Previewst 15. kohal kuni avatud kaaluga variantideni, mida arendajad saavad oma infrastruktuuris peenhäälestada. See avatud kaalu strateegia on oluline andmesuveräänsuse nõuetega tööstusharudele ja see on tahtlik ökosüsteemi mäng. xAI Grok perekond paigutab kuus mudelit, eesotsas Grok 4.1 Thinkinguga 13. kohal, mis jätkab elegantsete otseteede leidmist tõestusstiilis probleemides. Z.ai GLM seeria hoiab kolme kohta, Baidu panustab kolme ERNIE variandiga, ja näeme kirjeid ka Meituanilt ja Tencentilt.
Osalemise sügavus ja laius räägib mulle, kuhu matemaatiline AI suundub: see pole enam võistlus kahe või kolme esinumbri vahel. See on ökosüsteem, ja ökosüsteem muutub iga kuuga rikkamaks. Ükski riik, ettevõte ega uurimistraditsioon ei saa enam nõuda monopoli matemaatilisele arutluskäigule. Ja meile, kes me neile tööriistadele ehitame, on see konkurents parim asi, mis juhtuda sai.
Minu Välijuhend
Pärast aastatepikkust nende mudelite testimist kõiges alates olümpiaadiprobleemidest kuni reaalse maailma inseneriarvutusteni, on siin küsimus, mida ehitajad mulle pidevalt esitavad: millist mudelit peaksin tegelikult kasutama? Aus vastus sõltub täielikult sellest, mida ehitate.
Teadustaseme Täpsus
Gemini 3 Pro 1. kohal. Google'i lipulaev juhib toore matemaatilise võimekuse poolest. Minu esimene valik uute probleemide jaoks, kus õigsus ei ole läbiräägitav.
Kiirus Ilma Ohverdusteta
Gemini 3 Flash 2. kohal. Poodiumilähedane täpsus oluliselt madalama latentsuse ja kuludega. Ideaalne tootmise matemaatikatorustikele, mis vajavad nii kvaliteeti kui ka läbilaskevõimet.
Must Hobune
Kimi K2.5 Thinking 3. kohal. Moonshoti arutluslähenemine on märkimisväärselt tõhus. Väärt tõsist uurimist, kui te pole seda veel teinud, eriti võistlusstiilis probleemide jaoks.
Ökosüsteemi Sügavus
OpenAI kaheteistkümne mudeliga igal tasemel. o-seeria võistlusmatemaatika jaoks, GPT-5.x üldise arutluskäigu jaoks. Ükski teine pakkuja ei paku seda ulatust.
Parimad Selgitused
Claude kaheksa mudeliga 60 parima hulgas. Kui arusaamine, miks vastus on õige, loeb sama palju kui vastus ise. Ületamatu pedagoogiline selgus.
Eelarve Tšempion
DeepSeek kaheksa mudeliga 60 parima hulgas. Top-30 võimekus murdosa kuludega. Hädavajalik meeskondadele, kes ehitavad suures mahus või kulutundlikes keskkondades.
Ei ole ühte parimat matemaatilist AI-d. Võidustrateegia 2026. aastal on orkestreerimine: Gemini tipptasemel täpsuse ja kiiruse jaoks, OpenAI o-seeria sügava arutluskäigu jaoks, Claude seletatavuse jaoks, DeepSeek ja Kimi efektiivsuse jaoks. Ehitage oma torustik mitme pakkujaga ja te ületate järjekindlalt mis tahes üksikut mudelit.
Andmeallikas: Edetabelid AI Arena Math Leaderboardilt, 6. veebruar 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!