U matematičkom rasuđivanju više ne pobjeđuje jedan prvak. Pobjeđuju oni koji znaju kada koristiti koji model za koji problem.
Osvježio sam Math Arenu jutros i morao sam dvaput pogledati. Prvi put otkako sam počeo pratiti ove ljestvice, OpenAI više ne sjedi na vrhu. Googleov Gemini 3 Pro preuzeo je krunu u matematičkom rasuđivanju, a priča odatle postaje samo čudnija. Startup sa sjedištem u Pekingu pod nazivom Moonshot upravo je sletio na postolje s modelom koji većina zapadnih programera nije ni isprobala. Nakon tjedana stresnog testiranja najboljih kandidata na svemu, od olimpijske kombinatorike do realne analize na diplomskoj razini, evo što nam podaci iz veljače govore o tome kamo matematička AI zapravo ide.
Matematička Ljestvica
Matematika ostaje najiskrenije mjerilo u AI. Ne možete se šarmom probiti kroz diferencijalnu jednadžbu ili halucinirati točan dokaz. Odgovor je točan ili nije. Ta binarna jasnoća je ono što čini Math Arenu mjerilom kojem najviše vjerujem kada procjenjujem može li model doista rasuđivati. Ovdje je svih 60 rangiranih modela od veljače 2026.
| Rang | Model | Rezultat | Glasovi | Organizacija |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google Preuzima Krunu
Promatrao sam evoluciju Googleove matematičke AI tri godine, a ono što su postigli ovog mjeseca nije ništa drugo nego izvanredno. Gemini 3 Pro nije samo uzeo Zlato. Stigao je s jasnom prednošću nad ostatkom polja. Ali pravi potez moći? Gemini 3 Flash sjedi odmah iza njega na Srebru. Google sada istovremeno drži Zlato i Srebro u Math Areni. To se nikada prije nije dogodilo.
Ono što ovo čini značajnim nadilazi rangiranje. To je strategija arhitekture. Gemini 3 Pro je teškaš, izgrađen za maksimalnu dubinu rasuđivanja, vrsta modela koju usmjeravate na dokaze istraživačke razine i izvođenja u više koraka. Gemini 3 Flash optimiziran je za brzinu i troškove. Činjenica da se model optimiziran za brzinu može natjecati na Srebrnoj razini govori nam da je Google riješio nešto temeljno o tome kako učiniti matematičko rasuđivanje bržim bez žrtvovanja točnosti. Varijanta minimalnog razmišljanja (thinking-minimal) na broju 8 nudi još jedan kompromis cijene i performansi, a stariji radni konji poput Gemini 2.5 Pro na broju 12 i Gemini 2.5 Flash na broju 46 nastavljaju pouzdano služiti.
Google postavlja šest modela u top 60 kroz tri generacije i više cjenovnih razreda. Ne grade jedan sjajan matematički model. Grade cijeli stog matematičkog rasuđivanja, od pristupačnog Flasha do vodećeg Pro modela, koji svi dijele isti temeljni napredak.
Moje predviđanje: Google će zadržati ovo vodstvo barem do sredine 2026. Njihov pristup ugradnje matematičkog rasuđivanja kao osnovne sposobnosti u cijelu liniju proizvoda, umjesto da ga koncentriraju u jednoj perjanici, isplaćuje složene dividende. Ako gradite bilo što što zahtijeva pouzdano matematičko računanje, od financijskog modeliranja do znanstvene simulacije, Gemini bi vam sada trebao biti prvi poziv.
Iznenađenje Moonshot
Ovo je priča koju nitko nije pisao prije tri mjeseca. Moonshotov Kimi K2.5 Thinking sletio je na #3, izjednačen po bodovima s Gemini 3 Flashom za Srebrnu poziciju. Neka to sjedne. Model startupa osnovanog 2023. godine matematički je na razini s drugom najboljom ponudom Googlea.
Opsežno sam testirao Kimi K2.5 Thinking, i ono što me pogađa je njegov pristup proširenom rasuđivanju. Tamo gdje drugi modeli razmišljanja ponekad proizvode opširne lance misli koji kruže oko problema prije nego što slete, Kimijevo rasuđivanje djeluje gotovo uznemirujuće izravno. Brzo identificira temeljnu matematičku strukturu, a zatim gradi prema rješenju uz minimalna odstupanja. Za probleme u stilu natjecanja gdje trebate i točnost i čist logički lanac, ta izravnost je istinska prednost.
Moonshot postavlja tri modela u top 60: Kimi K2.5 Thinking na #3, Kimi K2 Thinking Turbo na #16 i Kimi K2 na #39. Tri razine, jedna filozofija arhitekture. Ova vrsta prisutnosti na više razina od strane startupa je bez presedana. Poruka je jasna: era kada su samo tvrtke od trilijun dolara mogle izgraditi matematičku AI svjetske klase je gotova. Usmjereno istraživačko ulaganje u arhitekturu rasuđivanja može se natjecati s ogromnim proračunima za izračun. Očekujte da će više laboratorija slijediti ovaj priručnik tijekom 2026.
OpenAI Nakon Prijestolja
Dopustite mi da budem izravan. GPT-5.2 High, koji je držao Zlato od svog debija, sada sjedi na #4, izjednačen s Claude Opus 4.5. Kruna je oduzeta. Ali prije nego što itko napiše osmrtnicu, pogledajte cijelu sliku.
OpenAI još uvijek postavlja dvanaest modela u top 60, više od bilo koje druge organizacije. To nije tvrtka u krizi. To je tvrtka s tolikom dubinom ekosustava da je čak i gubitak 1. mjesta ostavlja dominantnom na srednjim i višim razinama. GPT-5.1 High drži #6. o3 model rasuđivanja na #11 ostaje moj izbor za probleme na natjecateljskoj razini koji zahtijevaju duboko izračunavanje u više koraka. GPT-5 High na #17, standardni GPT-5.2 na #18 i o4-mini na #36 daju graditeljima opcije u svakoj cjenovnoj razini i zahtjevu za latencijom.
Prednost o-Serije
OpenAI-evi namjenski modeli rasuđivanja (o3, o4-mini, o1, o3-mini) zauzimaju četiri pozicije u top 60. Za probleme koji zahtijevaju prošireno izračunavanje, dokazivanje nejednakosti, zadovoljavanje ograničenja ili kombinatorne argumente, podesivo vrijeme razmišljanja o-serije ostaje jedinstveno moćno. Niti jedan drugi pružatelj ne nudi ovu razinu kontrole dubine rasuđivanja.
Gledajući unaprijed, vjerujem da će odgovor OpenAI-a doći brzo. Jaz između GPT-5.2 High i Gemini 3 Pro nije nepremostiv, a obrazac OpenAI-a uvijek je bio agresivno ponavljanje nakon gubitka tla. Ne bih se iznenadio da vidim GPT-5.3 ili značajno ažuriranje rasuđivanja prije ljeta. Dublja priča ovdje nije pad. To je da je vrh Math Arene sada toliko žestoko konkurentan da držanje 1. mjesta zahtijeva stalnu inovaciju, a ne jedno snažno izdanje.
Revolucija Modela Razmišljanja
Skenirajte prvih 10 ove ljestvice i izbrojite koliko imena modela uključuje riječ "thinking" (razmišljanje). Odgovor je rječit: Kimi K2.5 Thinking na #3, Claude Opus 4.5 Thinking na #7, Gemini 3 Flash thinking-minimal na #8, Claude Sonnet 4.5 Thinking na #10. Proširite na prvih 20 i oni su posvuda. Ovo je najveća pojedinačna strukturna promjena u matematičkoj AI tijekom prošle godine.
Ovi modeli dodjeljuju dodatno izračunavanje u vrijeme zaključivanja kako bi riješili probleme korak po korak prije nego što se obvežu na odgovor. To je AI ekvivalent matematičara koji poseže za papirom za bilješke prije nego što napiše konačni dokaz. Rezultati su nedvosmisleni: varijante razmišljanja dosljedno nadmašuju svoje standardne pandane u matematičkim zadacima.
Anthropicova implementacija posebno dobro priča ovu priču. Claude Opus 4.5 Thinking-32k na #7 nadmašuje standardni Opus 4.5 na #5 kada mu se da prostora za rasuđivanje. Claude Sonnet 4.5 Thinking na #10 udara znatno iznad svoje težinske kategorije, probijajući se u prvih 10 unatoč tome što je model srednje razine po dizajnu. Anthropic postavlja ukupno osam modela u top 60, a njihov zaštitni znak ostaje pedagoška jasnoća. Kada trebam model koji ne samo rješava problem, već objašnjava zašto rješenje funkcionira na način na koji bi student mogao istinski naučiti, Claude je i dalje bez premca.
Moje predviđanje: do kraja 2026. razlika između "standardnih" i "thinking" modela će nestati. Svaki model će dinamički dodjeljivati vrijeme rasuđivanja na temelju složenosti problema. Trenutna generacija eksplicitno označenih varijanti razmišljanja prijelazni je korak prema univerzalno prilagodljivom rasuđivanju.
Praktični zaključak je jednostavan: ako je točnost važnija od latencije, uvijek odaberite varijantu razmišljanja. Matematički porast je dosljedan i stvaran. Za proizvodne aplikacije gdje je vrijeme odziva kritično, standardne varijante ostaju izvrsne. Ali za istraživanje, obrazovanje ili bilo koji scenarij gdje je dobivanje točnog odgovora najvažnije, modeli razmišljanja su sadašnjost i budućnost.
Globalni Matematički Krajolik
Povucite kameru natrag i geografija ove ljestvice priča vlastitu priču. Od 60 rangiranih modela, 26 dolazi iz kineskih organizacija. To je 43% cijelog polja. Američki laboratoriji drže 32 mjesta s 53%, a Mistral donosi europsko predstavljanje s dva modela. Sposobnost matematičke AI sada je istinski multipolarna, a taj se pomak ubrzao brže nego što je itko predvidio.
DeepSeek se ističe s osam modela u top 60, izjednačen s Anthropicom za drugi najveći broj nakon OpenAI-a. Obitelj v3.2 na pozicijama #25, #26, #28 i #56 nudi impresivan raspon, dok serija v3.1 i borbeno testirani DeepSeek R1 na #49 popunjavaju srednje razine. Ono što DeepSeek čini izvanrednim je omjer cijene i sposobnosti. U mom testiranju, DeepSeek V3.2 isporučuje matematičke performanse top-30 za otprilike petinu onoga što naplaćuju vodeći modeli. Za timove koji rade u velikim razmjerima s proračunskim ograničenjima, taj omjer je transformativan.
Alibabina obitelj Qwen3 doprinosi sa sedam modela, od Qwen3 Max Preview na #15 pa sve do varijanti otvorenih težina koje programeri mogu fino podesiti na vlastitoj infrastrukturi. Ta strategija otvorenih težina važna je za industrije sa zahtjevima suverenosti podataka i to je namjerna igra ekosustava. xAI-jeva obitelj Grok postavlja šest modela, predvođena Grok 4.1 Thinking na #13, koji nastavlja pronalaziti elegantne prečace u problemima stila dokaza. Z.ai-jeva serija GLM drži tri mjesta, Baidu doprinosi s tri ERNIE varijante, a vidimo i unose od Meituana i Tencenta također.
Dubina i širina sudjelovanja govore mi kamo matematička AI ide: ovo više nije utrka između dva ili tri predvodnika. To je ekosustav, a ekosustav postaje bogatiji iz mjeseca u mjesec. Nijedna pojedinačna država, tvrtka ili istraživačka tradicija više ne može polagati pravo na monopol na matematičko rasuđivanje. A za nas koji gradimo na tim alatima, to natjecanje je najbolja stvar koja se mogla dogoditi.
Moj Terenski Vodič
Nakon godina testiranja ovih modela na svemu, od olimpijskih problema do inženjerskih izračuna u stvarnom svijetu, evo pitanja koje mi graditelji stalno postavljaju: koji model bih zapravo trebao koristiti? Iskren odgovor u potpunosti ovisi o tome što gradite.
Točnost na Razini Istraživanja
Gemini 3 Pro na #1. Googleova perjanica vodi u sirovoj matematičkoj sposobnosti. Moj prvi izbor za nove probleme gdje o ispravnosti nema pregovora.
Brzina Bez Žrtvovanja
Gemini 3 Flash na #2. Točnost blizu postolja uz znatno nižu latenciju i cijenu. Savršeno za produkcijske matematičke cjevovode koji trebaju i kvalitetu i propusnost.
Tamni Konj
Kimi K2.5 Thinking na #3. Moonshotov pristup rasuđivanju je izvanredno učinkovit. Vrijedno ozbiljnog istraživanja ako još niste, posebno za probleme u stilu natjecanja.
Dubina Ekosustava
OpenAI s dvanaest modela na svakoj razini. o-serija za natjecateljsku matematiku, GPT-5.x za opće rasuđivanje. Niti jedan drugi pružatelj ne nudi ovaj raspon.
Najbolja Objašnjenja
Claude s osam modela u top 60. Kada je razumijevanje zašto je odgovor točan jednako važno kao i sam odgovor. Neprecađena pedagoška jasnoća.
Prvak Proračuna
DeepSeek s osam modela u top 60. Sposobnost top 30 za djelić cijene. Ključno za timove koji grade u velikim razmjerima ili u okruženjima osjetljivim na troškove.
Ne postoji jedna najbolja matematička AI. Pobjednička strategija u 2026. je orkestracija: Gemini za vrhunsku točnost i brzinu, OpenAI-jeva o-serija za duboko rasuđivanje, Claude za objašnjivost, DeepSeek i Kimi za učinkovitost. Izgradite svoj cjevovod s više pružatelja usluga i dosljedno ćete nadmašiti bilo koji pojedinačni model.
Izvor Podataka: Ljestvice s AI Arena Math Leaderboard, 6. veljače 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!