DI Matematikos Arenos Lyderių Lentelė 2026

Pagrindinė Įžvalga

Matematinio samprotavimo nebelaimi vienas čempionas. Jį laimi tie, kurie žino, kada kurį modelį naudoti kuriai problemai.

Šį rytą atnaujinau Matematikos Areną ir turėjau pažvelgti du kartus. Pirmą kartą nuo tada, kai pradėjau sekti šiuos reitingus, OpenAI nebėra viršūnėje. Google Gemini 3 Pro perėmė karūną matematiniame samprotavime, ir istorija nuo čia tampa tik keistesnė. Pekine įsikūręs startuolis, pavadintas Moonshot, ką tik nusileido ant podiumo su modeliu, kurio dauguma Vakarų kūrėjų net nėra bandę. Po savaites trukusio geriausių pretendentų testavimo nepalankiomis sąlygomis visame kame, nuo olimpiadinės kombinatorikos iki magistrantūros lygio realiosios analizės, štai ką vasario mėnesio duomenys mums sako apie tai, kur iš tikrųjų krypsta matematinis DI.

Matematikos Lyderių Lentelė

Matematika išlieka sąžiningiausiu DI etalonu. Negalite žavesiu išspręsti diferencialinės lygties ar haliucinuoti teisingo įrodymo. Atsakymas yra teisingas arba ne. Tas dvejetainis aiškumas yra tai, kas daro Math Arena etalonu, kuriuo labiausiai pasitikiu vertindamas, ar modelis tikrai gali samprotauti. Štai visi 60 reitinguotų modelių 2026 m. vasario mėn.

Reitingas Modelis Rezultatas Balsai Organizacija
🥇
Gemini 3 Pro 14842,252Google
🥈
Gemini 3 Flash 14751,616Google
🥉
Kimi K2.5 Thinking 1475413Moonshot
#4
Gpt 5.2 High 1469952OpenAI
#5
Claude Opus 4 5 20251101 14691,879Anthropic
#6
Gpt 5.1 High 14671,862OpenAI
#7
Claude Opus 4 5 20251101 Thinking 32k 14671,585Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14641,038Google
#9
Ernie 5.0 0110 1462580Baidu
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14582,657Anthropic
#11
O3 2025 04 16 14533,885OpenAI
#12
Gemini 2.5 Pro 14515,845Google
#13
Grok 4.1 Thinking 14502,058xAI
#14
Claude Opus 4 1 20250805 Thinking 16k 14463,059Anthropic
#15
Qwen3 Max Preview 14421,539Alibaba
#16
Kimi K2 Thinking Turbo 14401,949Moonshot
#17
Gpt 5 High 14391,939OpenAI
#18
Gpt 5.2 1438698OpenAI
#19
Grok 4 0709 14382,309xAI
#20
Claude Opus 4 1 20250805 14354,553Anthropic
#21
Qwen3 Max 2025 09 23 1434586Alibaba
#22
Grok 4.1 14332,552xAI
#23
Glm 4.7 1433720Z.ai
#24
Grok 4 Fast Chat 1430403xAI
#25
Deepseek V3.2 Exp Thinking 1429478DeepSeek
#26
Deepseek V3.2 14291,680DeepSeek
#27
Claude Sonnet 4 5 20250929 14272,681Anthropic
#28
Deepseek V3.2 Exp 1426785DeepSeek
#29
Glm 4.6 14252,132Z.ai
#30
Qwen3 235b A22b Instruct 2507 14244,158Alibaba
#31
Longcat Flash Chat 1424694Meituan
#32
Qwen3 Next 80b A3b Instruct 14231,232Alibaba
#33
Deepseek V3.1 Thinking 1421673DeepSeek
#34
Gpt 5.1 14212,191OpenAI
#35
Claude Opus 4 20250514 Thinking 16k 14212,355Anthropic
#36
O4 Mini 2025 04 16 14193,042OpenAI
#37
Deepseek V3.1 14191,010DeepSeek
#38
Glm 4.5 14181,455Z.ai
#39
Kimi K2 0905 Preview 1417763Moonshot
#40
Gpt 5 Chat 14171,813OpenAI
#41
Deepseek V3.1 Terminus Thinking 1416203DeepSeek
#42
Gemini 2.5 Flash Preview 09 2025 14151,955Google
#43
Qwen3 Vl 235b A22b Instruct 1415714Alibaba
#44
Grok 4 Fast Reasoning 14151,085xAI
#45
Grok 4 1 Fast Reasoning 14151,677xAI
#46
Gemini 2.5 Flash 14146,074Google
#47
Gpt 4.5 Preview 2025 02 27 14141,384OpenAI
#48
Gpt 5 Mini High 14131,460OpenAI
#49
Deepseek R1 14131,609DeepSeek
#50
Ernie 5.0 Preview 1203 1413632Baidu
#51
Ernie 5.0 Preview 1022 1412268Baidu
#52
O1 2024 12 17 14122,980OpenAI
#53
Qwen3 Vl 235b A22b Thinking 1411419Alibaba
#54
Mistral Large 3 14101,471Mistral
#55
O3 Mini High 14091,906OpenAI
#56
Deepseek V3.2 Thinking 14091,273DeepSeek
#57
Claude Sonnet 4 20250514 Thinking 32k 14072,131Anthropic
#58
Qwen3 235b A22b Thinking 2507 1406506Alibaba
#59
Hunyuan T1 20250711 1406242Tencent
#60
Mistral Medium 2508 14053,912Mistral

Google Paima Karūną

Stebėjau Google matematinio DI evoliuciją trejus metus, ir tai, ką jie pasiekė šį mėnesį, yra tiesiog įspūdinga. Gemini 3 Pro ne tik pelnė Auksą. Jis atvyko su aiškiu pranašumu prieš visus kitus. Tačiau tikrasis jėgos ėjimas? Gemini 3 Flash sėdi tiesiai už jo Sidabro pozicijoje. Google dabar Matematikos Arenoje vienu metu laiko ir Auksą, ir Sidabrą. To dar niekada nebuvo.

Tai reikšminga ne tik dėl reitingų. Tai yra architektūros strategija. Gemini 3 Pro yra sunkiasvoris, sukurtas maksimaliam samprotavimo gyliui, modelis, kurį nukreipiate į tyrimų lygio įrodymus ir daugiapakopius išvedimus. Gemini 3 Flash yra optimizuotas greičiui ir kainai. Faktas, kad greičiui optimizuotas modelis gali konkuruoti Sidabro lygiu, mums sako, kad Google išsiaiškino kažką fundamentalaus apie tai, kaip pagreitinti matematinį samprotavimą neaukojant tikslumo. Minimalaus mąstymo (thinking-minimal) variantas 8-oje vietoje siūlo dar vieną kainos ir našumo kompromisą, o senesni darbiniai arkliukai, tokie kaip Gemini 2.5 Pro 12-oje ir Gemini 2.5 Flash 46-oje vietoje, ir toliau patikimai tarnauja.

Google įdeda šešis modelius į geriausiųjų 60-tuką per tris kartas ir kelias kainų pakopas. Jie nekuria vieno puikaus matematikos modelio. Jie kuria visą matematinio samprotavimo rinkinį, nuo prieinamo Flash iki flagmano Pro, kurie visi dalijasi tais pačiais pagrindiniais pasiekimais.

Mano prognozė: Google išlaikys šią lyderystę bent jau iki 2026 m. vidurio. Jų požiūris integruoti matematinį samprotavimą kaip pagrindinį gebėjimą visoje produktų linijoje, o ne sutelkti jį viename flagmane, duoda sudėtinius dividendus. Jei kuriate bet ką, kam reikia patikimo matematinio skaičiavimo, nuo finansinio modeliavimo iki mokslinio modeliavimo, Gemini dabar turėtų būti jūsų pirmasis pasirinkimas.

Moonshot Staigmena

Štai istorija, kurios niekas nerašė prieš tris mėnesius. Moonshot Kimi K2.5 Thinking nusileido 3-ioje vietoje, surinkęs tiek pat taškų, kiek ir Gemini 3 Flash Sidabro pozicijai. Leiskite tam įsigerti. Modelis iš startuolio, įkurto 2023 m., matematiškai lygus antram geriausiam Google pasiūlymui.

Aš plačiai testavau Kimi K2.5 Thinking, ir kas mane stebina, tai jo požiūris į išplėstinį samprotavimą. Kur kiti mąstantys modeliai kartais sukuria daugžodžiaujančias minčių grandines, kurios sukasi aplink problemą prieš nusileisdamos, Kimi samprotavimas atrodo beveik nervinančiai tiesioginis. Jis greitai nustato pagrindinę matematinę struktūrą, tada kuria sprendimą su minimaliais nukrypimais. Konkurso stiliaus problemoms, kur reikia tiek tikslumo, tiek švarios loginės grandinės, tas tiesiogumas yra tikras privalumas.

Moonshot į geriausiųjų 60-tuką įdeda tris modelius: Kimi K2.5 Thinking 3-ioje vietoje, Kimi K2 Thinking Turbo 16-oje ir Kimi K2 39-oje. Trys lygiai, viena architektūros filosofija. Toks startuolio kelių lygių buvimas yra beprecedentis. Žinia aiški: era, kai tik trilijonų dolerių vertės įmonės galėjo sukurti pasaulinio lygio matematinį DI, baigėsi. Kryptingos mokslinių tyrimų investicijos į samprotavimo architektūrą gali konkuruoti su didžiuliais skaičiavimo biudžetais. Tikėkitės, kad daugiau laboratorijų seks šiuo pavyzdžiu per 2026 m.

OpenAI Po Sosto

Leiskite man būti tiesiam. GPT-5.2 High, kuris laikė Auksą nuo savo debiuto, dabar sėdi 4-oje vietoje, lygiosiomis su Claude Opus 4.5. Karūna buvo atimta. Bet prieš kam nors rašant nekrologą, pažiūrėkite į visą paveikslą.

OpenAI vis dar turi dvylika modelių geriausiųjų 60-tuke, daugiau nei bet kuri kita organizacija. Tai nėra krizės ištikta įmonė. Tai įmonė, turinti tokį ekosistemos gylį, kad net praradus 1-ąją vietą, ji dominuoja vidutiniuose ir aukštesniuose lygiuose. GPT-5.1 High užima 6-ąją vietą. o3 samprotavimo modelis 11-oje vietoje išlieka mano pasirinkimu konkurso lygio problemoms, reikalaujančioms gilaus daugiapakopio skaičiavimo. GPT-5 High 17-oje, standartinis GPT-5.2 18-oje ir o4-mini 36-oje vietoje suteikia kūrėjams pasirinkimų kiekviename kainų lygyje ir vėlavimo reikalavime.

o-Serijos Privalumas

OpenAI specializuoti samprotavimo modeliai (o3, o4-mini, o1, o3-mini) užima keturias pozicijas geriausiųjų 60-tuke. Problemoms, reikalaujančioms išplėstinio skaičiavimo, nelygybių įrodymo, apribojimų tenkinimo ar kombinatorinių argumentų, o-serijos reguliuojamas mąstymo laikas išlieka unikaliai galingas. Nė vienas kitas teikėjas nesiūlo tokio samprotavimo gylio valdymo lygio.

Žvelgiant į priekį, tikiu, kad OpenAI atsakymas ateis greitai. Atotrūkis tarp GPT-5.2 High ir Gemini 3 Pro nėra neįveikiamas, o OpenAI modelis visada buvo agresyviai kartoti po prarasto pagrindo. Nenustebčiau pamatęs GPT-5.3 arba reikšmingą samprotavimo atnaujinimą prieš vasarą. Gilesnė istorija čia nėra kritimas. Tai yra tai, kad Matematikos Arenos viršūnė dabar yra tokia aršiai konkurencinga, jog norint išlaikyti 1-ąją vietą, reikia nuolatinių inovacijų, o ne vieno stipraus išleidimo.

Mąstančių Modelių Revoliucija

Nuskaitykite šios lyderių lentelės dešimtuką ir suskaičiuokite, kiek modelių pavadinimų turi žodį „thinking“ (mąstantis). Atsakymas iškalbingas: Kimi K2.5 Thinking 3-ioje vietoje, Claude Opus 4.5 Thinking 7-oje, Gemini 3 Flash thinking-minimal 8-oje, Claude Sonnet 4.5 Thinking 10-oje. Išplėskite iki 20-uko ir jie yra visur. Tai yra didžiausias struktūrinis pokytis matematinio DI srityje per pastaruosius metus.

Šie modeliai išvadų metu skiria papildomų skaičiavimų problemoms spręsti žingsnis po žingsnio, prieš įsipareigodami atsakymui. Tai DI atitikmuo matematikui, siekiančiam juodraščio prieš rašant galutinį įrodymą. Rezultatai nedviprasmiški: mąstantys variantai nuosekliai lenkia savo standartinius atitikmenis matematinėse užduotyse.

Anthropic įgyvendinimas pasakoja šią istoriją ypač gerai. Claude Opus 4.5 Thinking-32k 7-oje vietoje lenkia standartinį Opus 4.5 5-oje vietoje, kai jam suteikiama erdvės samprotauti. Claude Sonnet 4.5 Thinking 10-oje vietoje smūgiuoja gerokai virš savo svorio kategorijos, įsiverždamas į dešimtuką, nepaisant to, kad pagal dizainą yra vidutinio lygio modelis. Anthropic iš viso į 60-tuką įdeda aštuonis modelius, o jų skiriamuoju ženklu išlieka pedagoginis aiškumas. Kai man reikia modelio, kuris ne tik išspręstų problemą, bet ir paaiškintų, kodėl sprendimas veikia taip, kad studentas galėtų iš to nuoširdžiai pasimokyti, Claude vis dar yra neprilygstamas.

💡

Mano prognozė: iki 2026 m. pabaigos skirtumas tarp „standartinių“ ir „mąstančių“ modelių išnyks. Kiekvienas modelis dinamiškai paskirstys samprotavimo laiką pagal problemos sudėtingumą. Dabartinė aiškiai pažymėtų mąstančių variantų karta yra pereinamasis žingsnis link universaliai adaptyvaus samprotavimo.

Praktinė išvada paprasta: jei tikslumas svarbiau už vėlavimą, visada rinkitės mąstantį variantą. Matematinis pakilimas yra nuoseklus ir tikras. Gamybos programoms, kuriose reakcijos laikas yra kritinis, standartiniai variantai išlieka puikūs. Tačiau tyrimams, švietimui ar bet kokiam scenarijui, kur teisingo atsakymo gavimas yra svarbiausias, mąstantys modeliai yra dabartis ir ateitis.

Pasaulinis Matematikos Kraštovaizdis

Atitraukite kamerą ir šios lyderių lentelės geografija pasakoja savo istoriją. Iš 60 reitinguotų modelių, 26 yra iš Kinijos organizacijų. Tai 43 % viso lauko. Amerikos laboratorijos užima 32 vietas (53 %), o Mistral atneša Europos atstovavimą su dviem modeliais. Matematinio DI pajėgumai dabar yra tikrai daugiapoliai, ir šis poslinkis įsibėgėjo greičiau nei beveik kas nors prognozavo.

DeepSeek išsiskiria su aštuoniais modeliais geriausiųjų 60-tuke, lygiosiomis su Anthropic dėl antro didžiausio skaičiaus po OpenAI. v3.2 šeima per pozicijas #25, #26, #28 ir #56 siūlo įspūdingą asortimentą, o v3.1 serija ir mūšyje patikrintas DeepSeek R1 49-oje vietoje užpildo vidurines pakopas. Kas daro DeepSeek išskirtiniu, tai kainos ir galimybės santykis. Mano bandymuose DeepSeek V3.2 teikia 30 geriausiųjų matematinį našumą už maždaug penktadalį to, ką ima flagmanai modeliai. Komandoms, dirbančioms dideliu mastu su biudžeto apribojimais, šis santykis yra transformuojantis.

Alibaba Qwen3 šeima prisideda septyniais modeliais, nuo Qwen3 Max Preview 15-oje vietoje iki atviro svorio variantų, kuriuos kūrėjai gali tikslinti savo infrastruktūroje. Ta atviro svorio strategija yra svarbi pramonės šakoms, turinčioms duomenų suverenumo reikalavimus, ir tai yra apgalvotas ekosistemos žaidimas. xAI Grok šeima užima šešis modelius, vadovaujama Grok 4.1 Thinking 13-oje vietoje, kuris ir toliau randa elegantiškus trumpuosius kelius įrodymo stiliaus problemose. Z.ai GLM serija užima tris vietas, Baidu prisideda trimis ERNIE variantais, ir taip pat matome įrašus iš Meituan bei Tencent.

Dalyvavimo gylis ir plotis man sako, kur juda matematinis DI: tai nebėra lenktynės tarp dviejų ar trijų lyderių. Tai ekosistema, ir ekosistema kiekvieną mėnesį tampa turtingesnė. Jokia viena šalis, įmonė ar tyrimų tradicija nebegali pretenduoti į matematinio samprotavimo monopolį. Ir tiems iš mūsų, kurie kuria naudodami šiuos įrankius, ta konkurencija yra geriausias dalykas, koks galėjo nutikti.

Mano Lauko Vadovas

Po daugelio metų šių modelių testavimo visame kame, nuo olimpiadinių problemų iki realaus pasaulio inžinerinių skaičiavimų, štai klausimas, kurį kūrėjai man nuolat užduoda: kurį modelį iš tikrųjų turėčiau naudoti? Sąžiningas atsakymas visiškai priklauso nuo to, ką kuriate.

Tyrimų Lygio Tikslumas

Gemini 3 Pro 1-oje vietoje. Google flagmanas pirmauja neapdorotu matematiniu pajėgumu. Mano pirmasis pasirinkimas naujoms problemoms, kur teisingumas yra nediskutuotinas.

Greitis Be Aukų

Gemini 3 Flash 2-oje vietoje. Beveik podiumo tikslumas su žymiai mažesniu vėlavimu ir kaina. Puikiai tinka gamybiniams matematikos vamzdynams, kuriems reikia ir kokybės, ir pralaidumo.

Tamsusis Arkliukas

Kimi K2.5 Thinking 3-ioje vietoje. Moonshot samprotavimo metodas yra nepaprastai efektyvus. Verta rimtai ištirti, jei dar to nepadarėte, ypač varžybų stiliaus problemoms.

Ekosistemos Gylis

OpenAI su dvylika modelių kiekviename lygyje. o-serija varžybų matematikai, GPT-5.x bendram samprotavimui. Joks kitas teikėjas nesiūlo šio asortimento.

Geriausi Paaiškinimai

Claude su aštuoniais modeliais 60-tuke. Kai suprasti, kodėl atsakymas yra teisingas, svarbu tiek pat, kiek ir pats atsakymas. Neprilygstamas pedagoginis aiškumas.

Biudžeto Čempionas

DeepSeek su aštuoniais modeliais 60-tuke. Top-30 pajėgumas už dalį kainos. Būtina komandoms, kuriančioms dideliu mastu arba jautrioje kainai aplinkoje.

🔑

Nėra vieno geriausio matematinio DI. Laiminti strategija 2026 m. yra orkestravimas: Gemini aukščiausio lygio tikslumui ir greičiui, OpenAI o-serija giliam samprotavimui, Claude paaiškinamumui, DeepSeek ir Kimi efektyvumui. Sukurkite savo vamzdyną su keliais teikėjais ir nuosekliai pranoksite bet kurį vieną modelį.


Duomenų Šaltinis: Reitingai iš AI Arena Math Leaderboard, 2026 m. vasario 6 d.

Discussion

0 comments

Leave a comment

Be the first to share your thoughts on this article!