Matemaattista päättelyä ei enää voiteta yhdellä mestarilla. Sen voittavat ne, jotka tietävät milloin käyttää mitäkin mallia mihinkin ongelmaan.
Päivitin Math Arenan tänä aamuna ja jouduin katsomaan kahdesti. Ensimmäistä kertaa sen jälkeen, kun aloin seurata näitä sijoituksia, OpenAI ei enää istu huipulla. Googlen Gemini 3 Pro on kaapannut kruunun matemaattisessa päättelyssä, ja tarina muuttuu siitä vain oudommaksi. Pekingiläinen startup nimeltä Moonshot on juuri laskeutunut palkintokorokkeelle mallilla, jota useimmat länsimaiset kehittäjät eivät ole edes kokeilleet. Viikkojen rasitustestien jälkeen, joissa huippukilpailijat testattiin kaikessa olympialaiskombinatoriikasta jatko-opintotason reaalianalyysiin, tässä on mitä helmikuun data kertoo meille siitä, mihin matemaattinen tekoäly on todella menossa.
Matematiikan tulostaulukko
Matematiikka pysyy tekoälyn rehellisimpänä mittapuuna. Et voi hurmata tietäsi differentiaaliyhtälön läpi tai hallusinoida oikeaa todistusta. Vastaus on oikein tai se ei ole. Tämä binäärinen selkeys tekee Math Arenasta mittapuun, johon luotan eniten arvioidessani, pystyykö malli todella päättelemään. Tässä ovat kaikki 60 sijoittunutta mallia helmikuusta 2026.
| Sija | Malli | Pisteet | Äänet | Organisaatio |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google ottaa kruunun
Olen seurannut Googlen matemaattisen tekoälyn kehitystä kolme vuotta, ja se, mitä he ovat saavuttaneet tässä kuussa, on vähintäänkin merkittävää. Gemini 3 Pro ei vain napannut kultaa. Se saapui selvällä erolla muuhun kenttään nähden. Mutta todellinen voimannäyttö? Gemini 3 Flash istuu aivan sen takana hopealla. Googlella on nyt hallussaan sekä kulta että hopea samanaikaisesti Math Arenalla. Sitä ei ole koskaan tapahtunut aiemmin.
Mikä tekee tästä merkittävän, ylittää sijoitukset. Se on arkkitehtuuristrategia. Gemini 3 Pro on raskassarjalainen, rakennettu maksimaaliseen päättelysyvyyteen, sellainen malli, jota käytät tutkimustason todistuksiin ja monivaiheisiin johdannaisiin. Gemini 3 Flash on optimoitu nopeuteen ja kustannuksiin. Se tosiasia, että nopeuteen optimoitu malli voi kilpailla hopeatasolla, kertoo meille, että Google on ratkaissut jotain perustavanlaatuista siitä, miten matemaattisesta päättelystä tehdään nopeampaa uhraamatta tarkkuutta. Thinking-minimal-versio sijalla 8 tarjoaa vielä yhden hinta-laatu-kompromissin, ja vanhemmat työhevoset, kuten Gemini 2.5 Pro sijalla 12 ja Gemini 2.5 Flash sijalla 46, palvelevat edelleen luotettavasti.
Google sijoittaa kuusi mallia 60 parhaan joukkoon kolmen sukupolven ja useiden hintatasojen kautta. He eivät rakenna yhtä loistavaa matematiikkamallia. He rakentavat kokonaisen matemaattisen päättelyn pinon edullisesta Flashista lippulaiva-Prohon, jotka kaikki jakavat samat taustalla olevat edistysaskeleet.
Ennusteeni: Google pitää tämän johdon vähintään vuoden 2026 puoliväliin asti. Heidän lähestymistapansa upottaa matemaattinen päättely ydinkyvykkyydeksi koko tuotelinjaan sen sijaan, että se keskitettäisiin yhteen lippulaivaan, maksaa korkoa korolle. Jos rakennat jotain, joka vaatii luotettavaa matemaattista laskentaa, taloudellisesta mallinnuksesta tieteelliseen simulaatioon, Geminin pitäisi olla ensimmäinen valintasi juuri nyt.
Moonshot-yllätys
Tässä on tarina, jota kukaan ei kirjoittanut kolme kuukautta sitten. Moonshotin Kimi K2.5 Thinking on laskeutunut sijalle 3, tasapisteissä Gemini 3 Flashin kanssa hopeasijasta. Anna sen imeytyä. Vuonna 2023 perustetun startupin malli on matemaattisesti samalla tasolla Googlen toiseksi parhaan tarjouksen kanssa.
Olen testannut Kimi K2.5 Thinkingiä laajasti, ja mikä minua hämmästyttää, on sen lähestymistapa laajennettuun päättelyyn. Kun muut ajattelevat mallit tuottavat joskus monisanaisia ajatusketjuja, jotka kiertävät ongelmaa ennen laskeutumista, Kimin päättely tuntuu melkein hermostuttavan suoralta. Se tunnistaa matemaattisen ydinrakenteen nopeasti ja rakentaa sitten ratkaisua kohti minimaalisilla kiertoteillä. Kilpailutyylisissä ongelmissa, joissa tarvitset sekä tarkkuutta että puhdasta loogista ketjua, tuo suoruus on aito etu.
Moonshot sijoittaa kolme mallia 60 parhaan joukkoon: Kimi K2.5 Thinking sijalla 3, Kimi K2 Thinking Turbo sijalla 16 ja Kimi K2 sijalla 39. Kolme tasoa, yksi arkkitehtuurifilosofia. Tämän tyyppinen monitasoinen läsnäolo startupilta on ennennäkemätöntä. Viesti on selvä: aikakausi, jolloin vain biljoonan dollarin yritykset pystyivät rakentamaan maailmanluokan matemaattista tekoälyä, on ohi. Kohdennettu tutkimusinvestointi päättelyarkkitehtuuriin voi kilpailla massiivisten laskentabudjettien kanssa. Odota useampien laboratorioiden seuraavan tätä pelikirjaa koko vuoden 2026 ajan.
OpenAI valtaistuimen jälkeen
Ollaanpa suoria. GPT-5.2 High, joka piti kultaa debyytistään lähtien, istuu nyt sijalla 4, tasapisteissä Claude Opus 4.5:n kanssa. Kruunu on viety. Mutta ennen kuin kukaan kirjoittaa muistokirjoitusta, katsokaa kokonaiskuvaa.
OpenAI sijoittaa edelleen kaksitoista mallia 60 parhaan joukkoon, enemmän kuin mikään muu organisaatio. Se ei ole yritys kriisissä. Se on yritys, jolla on niin syvä ekosysteemi, että jopa 1. sijan menettäminen jättää heidät hallitsemaan keski- ja ylätasoja. GPT-5.1 High pitää sijaa 6. o3-päättelymalli sijalla 11 on edelleen valintani kilpailutason ongelmiin, jotka vaativat syvällistä monivaiheista laskentaa. GPT-5 High sijalla 17, standardi GPT-5.2 sijalla 18 ja o4-mini sijalla 36 antavat rakentajille vaihtoehtoja jokaiselle hintatasolle ja viivevaatimukselle.
o-sarjan etu
OpenAI:n omistetut päättelymallit (o3, o4-mini, o1, o3-mini) miehittävät neljä paikkaa 60 parhaan joukossa. Ongelmissa, jotka vaativat laajennettua laskentaa, epäyhtälöiden todistamista, rajoitusten täyttämistä tai kombinatorisia argumentteja, o-sarjan säädettävä ajatteluaika on edelleen ainutlaatuisen tehokas. Mikään muu tarjoaja ei tarjoa tätä tason päättelysyvyyden hallintaa.
Eteenpäin katsottuna uskon, että OpenAI:n vastaus tulee nopeasti. Ero GPT-5.2 High:n ja Gemini 3 Pron välillä ei ole ylitsepääsemätön, ja OpenAI:n malli on aina ollut iteroida aggressiivisesti menetettyään asemiaan. En yllättyisi nähdessäni GPT-5.3:n tai merkittävän päättelypäivityksen ennen kesää. Syvempi tarina tässä ei ole putoaminen. Se on se, että Math Arenan huippu on nyt niin kiivaasti kilpailtu, että 1. sijan pitäminen vaatii jatkuvaa innovaatiota, ei yhtä vahvaa julkaisua.
Ajattelevien mallien vallankumous
Skannaa tämän tulostaulukon 10 parasta ja laske, kuinka monen mallin nimessä on sana "thinking" (ajattelu). Vastaus on kertova: Kimi K2.5 Thinking sijalla 3, Claude Opus 4.5 Thinking sijalla 7, Gemini 3 Flash thinking-minimal sijalla 8, Claude Sonnet 4.5 Thinking sijalla 10. Laajenna 20 parhaan joukkoon ja niitä on kaikkialla. Tämä on suurin yksittäinen rakenteellinen muutos matemaattisessa tekoälyssä viimeisen vuoden aikana.
Nämä mallit varaavat lisälaskentaa päättelyaikana ongelmien läpikäymiseen vaihe vaiheelta ennen vastaukseen sitoutumista. Se on tekoälyn vastine matemaatikolle, joka tarttuu suttupaperiin ennen lopullisen todistuksen kirjoittamista. Tulokset ovat yksiselitteisiä: ajattelevat variantit päihittävät johdonmukaisesti standardivastineensa matemaattisissa tehtävissä.
Anthropicin toteutus kertoo tämän tarinan erityisen hyvin. Claude Opus 4.5 Thinking-32k sijalla 7 päihittää standardin Opus 4.5:n sijalla 5, kun sille annetaan tilaa päätellä. Claude Sonnet 4.5 Thinking sijalla 10 iskee reilusti yli painoluokkansa, murtautuen 10 parhaan joukkoon huolimatta siitä, että se on suunnittelultaan keskitason malli. Anthropic sijoittaa yhteensä kahdeksan mallia 60 parhaan joukkoon, ja heidän tunnusmerkkinsä on edelleen pedagoginen selkeys. Kun tarvitsen mallin, joka ei vain ratkaise ongelmaa vaan selittää, miksi ratkaisu toimii tavalla, josta opiskelija voisi aidosti oppia, Claude on edelleen vertaansa vailla.
Ennusteeni: vuoden 2026 loppuun mennessä ero "standardi-" ja "ajattelevien" mallien välillä katoaa. Jokainen malli allokoi dynaamisesti päättelyaikaa ongelman monimutkaisuuden perusteella. Nykyinen nimenomaisesti merkittyjen ajattelevien varianttien sukupolvi on siirtymävaihe kohti universaalisti mukautuvaa päättelyä.
Käytännön johtopäätös on yksinkertainen: jos tarkkuus on tärkeämpää kuin viive, valitse aina ajatteleva variantti. Matemaattinen nousu on johdonmukaista ja todellista. Tuotantosovelluksissa, joissa vasteaika on kriittinen, standardivariantit pysyvät erinomaisina. Mutta tutkimukseen, koulutukseen tai mihin tahansa skenaarioon, jossa oikean vastauksen saaminen on ensiarvoisen tärkeää, ajattelevat mallit ovat nykyisyys ja tulevaisuus.
Globaali matematiikkamaisema
Vedä kameraa taaksepäin ja tämän tulostaulukon maantiede kertoo oman tarinansa. 60 sijoittuneesta mallista 26 tulee kiinalaisista organisaatioista. Se on 43 % koko kentästä. Amerikkalaiset laboratoriot pitävät 32 paikkaa 53 %:lla, ja Mistral tuo eurooppalaista edustusta kahdella mallilla. Matemaattinen tekoälykyvykkyys on nyt aidosti moninapainen, ja tuo muutos on kiihtynyt nopeammin kuin lähes kukaan ennusti.
DeepSeek erottuu kahdeksalla mallilla 60 parhaan joukossa, tasoissa Anthropicin kanssa toiseksi suurimmalla määrällä OpenAI:n jälkeen. v3.2-perhe sijoilla #25, #26, #28 ja #56 tarjoaa vaikuttavan valikoiman, kun taas v3.1-sarja ja taistelussa testattu DeepSeek R1 sijalla #49 täyttävät keskitasot. Mikä tekee DeepSeekistä merkittävän, on kustannus-kyvykkyys-suhde. Testeissäni DeepSeek V3.2 tarjoaa top-30-tason matemaattista suorituskykyä noin viidenneksellä siitä, mitä lippulaivamallit veloittavat. Tiimeille, jotka toimivat suuressa mittakaavassa budjettirajoitteilla, tuo suhde on mullistava.
Alibaban Qwen3-perhe osallistuu seitsemällä mallilla, Qwen3 Max Previewista sijalla #15 alas avoimen painotuksen variantteihin, joita kehittäjät voivat hienosäätää omassa infrastruktuurissaan. Tuo avoimen painotuksen strategia on tärkeä teollisuudenaloille, joilla on tietosuvereniteettivaatimuksia, ja se on tarkoituksellinen ekosysteemipeli. xAI:n Grok-perhe sijoittaa kuusi mallia, johdolla Grok 4.1 Thinking sijalla #13, joka jatkaa tyylikkäiden oikoteiden löytämistä todistustyylisissä ongelmissa. Z.ain GLM-sarja pitää kolmea paikkaa, Baidu osallistuu kolmella ERNIE-variantilla, ja näemme myös merkintöjä Meituanilta ja Tencentiltä.
Osallistumisen syvyys ja laajuus kertoo minulle, mihin matemaattinen tekoäly on menossa: tämä ei ole enää kilpailu kahden tai kolmen edelläkävijän välillä. Se on ekosysteemi, ja ekosysteemi rikastuu kuukausi kuukaudelta. Mikään yksittäinen maa, yritys tai tutkimusperinne ei voi enää vaatia monopolia matemaattiseen päättelyyn. Ja meille, jotka rakennamme näiden työkalujen varaan, tuo kilpailu on parasta, mitä olisi voinut tapahtua.
Kenttäoppaani
Vuosien testaamisen jälkeen näitä malleja kaikessa olympialaisongelmista todellisiin insinöörilaskelmiin, tässä on kysymys, jota rakentajat kysyvät minulta jatkuvasti: mitä mallia minun pitäisi oikeasti käyttää? Rehellinen vastaus riippuu täysin siitä, mitä olet rakentamassa.
Tutkimustason tarkkuus
Gemini 3 Pro sijalla #1. Googlen lippulaiva johtaa raa'assa matemaattisessa kyvykkyydessä. Ensimmäinen valintani uusiin ongelmiin, joissa oikeellisuudesta ei voi neuvotella.
Nopeus ilman uhrauksia
Gemini 3 Flash sijalla #2. Lähes palkintokorokkeen tarkkuus merkittävästi pienemmällä viiveellä ja kustannuksilla. Täydellinen tuotannon matematiikkaputkiin, jotka tarvitsevat sekä laatua että läpimenokykyä.
Musta hevonen
Kimi K2.5 Thinking sijalla #3. Moonshotin päättelylähestymistapa on huomattavan tehokas. Kannattaa tutkia vakavasti, jos et ole vielä tehnyt niin, erityisesti kilpailutyylisiin ongelmiin.
Ekosysteemin syvyys
OpenAI kahdellatoista mallilla jokaisella tasolla. o-sarja kilpailumatematiikkaan, GPT-5.x yleiseen päättelyyn. Mikään muu tarjoaja ei tarjoa tätä valikoimaa.
Parhaat selitykset
Claude kahdeksalla mallilla 60 parhaan joukossa. Kun ymmärtäminen miksi vastaus on oikein merkitsee yhtä paljon kuin vastaus itse. Vertaansa vailla oleva pedagoginen selkeys.
Budjettimestari
DeepSeek kahdeksalla mallilla 60 parhaan joukossa. Top-30-kyvykkyys murto-osalla kustannuksista. Välttämätön tiimeille, jotka rakentavat suuressa mittakaavassa tai kustannusherkissä ympäristöissä.
Ei ole olemassa yhtä parasta matemaattista tekoälyä. Voittava strategia vuonna 2026 on orkestrointi: Gemini huipputason tarkkuuteen ja nopeuteen, OpenAI:n o-sarja syvälliseen päättelyyn, Claude selitettävyyteen, DeepSeek ja Kimi tehokkuuteen. Rakenna putkesi useilla tarjoajilla ja päihität johdonmukaisesti minkä tahansa yksittäisen mallin.
Datalähde: Sijoitukset AI Arena Math Leaderboardilta, 6. helmikuuta 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!