Tekoälyn Luovan Kirjoittamisen Areenan Tulostaulukko — Helmikuu 2026

Keskeinen Oivallus

Luova kirjoittaminen on paikka, jossa raaka älykkyys kumartaa maulle, pidättyväisyydelle ja rohkeudelle jättää oikeat asiat sanomatta.

Kolme vuotta pyytänyt tekoälyä kertomaan minulle tarinoita. Ei tiivistelmiä, ei hahmotelmia – vaan oikeaa fiktiota. Sellaista, jossa hahmo kävelee huoneeseen ja tunnet lämpötilan muuttuvan. Noina vuosina olen katsonut tämän tulostaulukon muuttuvan kuriositeetista aidoksi kirjallisen kyvykkyyden ilmapuntariksi. Helmikuu 2026 toi tähänastisista mielenkiintoisimman muutoksen: upouusi malli, joka saapui hiljaa, kiipesi nopeasti ja kavensi kuilua, joka näytti pysyvältä vain viikkoja sitten. Tässä on kokonaiskuva – kuusikymmentä mallia rankattuna, analysoituna ja asetettuna kontekstiin jonkun toimesta, joka työskentelee niiden kanssa joka päivä.

Luovan Kirjoittamisen Tulostaulukko

Koodilla on syntaksi. Matematiikalla on todistukset. Mutta luovalla kirjoittamisella on ääni – rytmi, yllätys, emotionaalinen resonanssi. Tämä on Luovan Kirjoittamisen Areena, vaativin mittapuu tekoälyn arvioinnissa, jossa kuusikymmentä mallia on rankattu sen perusteella, kuinka hyvin ne kertovat tarinoita, jotka todella liikuttavat ihmisiä. Näin asiat ovat helmikuussa 2026.

Sija Malli Pisteet Äänet Organisaatio
🥇
Gemini 3 Pro 14904,861Google
🥈
Claude Opus 4 6 1478347Anthropic
🥉
Claude Opus 4 5 20251101 Thinking 32k 14593,667Anthropic
#4
Claude Opus 4 5 20251101 14574,382Anthropic
#5
Gemini 3 Flash 14563,678Google
#6
Gemini 2.5 Pro 145012,564Google
#7
Claude Sonnet 4 5 20250929 14475,769Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14472,253Google
#9
Claude Opus 4 1 20250805 Thinking 16k 14456,651Anthropic
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14426,015Anthropic
#11
Claude Opus 4 1 20250805 14409,807Anthropic
#12
Gpt 4.5 Preview 2025 02 27 14382,618OpenAI
#13
Grok 4.1 Thinking 14344,819xAI
#14
Gpt 5.1 High 14344,213OpenAI
#15
Claude Opus 4 20250514 Thinking 16k 14284,750Anthropic
#16
Grok 4.1 14275,119xAI
#17
Chatgpt 4o Latest 20250326 142211,146OpenAI
#18
Ernie 5.0 Preview 1203 14201,477Baidu
#19
Claude Opus 4 20250514 14195,794Anthropic
#20
Ernie 5.0 0110 14181,622Baidu
#21
Kimi K2.5 Thinking 14181,059Moonshot
#22
Deepseek V3.1 Terminus 1411458DeepSeek
#23
Gpt 5.1 14114,512OpenAI
#24
Ernie 5.0 Preview 1022 1411662Baidu
#25
Deepseek V3.1 Thinking 14101,720DeepSeek
#26
Grok 4 1 Fast Reasoning 14043,798xAI
#27
Glm 4.7 14031,797Z.ai
#28
Deepseek V3.2 Exp 14031,500DeepSeek
#29
Gpt 4.1 2025 04 14 14026,858OpenAI
#30
Glm 4.6 14024,764Z.ai
#31
Kimi K2.5 Instant 1402427Moonshot
#32
Grok 3 Preview 02 24 14024,972xAI
#33
Deepseek V3.2 13993,529DeepSeek
#34
Gemini 2.5 Flash 139812,294Google
#35
Gpt 5.2 13981,679OpenAI
#36
Grok 4 0709 13975,559xAI
#37
Qwen3 Max Preview 13963,713Alibaba
#38
Claude Sonnet 4 20250514 Thinking 32k 13964,582Anthropic
#39
Deepseek V3.1 13952,082DeepSeek
#40
Qwen3 Max 2025 09 23 13951,154Alibaba
#41
Claude 3 7 Sonnet 20250219 Thinking 32k 13955,472Anthropic
#42
Deepseek V3.2 Exp Thinking 13951,154DeepSeek
#43
Gpt 5 Chat 13944,010OpenAI
#44
Gpt 5.2 High 13942,133OpenAI
#45
Kimi K2 Thinking Turbo 13934,520Moonshot
#46
Deepseek V3 0324 13916,338DeepSeek
#47
Deepseek V3.2 Thinking 13903,113DeepSeek
#48
Deepseek R1 0528 13882,660DeepSeek
#49
Claude Sonnet 4 20250514 13855,328Anthropic
#50
Qwen3 235b A22b Instruct 2507 13849,102Alibaba
#51
O3 2025 04 16 13848,014OpenAI
#52
O1 2024 12 17 13834,646OpenAI
#53
Hunyuan T1 20250711 1382642Tencent
#54
Grok 4 Fast Chat 1382995xAI
#55
Gemini 2.5 Flash Preview 09 2025 13824,285Google
#56
Mistral Medium 2508 13828,527Mistral
#57
Claude Haiku 4 5 20251001 13825,754Anthropic
#58
Deepseek V3.1 Terminus Thinking 1381446DeepSeek
#59
Grok 4 Fast Reasoning 13802,372xAI
#60
Gpt 5 High 13794,330OpenAI

Helmikuun Mullistus

Kun vedin uusimmat tiedot, yksi merkintä pysäytti minut: Claude Opus 4.6 istumassa sijalla kaksi. Ei siksi, että Anthropicin mallin korkea sijoitus olisi epätavallista – he ovat tehneet sitä johdonmukaisesti. Vaan koska tämä malli laskeutui toiselle sijalle lähes ilman arviointihistoriaa takanaan. Tuollainen varhainen yksimielisyys on harvinaista. Se tarkoittaa, että ensimmäinen testaajien aalto – ne pakkomielteiset, jotka ajavat identtisiä kehotteita läpi jokaisesta uudesta julkaisusta tuntien sisällä julkaisusta – löysivät jotain aidosti erilaista sen luovassa tuotoksessa.

Todellinen tarina on kuitenkin kuilu. Tammikuussa etäisyys ensimmäisen ja toisen sijan välillä oli mukavat kaksikymmentäviisi pistettä. Nyt se on kaksitoista. Gemini 3 Pro pitää edelleen kultaa, ja se ansaitsi tuon aseman rehellisesti. Mutta johto on puolittunut yhdessä päivitysyklissä. Jos olet Google, tuo trendi vaatii huomiota. Jos olet Anthropic, se on vahvistus siitä, että lähestymistapanne luovan tekoälyn kouluttamiseen on lähentymässä jotain voimakasta.

Samaan aikaan mallit heti kahden kärjen alla ovat sekoittuneet merkittävästi. Claude Opus 4.5:n "ajatteleva" variantti nousi kolmanneksi, työntäen standardin Opus 4.5:n neljänneksi ja Gemini 3 Flashin viidenneksi. Flash piti kolmatta sijaa vielä viime kuussa. Podium ei vaihda omistajaa vain huipulla – se on epävakaa kauttaaltaan. Ja epävakaus, kokemukseni mukaan, edeltää läpimurtoja.

Hallitsevat Korkeudet

Gemini 3 Pro pysyy mallina, johon tartun, kun en vielä tiedä mitä tarvitsen. Se mikä pitää sen numerolla yksi on laajuus: pyydä siltä Hemingway-tyyliä ja se toimittaa säästeliästä, lihaksikasta proosaa. Pyydä kokeellista postmodernia fiktiota ja se vaihtaa rekisteriä menettämättä johdonmukaisuutta. Viktoriaaninen kirjeromaani, kovaksi keitetty noir, maaginen realismi, lastenkirjallisuus – Gemini käsittelee nämä siirtymät tavalla, joka viittaa aidosti muodon ymmärtämiseen, ei pintapuoliseen matkimiseen. Google sijoittaa kuusi mallia kuudenkymmenen parhaan joukkoon, Gemini 3 Flashin ollessa viidentenä ja Gemini 2.5 Pron kuudentena täydentäen vahvan trion kärjessä.

Claude on täysin eri eläin. Jos Gemini on laajuus, Claude on syvyys. Anthropicin mallit ovat aina loistaneet hienouksissa, joita on vaikein opettaa koneelle: milloin antaa hiljaisuuden kantaa kohtausta, milloin lauseen tulisi katketa jatkamisen sijaan, milloin se mitä hahmo ei sano paljastaa enemmän kuin se mitä he sanovat. Opus 4.6 työntää tätä pidemmälle. Testeissäni se tuotti dialogia, joka tuntui aidosti asutulta. Hahmot eivät toimittaneet vuorosanoja – he ajattelivat, epäröivät, valitsivat sanoja tavalla, jolla oikeat ihmiset tekevät, kun jotain tärkeää on vaakalaudalla. Anthropicilla on nyt kolmetoista mallia kuudenkymmenen parhaan joukossa, enemmän kuin millään muulla organisaatiolla, viiden ollessa sijoitettuna yhteentoista parhaaseen. Mikä tahansa heidän lähestymistapansa luovan kyvykkyyden kouluttamiseen onkaan, se toimii koko heidän tuotelinjallaan.

Tässä on havainto, joka ei saa tarpeeksi huomiota: laajennettu päättely – "thinking"-tila – ei luotettavasti paranna luovaa kirjoittamista. Kuvio on epäjohdonmukainen ja syvästi paljastava.

Claude Opus -malleilla ajattelevat variantit sijoittuvat yleensä hieman korkeammalle: Opus 4.5 Thinking kolmantena verrattuna standardiin neljäntenä, Opus 4.1 Thinking yhdeksäntenä verrattuna standardiin yhdestoista. Grok 4.1 Thinking voittaa standardivarianttinsa kolmella sijalla. Mutta vaihda muihin arkkitehtuureihin ja kuvio kääntyy – joskus dramaattisesti. DeepSeek v3.2-exp standard istuu kahdentenakymmenentenäkahdeksantena kun taas sen ajatteleva variantti putoaa neljänteenkymmenenteenkahanteen. DeepSeek v3.1-terminus standard on kahdentenakymmenentenätoisena; sen ajatteleva vastine putoaa viidenteenkymmenenteenkahdeksanteen – kolmenkymmenenkuuden sijan kuilu. GPT-5.2 standard voittaa GPT-5.2-high:n.

Mitä tämä kertoo minulle, on tärkeää: luova kirjoittaminen ei ole ensisijaisesti päättelyongelma. Se on esteettinen ongelma. Malleille, joilla on jo vahvat kirjalliset vaistot, laajennettu ajattelu voi hioa noita vaistoja – kuin huolellinen toimittaja tarkistamassa vankkaa ensimmäistä luonnosta. Mutta malleille, joiden luova voima on vaistomaisempaa ja mallivetoisempaa, harkinnan pakottaminen itse asiassa kiillottaa pois ne rosoiset reunat, jotka saavat proosan tuntumaan elävältä. Joskus ensimmäinen vastaus tavoittaa jotain, minkä lisälaskenta tasoittaa keskinkertaisuudeksi. Jos käytät ajatteluun kykeneviä malleja luovaan työhön, testaa molempia tiloja. Oletus, että enemmän päättelyä on yhtä kuin parempi tulos, ei päde tässä, ja ymmärrys siitä milloin ajattelu kannattaa kytkeä pois, voi olla arvokkaampaa kuin tietää milloin kytkeä se päälle.

Nouseva Vuorovesi

Huipputason alapuolella tarina on leviäminen ja monimuotoisuus – ja se on luultavasti tärkeämpää kuin kilpailu ykkössijasta.

DeepSeek sijoittaa kymmenen mallia kuudenkymmenen parhaan joukkoon, tehden siitä kolmanneksi edustetuimman organisaation Anthropicin ja OpenAI:n jälkeen. Heidän v3.1 ja v3.2 varianttinsa ulottuvat kahdennestakymmenennestätoisesta viidenteenkymmenenteenkahdeksanteen, kattaen joukon luovan kyvykkyyden tasoja. Avoimen painon projektina DeepSeek edustaa jotain perustavanlaatuisesti erilaista kuin omisteiset johtajat: nämä mallit voidaan ladata, isännöidä paikallisesti ja hienosäätää (fine-tuned) tiettyihin luoviin tehtäviin. Jos rakennat tekoälykirjoitustyökalua tai integroit luovia kyvykkyyksiä tuoteputkeen, DeepSeek tarjoaa joustavuutta, johon pelkät API-mallit eivät pysty vastaamaan.

Laajempi kuva on vieläkin silmiinpistävämpi. DeepSeekin, Baidun, Moonshotin, Alibaban, Z.ai:n ja Tencentin välillä kiinalaiset tekoälylaboratoriot muodostavat nyt kaksikymmentäkaksi kuudestakymmenestä luokitellusta mallista – yli kolmanneksen koko tulostaulukosta. Moonshotin Kimi K2.5 debytoi ajattelevalla variantillaan sijalla kaksikymmentäyksi, nostaen yhtiön kolmeen sijoitukseen. Baidu pitää kolmea positiota ERNIE 5.0 -sarjallaan. Alibaban Qwen3:lla on kolme varianttia rankattuna. Z.ai:n GLM-4.7 istuu sijalla kaksikymmentäseitsemän. Tämä ei ole konvergenssia – se on aitoa monimuotoisuutta. Eri koulutusdata, eri kulttuuriset kontekstit ja eri kirjalliset perinteet tuottavat malleja, joilla on erilaiset luovat herkkyydet. Olen nähnyt ERNIEn luovan metaforia, jotka eivät tulisi mieleen länsimaisesti koulutetuille malleille, ja GLM:n käsittelevän kerronnan tahtia tavoilla, jotka tuntuvat tuoreilta juuri siksi, että kirjallinen DNA on erilainen. Globaali luova tekoälyekosysteemi on rikkaampi sen ansiosta.

OpenAI pitää hallussaan yhtätoista mallia, vaikka heidän luovalla tarinallaan on mielenkiintoinen sivujuoni. GPT-4.5-preview sijalla kaksitoista on edellä sekä GPT-5.1-high:ta sijalla neljätoista että GPT-5.1 standardia sijalla kaksikymmentäkolme. Joskus vivahteille optimoitu malli päihittää teknisesti ylivoimaisen seuraajansa tehtävissä, jotka arvostavat hienovaraisuutta raa'an kyvyn sijaan. ChatGPT-4o-latest sijalla seitsemäntoista vahvistaa pointtia: keskusteluun optimoiduilla malleilla on luontainen etu luovassa kirjoittamisessa, koska tarinankerronta on pohjimmiltaan keskustelevaa. Et laske vastausta – ylläpidät ääntä.

Grok on veistänyt aidon luovan identiteetin seitsemällä mallilla rankingissa. Missä Claude loistaa tunneälyssä, Grok tuo emotionaalista rehellisyyttä. Huumori on terävämpää, metaforat rohkeampia, hahmot vähemmän kiillotettuja ja elävämpiä. Kun haluan kirjoitusta, joka ottaa riskejä – fiktiota, joka saattaa tehdä lukijan epämukavaksi tuottavalla tavalla – Grok on se mistä aloitan. Se on malli, joka vähiten pelkää omaa ääntään, ja luovassa kirjoittamisessa pelottomuus merkitsee. Mistralin medium-2508 sijalla viisikymmentäkuusi edustaa Euroopan läsnäoloa taululla. Tencentin Hunyuan sijalla viisikymmentäkolme lisää vielä yhden äänen Kiinasta. Kenttä ei ole koskaan ollut laajempi.

Mihin Tämä Kaikki Johtaa

Kerron teille mitä luulen tapahtuvan seuraavaksi, koska trendit tässä datassa osoittavat jonnekin tiettyyn suuntaan.

Kuilu jatkaa puristumistaan. Hajaantuminen ensimmäisen ja kuudennenkymmenennen sijan välillä on karkeasti 7,4 prosenttia – tiukka historiallisilla standardeilla, ja kapenee jokaisella päivityksellä. Lähestymme kynnystä, jossa merkitykselliset erot mallien välillä siirtyvät raa'asta laadusta luovaan persoonallisuuteen. Kysymys lakkaa olemasta "mikä malli kirjoittaa parhaiten" ja muuttuu muotoon "minkä mallin ääni sopii tähän tiettyyn projektiin". Se on perustavanlaatuinen muutos siinä, miten kirjoittajien ja luovien tiimien tulisi ajatella tekoälyn valintaa.

Erikoistuneet luovat mallit ovat väistämättömiä. Yleiskäyttöinen arkkitehtuuri on työntänyt luovan kirjoittamisen laadun huomattavan pitkälle, mutta seuraava todellinen hyppy tulee malleista, jotka on nimenomaisesti viritetty kerronnalliseen rakenteeseen, hahmojen johdonmukaisuuteen, dialogin aitouteen tai runolliseen muotoon. Odotan vähintään yhden suuren laboratorion toimittavan luovan asiantuntijamallin tämän vuoden toiseen puoliskoon mennessä – sellaisen, joka sitoutuu täysin kirjalliseen kyvykkyyteen sen sijaan, että yrittäisi ratkaista matematiikkaa, kirjoittaa koodia ja kertoa tarinoita samanaikaisesti. Kun se tapahtuu, se nollaa tämän tulostaulukon huipun yhdessä yössä.

Avoimen painon mallit sulkevat jäljellä olevan kuilun. DeepSeekin kymmenen mallin läsnäolo on johtava indikaattori. Kun avoimet vaihtoehdot lähestyvät pariteettia omisteisten järjestelmien kanssa luovissa mittapuissa, tekoälyavusteisen kirjoittamisen taloustiede muuttuu dramaattisesti. Kirjoittajat, studiot ja kustantajat saavat pääsyn huippuluokan luovaan tekoälyyn ilman token-kohtaista hinnoittelua, mikä muuttaa omaksumiskäyriä ja perustavanlaatuista suhdetta ihmiskirjoittajien ja tekoälytyökalujen välillä.

Todellinen raja on orkestrointi, ei eristyneisyys. Hienostunein luova työ, jota olen viime aikoina nähnyt, ei käytä yhtä mallia – se käyttää kolmea tai neljää peräkkäin. Geminiä alkuideointiin ja tyylilliseen tutkimiseen. Claudea emotionaaliseen hienosäätöön ja dialogin kiillotukseen. DeepSeekiä tai Qwenia vaihtoehtoisiin kulttuurisiin näkökulmiin. Grokia kun luonnos tarvitsee särmää. Tulevaisuus ei ole yhden mallin kruunaamista kuninkaaksi. Se on yhtyeen johtamisen oppimista, jokaisen mallin luovan persoonallisuuden sovittamista oikeaan hetkeen kirjoitusprosessissa. Kirjoittajat, jotka keksivät tämän ensin, tuottavat teoksia, jotka tuntuvat erilaisilta kuin mikään, mitä yksi malli – tai yksi ihminen – voisi saavuttaa yksin.

Luovan Kumppanisi Valitseminen

Vuosien kirjoittamisen jälkeen näiden mallien rinnalla, tässä on mitä olen oppinut oikean työkalun sovittamisesta oikeaan tehtävään:

Monipuolisuus

Gemini 3 Pro mukautuu mihin tahansa genreen, mihin tahansa muotoon, mihin tahansa sävyyn. Kun toimeksianto on määrittelemätön tai projekti vaatii laajuutta, aloita tästä.

Emotionaalinen Syvyys

Claude Opus 4.6 kirjoittaa pidättyväisyydellä ja aidolla tunteella. Dialogiin, hahmotyöhön ja proosaan, jossa sanomatta jäänyt merkitsee eniten.

Nopeus & Laatu

Gemini 3 Flash todistaa, ettei nopea tarkoita huonompaa. Iteratiiviseen luonnosteluun, suuren volyymin projekteihin ja narratiivisten ideoiden nopeaan prototypointiin.

Persoonallisuus

Grok 4.1 ottaa luovia riskejä, joita muut mallit eivät ota. Fiktioon, joka tarvitsee särmää, huumoria ja hahmoja, jotka tuntuvat eläviltä eivätkä kootuilta.

Yritys

GPT-4.5 / GPT-5.1 toimittavat kiillotettua, luotettavaa tuotosta, joka integroituu olemassa oleviin työnkulkuihin. Kun johdonmukaisuus ja bränditurvallisuus merkitsevät yhtä paljon kuin luovuus.

Avoin Lähdekoodi

DeepSeek / Qwen: isännöi itse, hienosäädä omalle alallesi. Kun tarvitset luovaa tekoälyä mittakaavassa ilman token-kustannuksia, taloudellisuus on lyömätön.

Ei ole olemassa yhtä parasta luovaa tekoälyä. On kehittyviä ääniä eri vahvuuksilla, ja todellinen valta piilee siinä, että tietää mikä ääni palvelee mitäkin hetkeä tarinassa, jota yrität kertoa.


Datalähde: Rankingit Arena AI Luovan Kirjoittamisen Tulostaulukosta, 6. helmikuuta 2026.

Discussion

0 comments

Leave a comment

Be the first to share your thoughts on this article!