Tekoälyn Luovan Kirjoittamisen Areenan Tulostaulukko — Helmikuu 2026

Keskeinen Oivallus

Luova kirjoittaminen on paikka, jossa raaka älykkyys kumartaa maulle, pidättyväisyydelle ja rohkeudelle jättää oikeat asiat sanomatta.

Kolme vuotta pyytänyt tekoälyä kertomaan minulle tarinoita. Ei tiivistelmiä, ei hahmotelmia – vaan oikeaa fiktiota. Sellaista, jossa hahmo kävelee huoneeseen ja tunnet lämpötilan muuttuvan. Noina vuosina olen katsonut tämän tulostaulukon muuttuvan kuriositeetista aidoksi kirjallisen kyvykkyyden ilmapuntariksi. Helmikuu 2026 toi tähänastisista mielenkiintoisimman muutoksen: upouusi malli, joka saapui hiljaa, kiipesi nopeasti ja kavensi kuilua, joka näytti pysyvältä vain viikkoja sitten. Tässä on kokonaiskuva – kuusikymmentä mallia rankattuna, analysoituna ja asetettuna kontekstiin jonkun toimesta, joka työskentelee niiden kanssa joka päivä.

Luovan Kirjoittamisen Tulostaulukko

Koodilla on syntaksi. Matematiikalla on todistukset. Mutta luovalla kirjoittamisella on ääni – rytmi, yllätys, emotionaalinen resonanssi. Tämä on Luovan Kirjoittamisen Areena, vaativin mittapuu tekoälyn arvioinnissa, jossa kuusikymmentä mallia on rankattu sen perusteella, kuinka hyvin ne kertovat tarinoita, jotka todella liikuttavat ihmisiä. Näin asiat ovat helmikuussa 2026.

Sija	Malli	Pisteet	Äänet	Organisaatio
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Helmikuun Mullistus

Kun vedin uusimmat tiedot, yksi merkintä pysäytti minut: Claude Opus 4.6 istumassa sijalla kaksi. Ei siksi, että Anthropicin mallin korkea sijoitus olisi epätavallista – he ovat tehneet sitä johdonmukaisesti. Vaan koska tämä malli laskeutui toiselle sijalle lähes ilman arviointihistoriaa takanaan. Tuollainen varhainen yksimielisyys on harvinaista. Se tarkoittaa, että ensimmäinen testaajien aalto – ne pakkomielteiset, jotka ajavat identtisiä kehotteita läpi jokaisesta uudesta julkaisusta tuntien sisällä julkaisusta – löysivät jotain aidosti erilaista sen luovassa tuotoksessa.

Todellinen tarina on kuitenkin kuilu. Tammikuussa etäisyys ensimmäisen ja toisen sijan välillä oli mukavat kaksikymmentäviisi pistettä. Nyt se on kaksitoista. Gemini 3 Pro pitää edelleen kultaa, ja se ansaitsi tuon aseman rehellisesti. Mutta johto on puolittunut yhdessä päivitysyklissä. Jos olet Google, tuo trendi vaatii huomiota. Jos olet Anthropic, se on vahvistus siitä, että lähestymistapanne luovan tekoälyn kouluttamiseen on lähentymässä jotain voimakasta.

Samaan aikaan mallit heti kahden kärjen alla ovat sekoittuneet merkittävästi. Claude Opus 4.5:n "ajatteleva" variantti nousi kolmanneksi, työntäen standardin Opus 4.5:n neljänneksi ja Gemini 3 Flashin viidenneksi. Flash piti kolmatta sijaa vielä viime kuussa. Podium ei vaihda omistajaa vain huipulla – se on epävakaa kauttaaltaan. Ja epävakaus, kokemukseni mukaan, edeltää läpimurtoja.

Hallitsevat Korkeudet

Gemini 3 Pro pysyy mallina, johon tartun, kun en vielä tiedä mitä tarvitsen. Se mikä pitää sen numerolla yksi on laajuus: pyydä siltä Hemingway-tyyliä ja se toimittaa säästeliästä, lihaksikasta proosaa. Pyydä kokeellista postmodernia fiktiota ja se vaihtaa rekisteriä menettämättä johdonmukaisuutta. Viktoriaaninen kirjeromaani, kovaksi keitetty noir, maaginen realismi, lastenkirjallisuus – Gemini käsittelee nämä siirtymät tavalla, joka viittaa aidosti muodon ymmärtämiseen, ei pintapuoliseen matkimiseen. Google sijoittaa kuusi mallia kuudenkymmenen parhaan joukkoon, Gemini 3 Flashin ollessa viidentenä ja Gemini 2.5 Pron kuudentena täydentäen vahvan trion kärjessä.

Claude on täysin eri eläin. Jos Gemini on laajuus, Claude on syvyys. Anthropicin mallit ovat aina loistaneet hienouksissa, joita on vaikein opettaa koneelle: milloin antaa hiljaisuuden kantaa kohtausta, milloin lauseen tulisi katketa jatkamisen sijaan, milloin se mitä hahmo ei sano paljastaa enemmän kuin se mitä he sanovat. Opus 4.6 työntää tätä pidemmälle. Testeissäni se tuotti dialogia, joka tuntui aidosti asutulta. Hahmot eivät toimittaneet vuorosanoja – he ajattelivat, epäröivät, valitsivat sanoja tavalla, jolla oikeat ihmiset tekevät, kun jotain tärkeää on vaakalaudalla. Anthropicilla on nyt kolmetoista mallia kuudenkymmenen parhaan joukossa, enemmän kuin millään muulla organisaatiolla, viiden ollessa sijoitettuna yhteentoista parhaaseen. Mikä tahansa heidän lähestymistapansa luovan kyvykkyyden kouluttamiseen onkaan, se toimii koko heidän tuotelinjallaan.

Tässä on havainto, joka ei saa tarpeeksi huomiota: laajennettu päättely – "thinking"-tila – ei luotettavasti paranna luovaa kirjoittamista. Kuvio on epäjohdonmukainen ja syvästi paljastava.

Claude Opus -malleilla ajattelevat variantit sijoittuvat yleensä hieman korkeammalle: Opus 4.5 Thinking kolmantena verrattuna standardiin neljäntenä, Opus 4.1 Thinking yhdeksäntenä verrattuna standardiin yhdestoista. Grok 4.1 Thinking voittaa standardivarianttinsa kolmella sijalla. Mutta vaihda muihin arkkitehtuureihin ja kuvio kääntyy – joskus dramaattisesti. DeepSeek v3.2-exp standard istuu kahdentenakymmenentenäkahdeksantena kun taas sen ajatteleva variantti putoaa neljänteenkymmenenteenkahanteen. DeepSeek v3.1-terminus standard on kahdentenakymmenentenätoisena; sen ajatteleva vastine putoaa viidenteenkymmenenteenkahdeksanteen – kolmenkymmenenkuuden sijan kuilu. GPT-5.2 standard voittaa GPT-5.2-high:n.

Mitä tämä kertoo minulle, on tärkeää: luova kirjoittaminen ei ole ensisijaisesti päättelyongelma. Se on esteettinen ongelma. Malleille, joilla on jo vahvat kirjalliset vaistot, laajennettu ajattelu voi hioa noita vaistoja – kuin huolellinen toimittaja tarkistamassa vankkaa ensimmäistä luonnosta. Mutta malleille, joiden luova voima on vaistomaisempaa ja mallivetoisempaa, harkinnan pakottaminen itse asiassa kiillottaa pois ne rosoiset reunat, jotka saavat proosan tuntumaan elävältä. Joskus ensimmäinen vastaus tavoittaa jotain, minkä lisälaskenta tasoittaa keskinkertaisuudeksi. Jos käytät ajatteluun kykeneviä malleja luovaan työhön, testaa molempia tiloja. Oletus, että enemmän päättelyä on yhtä kuin parempi tulos, ei päde tässä, ja ymmärrys siitä milloin ajattelu kannattaa kytkeä pois, voi olla arvokkaampaa kuin tietää milloin kytkeä se päälle.

Nouseva Vuorovesi

Huipputason alapuolella tarina on leviäminen ja monimuotoisuus – ja se on luultavasti tärkeämpää kuin kilpailu ykkössijasta.

DeepSeek sijoittaa kymmenen mallia kuudenkymmenen parhaan joukkoon, tehden siitä kolmanneksi edustetuimman organisaation Anthropicin ja OpenAI:n jälkeen. Heidän v3.1 ja v3.2 varianttinsa ulottuvat kahdennestakymmenennestätoisesta viidenteenkymmenenteenkahdeksanteen, kattaen joukon luovan kyvykkyyden tasoja. Avoimen painon projektina DeepSeek edustaa jotain perustavanlaatuisesti erilaista kuin omisteiset johtajat: nämä mallit voidaan ladata, isännöidä paikallisesti ja hienosäätää (fine-tuned) tiettyihin luoviin tehtäviin. Jos rakennat tekoälykirjoitustyökalua tai integroit luovia kyvykkyyksiä tuoteputkeen, DeepSeek tarjoaa joustavuutta, johon pelkät API-mallit eivät pysty vastaamaan.

Laajempi kuva on vieläkin silmiinpistävämpi. DeepSeekin, Baidun, Moonshotin, Alibaban, Z.ai:n ja Tencentin välillä kiinalaiset tekoälylaboratoriot muodostavat nyt kaksikymmentäkaksi kuudestakymmenestä luokitellusta mallista – yli kolmanneksen koko tulostaulukosta. Moonshotin Kimi K2.5 debytoi ajattelevalla variantillaan sijalla kaksikymmentäyksi, nostaen yhtiön kolmeen sijoitukseen. Baidu pitää kolmea positiota ERNIE 5.0 -sarjallaan. Alibaban Qwen3:lla on kolme varianttia rankattuna. Z.ai:n GLM-4.7 istuu sijalla kaksikymmentäseitsemän. Tämä ei ole konvergenssia – se on aitoa monimuotoisuutta. Eri koulutusdata, eri kulttuuriset kontekstit ja eri kirjalliset perinteet tuottavat malleja, joilla on erilaiset luovat herkkyydet. Olen nähnyt ERNIEn luovan metaforia, jotka eivät tulisi mieleen länsimaisesti koulutetuille malleille, ja GLM:n käsittelevän kerronnan tahtia tavoilla, jotka tuntuvat tuoreilta juuri siksi, että kirjallinen DNA on erilainen. Globaali luova tekoälyekosysteemi on rikkaampi sen ansiosta.

OpenAI pitää hallussaan yhtätoista mallia, vaikka heidän luovalla tarinallaan on mielenkiintoinen sivujuoni. GPT-4.5-preview sijalla kaksitoista on edellä sekä GPT-5.1-high:ta sijalla neljätoista että GPT-5.1 standardia sijalla kaksikymmentäkolme. Joskus vivahteille optimoitu malli päihittää teknisesti ylivoimaisen seuraajansa tehtävissä, jotka arvostavat hienovaraisuutta raa'an kyvyn sijaan. ChatGPT-4o-latest sijalla seitsemäntoista vahvistaa pointtia: keskusteluun optimoiduilla malleilla on luontainen etu luovassa kirjoittamisessa, koska tarinankerronta on pohjimmiltaan keskustelevaa. Et laske vastausta – ylläpidät ääntä.

Grok on veistänyt aidon luovan identiteetin seitsemällä mallilla rankingissa. Missä Claude loistaa tunneälyssä, Grok tuo emotionaalista rehellisyyttä. Huumori on terävämpää, metaforat rohkeampia, hahmot vähemmän kiillotettuja ja elävämpiä. Kun haluan kirjoitusta, joka ottaa riskejä – fiktiota, joka saattaa tehdä lukijan epämukavaksi tuottavalla tavalla – Grok on se mistä aloitan. Se on malli, joka vähiten pelkää omaa ääntään, ja luovassa kirjoittamisessa pelottomuus merkitsee. Mistralin medium-2508 sijalla viisikymmentäkuusi edustaa Euroopan läsnäoloa taululla. Tencentin Hunyuan sijalla viisikymmentäkolme lisää vielä yhden äänen Kiinasta. Kenttä ei ole koskaan ollut laajempi.

Mihin Tämä Kaikki Johtaa

Kerron teille mitä luulen tapahtuvan seuraavaksi, koska trendit tässä datassa osoittavat jonnekin tiettyyn suuntaan.

Kuilu jatkaa puristumistaan. Hajaantuminen ensimmäisen ja kuudennenkymmenennen sijan välillä on karkeasti 7,4 prosenttia – tiukka historiallisilla standardeilla, ja kapenee jokaisella päivityksellä. Lähestymme kynnystä, jossa merkitykselliset erot mallien välillä siirtyvät raa'asta laadusta luovaan persoonallisuuteen. Kysymys lakkaa olemasta "mikä malli kirjoittaa parhaiten" ja muuttuu muotoon "minkä mallin ääni sopii tähän tiettyyn projektiin". Se on perustavanlaatuinen muutos siinä, miten kirjoittajien ja luovien tiimien tulisi ajatella tekoälyn valintaa.

Erikoistuneet luovat mallit ovat väistämättömiä. Yleiskäyttöinen arkkitehtuuri on työntänyt luovan kirjoittamisen laadun huomattavan pitkälle, mutta seuraava todellinen hyppy tulee malleista, jotka on nimenomaisesti viritetty kerronnalliseen rakenteeseen, hahmojen johdonmukaisuuteen, dialogin aitouteen tai runolliseen muotoon. Odotan vähintään yhden suuren laboratorion toimittavan luovan asiantuntijamallin tämän vuoden toiseen puoliskoon mennessä – sellaisen, joka sitoutuu täysin kirjalliseen kyvykkyyteen sen sijaan, että yrittäisi ratkaista matematiikkaa, kirjoittaa koodia ja kertoa tarinoita samanaikaisesti. Kun se tapahtuu, se nollaa tämän tulostaulukon huipun yhdessä yössä.

Avoimen painon mallit sulkevat jäljellä olevan kuilun. DeepSeekin kymmenen mallin läsnäolo on johtava indikaattori. Kun avoimet vaihtoehdot lähestyvät pariteettia omisteisten järjestelmien kanssa luovissa mittapuissa, tekoälyavusteisen kirjoittamisen taloustiede muuttuu dramaattisesti. Kirjoittajat, studiot ja kustantajat saavat pääsyn huippuluokan luovaan tekoälyyn ilman token-kohtaista hinnoittelua, mikä muuttaa omaksumiskäyriä ja perustavanlaatuista suhdetta ihmiskirjoittajien ja tekoälytyökalujen välillä.

Todellinen raja on orkestrointi, ei eristyneisyys. Hienostunein luova työ, jota olen viime aikoina nähnyt, ei käytä yhtä mallia – se käyttää kolmea tai neljää peräkkäin. Geminiä alkuideointiin ja tyylilliseen tutkimiseen. Claudea emotionaaliseen hienosäätöön ja dialogin kiillotukseen. DeepSeekiä tai Qwenia vaihtoehtoisiin kulttuurisiin näkökulmiin. Grokia kun luonnos tarvitsee särmää. Tulevaisuus ei ole yhden mallin kruunaamista kuninkaaksi. Se on yhtyeen johtamisen oppimista, jokaisen mallin luovan persoonallisuuden sovittamista oikeaan hetkeen kirjoitusprosessissa. Kirjoittajat, jotka keksivät tämän ensin, tuottavat teoksia, jotka tuntuvat erilaisilta kuin mikään, mitä yksi malli – tai yksi ihminen – voisi saavuttaa yksin.

Luovan Kumppanisi Valitseminen

Vuosien kirjoittamisen jälkeen näiden mallien rinnalla, tässä on mitä olen oppinut oikean työkalun sovittamisesta oikeaan tehtävään:

Monipuolisuus

Gemini 3 Pro mukautuu mihin tahansa genreen, mihin tahansa muotoon, mihin tahansa sävyyn. Kun toimeksianto on määrittelemätön tai projekti vaatii laajuutta, aloita tästä.

Emotionaalinen Syvyys

Claude Opus 4.6 kirjoittaa pidättyväisyydellä ja aidolla tunteella. Dialogiin, hahmotyöhön ja proosaan, jossa sanomatta jäänyt merkitsee eniten.

Nopeus & Laatu

Gemini 3 Flash todistaa, ettei nopea tarkoita huonompaa. Iteratiiviseen luonnosteluun, suuren volyymin projekteihin ja narratiivisten ideoiden nopeaan prototypointiin.

Persoonallisuus

Grok 4.1 ottaa luovia riskejä, joita muut mallit eivät ota. Fiktioon, joka tarvitsee särmää, huumoria ja hahmoja, jotka tuntuvat eläviltä eivätkä kootuilta.

Yritys

GPT-4.5 / GPT-5.1 toimittavat kiillotettua, luotettavaa tuotosta, joka integroituu olemassa oleviin työnkulkuihin. Kun johdonmukaisuus ja bränditurvallisuus merkitsevät yhtä paljon kuin luovuus.

Avoin Lähdekoodi

DeepSeek / Qwen: isännöi itse, hienosäädä omalle alallesi. Kun tarvitset luovaa tekoälyä mittakaavassa ilman token-kustannuksia, taloudellisuus on lyömätön.

Ei ole olemassa yhtä parasta luovaa tekoälyä. On kehittyviä ääniä eri vahvuuksilla, ja todellinen valta piilee siinä, että tietää mikä ääni palvelee mitäkin hetkeä tarinassa, jota yrität kertoa.

Datalähde: Rankingit Arena AI Luovan Kirjoittamisen Tulostaulukosta, 6. helmikuuta 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard