Luova kirjoittaminen on paikka, jossa raaka älykkyys kumartaa maulle, pidättyväisyydelle ja rohkeudelle jättää oikeat asiat sanomatta.
Kolme vuotta pyytänyt tekoälyä kertomaan minulle tarinoita. Ei tiivistelmiä, ei hahmotelmia – vaan oikeaa fiktiota. Sellaista, jossa hahmo kävelee huoneeseen ja tunnet lämpötilan muuttuvan. Noina vuosina olen katsonut tämän tulostaulukon muuttuvan kuriositeetista aidoksi kirjallisen kyvykkyyden ilmapuntariksi. Helmikuu 2026 toi tähänastisista mielenkiintoisimman muutoksen: upouusi malli, joka saapui hiljaa, kiipesi nopeasti ja kavensi kuilua, joka näytti pysyvältä vain viikkoja sitten. Tässä on kokonaiskuva – kuusikymmentä mallia rankattuna, analysoituna ja asetettuna kontekstiin jonkun toimesta, joka työskentelee niiden kanssa joka päivä.
Luovan Kirjoittamisen Tulostaulukko
Koodilla on syntaksi. Matematiikalla on todistukset. Mutta luovalla kirjoittamisella on ääni – rytmi, yllätys, emotionaalinen resonanssi. Tämä on Luovan Kirjoittamisen Areena, vaativin mittapuu tekoälyn arvioinnissa, jossa kuusikymmentä mallia on rankattu sen perusteella, kuinka hyvin ne kertovat tarinoita, jotka todella liikuttavat ihmisiä. Näin asiat ovat helmikuussa 2026.
| Sija | Malli | Pisteet | Äänet | Organisaatio |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Helmikuun Mullistus
Kun vedin uusimmat tiedot, yksi merkintä pysäytti minut: Claude Opus 4.6 istumassa sijalla kaksi. Ei siksi, että Anthropicin mallin korkea sijoitus olisi epätavallista – he ovat tehneet sitä johdonmukaisesti. Vaan koska tämä malli laskeutui toiselle sijalle lähes ilman arviointihistoriaa takanaan. Tuollainen varhainen yksimielisyys on harvinaista. Se tarkoittaa, että ensimmäinen testaajien aalto – ne pakkomielteiset, jotka ajavat identtisiä kehotteita läpi jokaisesta uudesta julkaisusta tuntien sisällä julkaisusta – löysivät jotain aidosti erilaista sen luovassa tuotoksessa.
Todellinen tarina on kuitenkin kuilu. Tammikuussa etäisyys ensimmäisen ja toisen sijan välillä oli mukavat kaksikymmentäviisi pistettä. Nyt se on kaksitoista. Gemini 3 Pro pitää edelleen kultaa, ja se ansaitsi tuon aseman rehellisesti. Mutta johto on puolittunut yhdessä päivitysyklissä. Jos olet Google, tuo trendi vaatii huomiota. Jos olet Anthropic, se on vahvistus siitä, että lähestymistapanne luovan tekoälyn kouluttamiseen on lähentymässä jotain voimakasta.
Samaan aikaan mallit heti kahden kärjen alla ovat sekoittuneet merkittävästi. Claude Opus 4.5:n "ajatteleva" variantti nousi kolmanneksi, työntäen standardin Opus 4.5:n neljänneksi ja Gemini 3 Flashin viidenneksi. Flash piti kolmatta sijaa vielä viime kuussa. Podium ei vaihda omistajaa vain huipulla – se on epävakaa kauttaaltaan. Ja epävakaus, kokemukseni mukaan, edeltää läpimurtoja.
Hallitsevat Korkeudet
Gemini 3 Pro pysyy mallina, johon tartun, kun en vielä tiedä mitä tarvitsen. Se mikä pitää sen numerolla yksi on laajuus: pyydä siltä Hemingway-tyyliä ja se toimittaa säästeliästä, lihaksikasta proosaa. Pyydä kokeellista postmodernia fiktiota ja se vaihtaa rekisteriä menettämättä johdonmukaisuutta. Viktoriaaninen kirjeromaani, kovaksi keitetty noir, maaginen realismi, lastenkirjallisuus – Gemini käsittelee nämä siirtymät tavalla, joka viittaa aidosti muodon ymmärtämiseen, ei pintapuoliseen matkimiseen. Google sijoittaa kuusi mallia kuudenkymmenen parhaan joukkoon, Gemini 3 Flashin ollessa viidentenä ja Gemini 2.5 Pron kuudentena täydentäen vahvan trion kärjessä.
Claude on täysin eri eläin. Jos Gemini on laajuus, Claude on syvyys. Anthropicin mallit ovat aina loistaneet hienouksissa, joita on vaikein opettaa koneelle: milloin antaa hiljaisuuden kantaa kohtausta, milloin lauseen tulisi katketa jatkamisen sijaan, milloin se mitä hahmo ei sano paljastaa enemmän kuin se mitä he sanovat. Opus 4.6 työntää tätä pidemmälle. Testeissäni se tuotti dialogia, joka tuntui aidosti asutulta. Hahmot eivät toimittaneet vuorosanoja – he ajattelivat, epäröivät, valitsivat sanoja tavalla, jolla oikeat ihmiset tekevät, kun jotain tärkeää on vaakalaudalla. Anthropicilla on nyt kolmetoista mallia kuudenkymmenen parhaan joukossa, enemmän kuin millään muulla organisaatiolla, viiden ollessa sijoitettuna yhteentoista parhaaseen. Mikä tahansa heidän lähestymistapansa luovan kyvykkyyden kouluttamiseen onkaan, se toimii koko heidän tuotelinjallaan.
Tässä on havainto, joka ei saa tarpeeksi huomiota: laajennettu päättely – "thinking"-tila – ei luotettavasti paranna luovaa kirjoittamista. Kuvio on epäjohdonmukainen ja syvästi paljastava.
Claude Opus -malleilla ajattelevat variantit sijoittuvat yleensä hieman korkeammalle: Opus 4.5 Thinking kolmantena verrattuna standardiin neljäntenä, Opus 4.1 Thinking yhdeksäntenä verrattuna standardiin yhdestoista. Grok 4.1 Thinking voittaa standardivarianttinsa kolmella sijalla. Mutta vaihda muihin arkkitehtuureihin ja kuvio kääntyy – joskus dramaattisesti. DeepSeek v3.2-exp standard istuu kahdentenakymmenentenäkahdeksantena kun taas sen ajatteleva variantti putoaa neljänteenkymmenenteenkahanteen. DeepSeek v3.1-terminus standard on kahdentenakymmenentenätoisena; sen ajatteleva vastine putoaa viidenteenkymmenenteenkahdeksanteen – kolmenkymmenenkuuden sijan kuilu. GPT-5.2 standard voittaa GPT-5.2-high:n.
Mitä tämä kertoo minulle, on tärkeää: luova kirjoittaminen ei ole ensisijaisesti päättelyongelma. Se on esteettinen ongelma. Malleille, joilla on jo vahvat kirjalliset vaistot, laajennettu ajattelu voi hioa noita vaistoja – kuin huolellinen toimittaja tarkistamassa vankkaa ensimmäistä luonnosta. Mutta malleille, joiden luova voima on vaistomaisempaa ja mallivetoisempaa, harkinnan pakottaminen itse asiassa kiillottaa pois ne rosoiset reunat, jotka saavat proosan tuntumaan elävältä. Joskus ensimmäinen vastaus tavoittaa jotain, minkä lisälaskenta tasoittaa keskinkertaisuudeksi. Jos käytät ajatteluun kykeneviä malleja luovaan työhön, testaa molempia tiloja. Oletus, että enemmän päättelyä on yhtä kuin parempi tulos, ei päde tässä, ja ymmärrys siitä milloin ajattelu kannattaa kytkeä pois, voi olla arvokkaampaa kuin tietää milloin kytkeä se päälle.
Nouseva Vuorovesi
Huipputason alapuolella tarina on leviäminen ja monimuotoisuus – ja se on luultavasti tärkeämpää kuin kilpailu ykkössijasta.
DeepSeek sijoittaa kymmenen mallia kuudenkymmenen parhaan joukkoon, tehden siitä kolmanneksi edustetuimman organisaation Anthropicin ja OpenAI:n jälkeen. Heidän v3.1 ja v3.2 varianttinsa ulottuvat kahdennestakymmenennestätoisesta viidenteenkymmenenteenkahdeksanteen, kattaen joukon luovan kyvykkyyden tasoja. Avoimen painon projektina DeepSeek edustaa jotain perustavanlaatuisesti erilaista kuin omisteiset johtajat: nämä mallit voidaan ladata, isännöidä paikallisesti ja hienosäätää (fine-tuned) tiettyihin luoviin tehtäviin. Jos rakennat tekoälykirjoitustyökalua tai integroit luovia kyvykkyyksiä tuoteputkeen, DeepSeek tarjoaa joustavuutta, johon pelkät API-mallit eivät pysty vastaamaan.
Laajempi kuva on vieläkin silmiinpistävämpi. DeepSeekin, Baidun, Moonshotin, Alibaban, Z.ai:n ja Tencentin välillä kiinalaiset tekoälylaboratoriot muodostavat nyt kaksikymmentäkaksi kuudestakymmenestä luokitellusta mallista – yli kolmanneksen koko tulostaulukosta. Moonshotin Kimi K2.5 debytoi ajattelevalla variantillaan sijalla kaksikymmentäyksi, nostaen yhtiön kolmeen sijoitukseen. Baidu pitää kolmea positiota ERNIE 5.0 -sarjallaan. Alibaban Qwen3:lla on kolme varianttia rankattuna. Z.ai:n GLM-4.7 istuu sijalla kaksikymmentäseitsemän. Tämä ei ole konvergenssia – se on aitoa monimuotoisuutta. Eri koulutusdata, eri kulttuuriset kontekstit ja eri kirjalliset perinteet tuottavat malleja, joilla on erilaiset luovat herkkyydet. Olen nähnyt ERNIEn luovan metaforia, jotka eivät tulisi mieleen länsimaisesti koulutetuille malleille, ja GLM:n käsittelevän kerronnan tahtia tavoilla, jotka tuntuvat tuoreilta juuri siksi, että kirjallinen DNA on erilainen. Globaali luova tekoälyekosysteemi on rikkaampi sen ansiosta.
OpenAI pitää hallussaan yhtätoista mallia, vaikka heidän luovalla tarinallaan on mielenkiintoinen sivujuoni. GPT-4.5-preview sijalla kaksitoista on edellä sekä GPT-5.1-high:ta sijalla neljätoista että GPT-5.1 standardia sijalla kaksikymmentäkolme. Joskus vivahteille optimoitu malli päihittää teknisesti ylivoimaisen seuraajansa tehtävissä, jotka arvostavat hienovaraisuutta raa'an kyvyn sijaan. ChatGPT-4o-latest sijalla seitsemäntoista vahvistaa pointtia: keskusteluun optimoiduilla malleilla on luontainen etu luovassa kirjoittamisessa, koska tarinankerronta on pohjimmiltaan keskustelevaa. Et laske vastausta – ylläpidät ääntä.
Grok on veistänyt aidon luovan identiteetin seitsemällä mallilla rankingissa. Missä Claude loistaa tunneälyssä, Grok tuo emotionaalista rehellisyyttä. Huumori on terävämpää, metaforat rohkeampia, hahmot vähemmän kiillotettuja ja elävämpiä. Kun haluan kirjoitusta, joka ottaa riskejä – fiktiota, joka saattaa tehdä lukijan epämukavaksi tuottavalla tavalla – Grok on se mistä aloitan. Se on malli, joka vähiten pelkää omaa ääntään, ja luovassa kirjoittamisessa pelottomuus merkitsee. Mistralin medium-2508 sijalla viisikymmentäkuusi edustaa Euroopan läsnäoloa taululla. Tencentin Hunyuan sijalla viisikymmentäkolme lisää vielä yhden äänen Kiinasta. Kenttä ei ole koskaan ollut laajempi.
Mihin Tämä Kaikki Johtaa
Kerron teille mitä luulen tapahtuvan seuraavaksi, koska trendit tässä datassa osoittavat jonnekin tiettyyn suuntaan.
Kuilu jatkaa puristumistaan. Hajaantuminen ensimmäisen ja kuudennenkymmenennen sijan välillä on karkeasti 7,4 prosenttia – tiukka historiallisilla standardeilla, ja kapenee jokaisella päivityksellä. Lähestymme kynnystä, jossa merkitykselliset erot mallien välillä siirtyvät raa'asta laadusta luovaan persoonallisuuteen. Kysymys lakkaa olemasta "mikä malli kirjoittaa parhaiten" ja muuttuu muotoon "minkä mallin ääni sopii tähän tiettyyn projektiin". Se on perustavanlaatuinen muutos siinä, miten kirjoittajien ja luovien tiimien tulisi ajatella tekoälyn valintaa.
Erikoistuneet luovat mallit ovat väistämättömiä. Yleiskäyttöinen arkkitehtuuri on työntänyt luovan kirjoittamisen laadun huomattavan pitkälle, mutta seuraava todellinen hyppy tulee malleista, jotka on nimenomaisesti viritetty kerronnalliseen rakenteeseen, hahmojen johdonmukaisuuteen, dialogin aitouteen tai runolliseen muotoon. Odotan vähintään yhden suuren laboratorion toimittavan luovan asiantuntijamallin tämän vuoden toiseen puoliskoon mennessä – sellaisen, joka sitoutuu täysin kirjalliseen kyvykkyyteen sen sijaan, että yrittäisi ratkaista matematiikkaa, kirjoittaa koodia ja kertoa tarinoita samanaikaisesti. Kun se tapahtuu, se nollaa tämän tulostaulukon huipun yhdessä yössä.
Avoimen painon mallit sulkevat jäljellä olevan kuilun. DeepSeekin kymmenen mallin läsnäolo on johtava indikaattori. Kun avoimet vaihtoehdot lähestyvät pariteettia omisteisten järjestelmien kanssa luovissa mittapuissa, tekoälyavusteisen kirjoittamisen taloustiede muuttuu dramaattisesti. Kirjoittajat, studiot ja kustantajat saavat pääsyn huippuluokan luovaan tekoälyyn ilman token-kohtaista hinnoittelua, mikä muuttaa omaksumiskäyriä ja perustavanlaatuista suhdetta ihmiskirjoittajien ja tekoälytyökalujen välillä.
Todellinen raja on orkestrointi, ei eristyneisyys. Hienostunein luova työ, jota olen viime aikoina nähnyt, ei käytä yhtä mallia – se käyttää kolmea tai neljää peräkkäin. Geminiä alkuideointiin ja tyylilliseen tutkimiseen. Claudea emotionaaliseen hienosäätöön ja dialogin kiillotukseen. DeepSeekiä tai Qwenia vaihtoehtoisiin kulttuurisiin näkökulmiin. Grokia kun luonnos tarvitsee särmää. Tulevaisuus ei ole yhden mallin kruunaamista kuninkaaksi. Se on yhtyeen johtamisen oppimista, jokaisen mallin luovan persoonallisuuden sovittamista oikeaan hetkeen kirjoitusprosessissa. Kirjoittajat, jotka keksivät tämän ensin, tuottavat teoksia, jotka tuntuvat erilaisilta kuin mikään, mitä yksi malli – tai yksi ihminen – voisi saavuttaa yksin.
Luovan Kumppanisi Valitseminen
Vuosien kirjoittamisen jälkeen näiden mallien rinnalla, tässä on mitä olen oppinut oikean työkalun sovittamisesta oikeaan tehtävään:
Monipuolisuus
Gemini 3 Pro mukautuu mihin tahansa genreen, mihin tahansa muotoon, mihin tahansa sävyyn. Kun toimeksianto on määrittelemätön tai projekti vaatii laajuutta, aloita tästä.
Emotionaalinen Syvyys
Claude Opus 4.6 kirjoittaa pidättyväisyydellä ja aidolla tunteella. Dialogiin, hahmotyöhön ja proosaan, jossa sanomatta jäänyt merkitsee eniten.
Nopeus & Laatu
Gemini 3 Flash todistaa, ettei nopea tarkoita huonompaa. Iteratiiviseen luonnosteluun, suuren volyymin projekteihin ja narratiivisten ideoiden nopeaan prototypointiin.
Persoonallisuus
Grok 4.1 ottaa luovia riskejä, joita muut mallit eivät ota. Fiktioon, joka tarvitsee särmää, huumoria ja hahmoja, jotka tuntuvat eläviltä eivätkä kootuilta.
Ei ole olemassa yhtä parasta luovaa tekoälyä. On kehittyviä ääniä eri vahvuuksilla, ja todellinen valta piilee siinä, että tietää mikä ääni palvelee mitäkin hetkeä tarinassa, jota yrität kertoa.
Datalähde: Rankingit Arena AI Luovan Kirjoittamisen Tulostaulukosta, 6. helmikuuta 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!