Loovkirjutamine on koht, kus toores intelligentsus kummardub maitse, vaoshoituse ja julguse ees jätta õiged asjad ütlemata.
Kolm aastat palunud AI-l mulle lugusid rääkida. Mitte kokkuvõtteid, mitte kavandeid – vaid tõelist ilukirjandust. Sellist, kus tegelane astub tuppa ja sa tunned temperatuuri muutumist. Nende aastate jooksul olen vaadanud, kuidas see edetabel muutub kurioosumist tõeliseks kirjandusliku võimekuse baromeetriks. Veebruar 2026 tõi seni kõige huvitavama nihke: täiesti uus mudel, mis saabus vaikselt, tõusis kiiresti ja vähendas vahet, mis veel mõne nädala eest tundus püsiv. Siin on täielik pilt – kuuskümmend mudelit järjestatud, analüüsitud ja konteksti pandud kellegi poolt, kes töötab nendega iga päev.
Loovkirjutamise Edetabel
Koodil on süntaks. Matemaatikal on tõestused. Kuid loovkirjutamisel on hääl – rütm, üllatus, emotsionaalne resonants. See on Loovkirjutamise Areen, kõige nõudlikum mõõdupuu AI hindamisel, kus kuuskümmend mudelit on järjestatud selle järgi, kui hästi nad räägivad lugusid, mis inimesi tegelikult liigutavad. Siin on seis 2026. aasta veebruari seisuga.
| Koht | Mudel | Skoor | Hääled | Organisatsioon |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Veebruari Muutus
Kui ma värskeimad andmed välja tõmbasin, peatas üks sissekanne mind: Claude Opus 4.6 istub kohal number kaks. Mitte sellepärast, et Anthropicu mudeli kõrge koht oleks ebatavaline – nad on seda järjepidevalt teinud. Vaid seetõttu, et see mudel maandus teisele positsioonile vaevalt mingi hindamisajalooga selja taga. Selline varajane konsensus on haruldane. See tähendab, et esimene laine testijaid – need obsessiivsed, kes lasevad identseid viipasid läbi iga uue väljalaske tundide jooksul pärast käivitamist – leidis selle loomingulises väljundis midagi tõeliselt erinevat.
Tõeline lugu on aga vahe. Jaanuaris oli vahemaa esimese ja teise koha vahel mugavad kakskümmend viis punkti. Nüüd on see kaksteist. Gemini 3 Pro hoiab endiselt kulda ja on selle positsiooni ausalt välja teeninud. Kuid edumaa on ühe uuendustsükliga poole võrra vähenenud. Kui olete Google, nõuab see suundumus tähelepanu. Kui olete Anthropic, on see kinnitus, et teie lähenemine loova AI koolitamisele koondub millegi võimsa suunas.
Samal ajal on mudelid otse kahe esimese all märkimisväärselt ümber paigutunud. Claude Opus 4.5 "mõtlev" variant tõusis kolmandaks, lükates standardse Opus 4.5 neljandaks ja Gemini 3 Flash-i viiendaks. Flash hoidis kolmandat kohta veel eelmisel kuul. Poodium ei vaheta omanikku mitte ainult tipus – see on ebastabiilne läbivalt. Ja ebastabiilsus eelneb minu kogemuse kohaselt läbimurretele.
Valitsevad Kõrgused
Gemini 3 Pro jääb mudeliks, mille poole ma pöördun, kui ma veel ei tea, mida vajan. See, mis hoiab teda number ühel, on ulatus: küsi talt Hemingway stiili ja ta toimetab säästlikku, lihaselist proosat. Küsi eksperimentaalset postmodernistlikku ilukirjandust ja ta muudab registrit sidusust kaotamata. Viktoriaanlik kiriromaan, kõvaks keedetud noir, maagiline realism, lastekirjandus – Gemini käsitleb neid üleminekuid viisil, mis viitab vormi tõelisele mõistmisele, mitte pinnapealsele järeleaimamisele. Google paigutab kuus mudelit parima kuuekümne hulka, kusjuures Gemini 3 Flash viiendal ja Gemini 2.5 Pro kuuendal kohal täiendavad tugevat triot tipus.
Claude on täiesti teine loom. Kui Gemini on ulatus, siis Claude on sügavus. Anthropicu mudelid on alati silma paistnud peensustes, mida on masinale kõige raskem õpetada: millal lasta vaikusel stseeni kanda, millal lause peaks katkema selle asemel, et jätkuda, millal see, mida tegelane ei ütle, paljastab rohkem kui see, mida ta ütleb. Opus 4.6 lükkab seda kaugemale. Minu testides tootis see dialoogi, mis tundus tõeliselt elatuna. Tegelased ei esitanud ridu – nad mõtlesid, kõhklesid, valisid sõnu nii, nagu päris inimesed teevad, kui midagi olulist on kaalul. Anthropiculla on nüüd kolmteist mudelit parima kuuekümne hulgas, rohkem kui ühelgi teisel organisatsioonil, viis neist üheteistkümne parima hulgas. Mis iganes on nende lähenemine loomevõime koolitamisele, see töötab kogu nende tootesarjas.
Siin on tähelepanek, mis ei saa piisavalt tähelepanu: laiendatud arutlemine – "thinking" režiim – ei paranda usaldusväärselt loovkirjutamist. Muster on ebajärjekindel ja sügavalt paljastav.
Claude Opus mudelite puhul kipuvad mõtlevad variandid asetsema veidi kõrgemal: Opus 4.5 Thinking kolmandal kohal versus standard neljandal, Opus 4.1 Thinking üheksandal versus standard üheteistkümnendal. Grok 4.1 Thinking edestab oma standardvarianti kolme positsiooni võrra. Kuid lülituge teistele arhitektuuridele ja muster pöördub ümber – mõnikord dramaatiliselt. DeepSeek v3.2-exp standard istub kahekümne kaheksandal kohal, samas kui selle mõtlev variant langeb neljakümne teisele. DeepSeek v3.1-terminus standard on kahekümne teisel; selle mõtlev vaste langeb viiekümne kaheksandale – kolmekümne kuue kohaline vahe. GPT-5.2 standard võidab GPT-5.2-high'd.
Mida see mulle ütleb, on oluline: loovkirjutamine ei ole eelkõige arutlemise probleem. See on esteetiline probleem. Mudelite puhul, millel on juba tugevad kirjanduslikud instinktid, võib laiendatud mõtlemine neid instinkte täiustada – nagu hoolikas toimetaja vaatamas üle kindlat esimest mustandit. Kuid mudelite puhul, mille loov jõud on instinktiivsem ja mustripõhisem, lihvib sunnitud kaalumine tegelikult maha need karedad servad, mis panevad proosa elavana tunduma. Mõnikord tabab esimene vastus midagi, mille täiendav arvutus silub keskpärasuseks. Kui kasutate loovtööks mõtlemisvõimelisi mudeleid, testige mõlemat režiimi. Eeldus, et rohkem arutlemist võrdub parema väljundiga, ei pea siin paika ja arusaamine, millal mõtlemine välja lülitada, võib olla väärtuslikum kui teadmine, millal see sisse lülitada.
Tõusev Laine
Tipptasemest allpool on lugu levikust ja mitmekesisusest – ja see on vaieldamatult olulisem kui võidujooks esikohale.
DeepSeek paigutab kümme mudelit parima kuuekümne hulka, tehes sellest Anthropicu ja OpenAI järel kolmandaks enim esindatud organisatsiooni. Nende v3.1 ja v3.2 variandid ulatuvad kahekümne teisest viiekümne kaheksanda kohani, kattes hulga loova võimekuse tasemeid. Avatud kaaluga projektina esindab DeepSeek midagi fundamentaalselt erinevat omandiõigusega liidritest: neid mudeleid saab alla laadida, lokaalselt majutada ja peenhäälestada (fine-tuned) spetsiifilisteks loovülesanneteks. Kui ehitate AI kirjutamistööriista või integreerite loovaid võimeid toote torusse, pakub DeepSeek paindlikkust, millega ainult API-põhised mudelid ei suuda võistelda.
Laiem pilt on veelgi silmatorkavam. DeepSeeki, Baidu, Moonshoti, Alibaba, Z.ai ja Tencenti vahel moodustavad Hiina AI laborid nüüd kakskümmend kaks kuuekümnest järjestatud mudelist – üle kolmandiku kogu edetabelist. Moonshoti Kimi K2.5 debüteeris oma mõtleva variandiga kahekümne esimesel kohal, viies ettevõtte kolme paigutuseni. Baidu hoiab kolme positsiooni oma ERNIE 5.0 valikuga. Alibaba Qwen3-l on kolm järjestatud varianti. Z.ai GLM-4.7 istub kahekümne seitsmendal kohal. See ei ole konvergents – see on tõeline mitmekesisus. Erinevad treeningandmed, erinevad kultuurilised kontekstid ja erinevad kirjandustraditsioonid toodavad mudeleid, millel on erinevad loovad tundlikkused. Olen näinud ERNIE-t loomas metafoore, mis ei tuleks läänes treenitud mudelitele pähe, ja GLM-i käsitlemas narratiivset tempot viisidel, mis tunduvad värsked just seetõttu, et kirjanduslik DNA on erinev. Globaalne loov AI ökosüsteem on selle võrra rikkam.
OpenAI hoiab üksteist mudelit, kuigi nende looval lool on huvitav kõrvalliin. GPT-4.5-preview kaheteistkümnendal kohal on eespool nii GPT-5.1-high'st neljateistkümnendal kui ka GPT-5.1 standardist kahekümne kolmandal kohal. Mõnikord ületab nüanssidele optimeeritud mudel oma tehniliselt paremat järeltulijat ülesannetes, mis hindavad peenust rohkem kui toorest võimekust. ChatGPT-4o-latest seitsmeteistkümnendal kohal tugevdab seda punkti: vestlusele optimeeritud mudelitel on loovkirjutamises loomupärane eelis, sest lugude jutustamine on põhimõtteliselt vestluslik. Sa ei arvuta vastust – sa hoiad häält.
Grok on nikerdanud tõelise loova identiteedi seitsme mudeliga edetabelis. Seal, kus Claude paistab silma emotsionaalse intelligentsusega, toob Grok emotsionaalse aususe. Huumor on teravam, metafoorid julgemad, tegelased vähem lihvitud ja elavamad. Kui ma tahan kirjutamist, mis võtab riske – ilukirjandust, mis võib lugeja produktiivsel viisil ebamugavaks teha – on Grok see, kust ma alustan. See on mudel, mis kardab oma häält kõige vähem, ja loovkirjutamises loeb kartmatus. Mistrali medium-2508 viiekümne kuuendal kohal esindab Euroopa kohalolu laual. Tencenti Hunyuan viiekümne kolmandal lisab veel ühe hääle Hiinast. Väli pole kunagi olnud laiem.
Kuhu See Kõik Viib
Ma ütlen teile, mis minu arvates järgmisena juhtub, sest trendid nendes andmetes osutavad kindlasse kohta.
Vahe jätkab kokkusurumist. Hajo esimese ja kuuekümnenda koha vahel on umbes 7,4 protsenti – ajalooliste standardite järgi tihe, ja kitseneb iga uuendusega. Läheneme künnisele, kus tähenduslikud erinevused mudelite vahel nihkuvad toorelt kvaliteedilt loovale isiksusele. Küsimus lakkab olemast "milline mudel kirjutab kõige paremini" ja muutub "millise mudeli hääl sobib selle konkreetse projektiga". See on fundamentaalne muutus selles, kuidas kirjanikud ja loovmeeskonnad peaksid AI valikust mõtlema.
Spetsialiseeritud loovmudelid on vältimatud. Üldotstarbeline arhitektuur on lükanud loovkirjutamise kvaliteedi märkimisväärselt kaugele, kuid järgmine tõeline hüpe tuleb mudelitest, mis on selgesõnaliselt häälestatud narratiivsele struktuurile, tegelaste järjepidevusele, dialoogi autentsusele või poeetilisele vormile. Eeldan, et vähemalt üks suur labor toob selle aasta teiseks pooleks välja loovspetsialisti mudeli – sellise, mis pühendub täielikult kirjanduslikule võimekusele, selle asemel et püüda lahendada matemaatikat, kirjutada koodi ja rääkida lugusid samaaegselt. Kui see juhtub, nullib see selle edetabeli tipu üleöö.
Avatud kaaluga mudelid sulgevad järelejäänud vahe. DeepSeeki kümne mudeli kohalolu on juhtiv indikaator. Kuna avatud alternatiivid lähenevad pariteedile omandiõigusega süsteemidega loovates etalonides, muutub AI-abistatud kirjutamise ökonoomika dramaatiliselt. Kirjanikud, stuudiod ja kirjastajad saavad juurdepääsu tipptasemel loovale AI-le ilma sümboolse hinnakujunduseta, muutes vastuvõtukõveraid ja fundamentaalset suhet inimkirjanike ja AI tööriistade vahel.
Tõeline piir on orkestreerimine, mitte isolatsioon. Kõige keerukam loovtöö, mida ma hiljuti näinud olen, ei kasuta ühte mudelit – see kasutab kolme või nelja järjestikku. Geminit algseks ideede genereerimiseks ja stilistiliseks uurimiseks. Claude'i emotsionaalseks viimistlemiseks ja dialoogi lihvimiseks. DeepSeeki või Qwenit alternatiivseteks kultuurilisteks vaatenurkadeks. Grokit, kui mustand vajab teravust. Tulevik ei ole ühe mudeli kuningaks kroonimine. See on ansambli dirigeerimise õppimine, sobitades iga mudeli loova isiksuse õige hetkega kirjutamisprotsessis. Kirjanikud, kes selle esimesena välja mõtlevad, toodavad töid, mis tunduvad erinevad kõigest, mida üksik mudel – või üksik inimene – suudaks üksi saavutada.
Oma Loovpartneri Valimine
Pärast aastaid kirjutamist nende mudelite kõrval, siin on see, mida olen õppinud õige tööriista sobitamisest õige ülesandega:
Mitmekülgsus
Gemini 3 Pro kohandub iga žanri, iga vormi, iga tooniga. Kui lühikirjeldus on määratlemata või projekt nõuab ulatust, alusta siit.
Emotsionaalne Sügavus
Claude Opus 4.6 kirjutab vaoshoituse ja tõelise tundega. Dialoogi, tegelaskuju töö ja proosa jaoks, kus see, mis jääb ütlemata, loeb kõige rohkem.
Kiirus & Kvaliteet
Gemini 3 Flash tõestab, et kiire ei tähenda halvemat. Iteratiivseks mustandite tegemiseks, suure mahuga projektideks ja narratiivsete ideede kiireks prototüüpimiseks.
Isiksus
Grok 4.1 võtab loovaid riske, mida teised mudelid ei võta. Ilukirjanduse jaoks, mis vajab teravust, huumorit ja tegelasi, kes tunduvad elavad, mitte kokku pandud.
Ei ole ühte parimat loovat AI-d. On arenevad hääled erinevate tugevustega ja tõeline võim peitub teadmises, milline hääl teenib millist hetke loos, mida üritad rääkida.
Andmeallikas: Edetabelid Arena AI Loovkirjutamise Edetabelist, 6. veebruar 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!