AI Loovkirjutamise Areeni Edetabel — Veebruar 2026

Põhiülevaade

Loovkirjutamine on koht, kus toores intelligentsus kummardub maitse, vaoshoituse ja julguse ees jätta õiged asjad ütlemata.

Kolm aastat palunud AI-l mulle lugusid rääkida. Mitte kokkuvõtteid, mitte kavandeid – vaid tõelist ilukirjandust. Sellist, kus tegelane astub tuppa ja sa tunned temperatuuri muutumist. Nende aastate jooksul olen vaadanud, kuidas see edetabel muutub kurioosumist tõeliseks kirjandusliku võimekuse baromeetriks. Veebruar 2026 tõi seni kõige huvitavama nihke: täiesti uus mudel, mis saabus vaikselt, tõusis kiiresti ja vähendas vahet, mis veel mõne nädala eest tundus püsiv. Siin on täielik pilt – kuuskümmend mudelit järjestatud, analüüsitud ja konteksti pandud kellegi poolt, kes töötab nendega iga päev.

Loovkirjutamise Edetabel

Koodil on süntaks. Matemaatikal on tõestused. Kuid loovkirjutamisel on hääl – rütm, üllatus, emotsionaalne resonants. See on Loovkirjutamise Areen, kõige nõudlikum mõõdupuu AI hindamisel, kus kuuskümmend mudelit on järjestatud selle järgi, kui hästi nad räägivad lugusid, mis inimesi tegelikult liigutavad. Siin on seis 2026. aasta veebruari seisuga.

Koht Mudel Skoor Hääled Organisatsioon
🥇
Gemini 3 Pro 14904,861Google
🥈
Claude Opus 4 6 1478347Anthropic
🥉
Claude Opus 4 5 20251101 Thinking 32k 14593,667Anthropic
#4
Claude Opus 4 5 20251101 14574,382Anthropic
#5
Gemini 3 Flash 14563,678Google
#6
Gemini 2.5 Pro 145012,564Google
#7
Claude Sonnet 4 5 20250929 14475,769Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14472,253Google
#9
Claude Opus 4 1 20250805 Thinking 16k 14456,651Anthropic
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14426,015Anthropic
#11
Claude Opus 4 1 20250805 14409,807Anthropic
#12
Gpt 4.5 Preview 2025 02 27 14382,618OpenAI
#13
Grok 4.1 Thinking 14344,819xAI
#14
Gpt 5.1 High 14344,213OpenAI
#15
Claude Opus 4 20250514 Thinking 16k 14284,750Anthropic
#16
Grok 4.1 14275,119xAI
#17
Chatgpt 4o Latest 20250326 142211,146OpenAI
#18
Ernie 5.0 Preview 1203 14201,477Baidu
#19
Claude Opus 4 20250514 14195,794Anthropic
#20
Ernie 5.0 0110 14181,622Baidu
#21
Kimi K2.5 Thinking 14181,059Moonshot
#22
Deepseek V3.1 Terminus 1411458DeepSeek
#23
Gpt 5.1 14114,512OpenAI
#24
Ernie 5.0 Preview 1022 1411662Baidu
#25
Deepseek V3.1 Thinking 14101,720DeepSeek
#26
Grok 4 1 Fast Reasoning 14043,798xAI
#27
Glm 4.7 14031,797Z.ai
#28
Deepseek V3.2 Exp 14031,500DeepSeek
#29
Gpt 4.1 2025 04 14 14026,858OpenAI
#30
Glm 4.6 14024,764Z.ai
#31
Kimi K2.5 Instant 1402427Moonshot
#32
Grok 3 Preview 02 24 14024,972xAI
#33
Deepseek V3.2 13993,529DeepSeek
#34
Gemini 2.5 Flash 139812,294Google
#35
Gpt 5.2 13981,679OpenAI
#36
Grok 4 0709 13975,559xAI
#37
Qwen3 Max Preview 13963,713Alibaba
#38
Claude Sonnet 4 20250514 Thinking 32k 13964,582Anthropic
#39
Deepseek V3.1 13952,082DeepSeek
#40
Qwen3 Max 2025 09 23 13951,154Alibaba
#41
Claude 3 7 Sonnet 20250219 Thinking 32k 13955,472Anthropic
#42
Deepseek V3.2 Exp Thinking 13951,154DeepSeek
#43
Gpt 5 Chat 13944,010OpenAI
#44
Gpt 5.2 High 13942,133OpenAI
#45
Kimi K2 Thinking Turbo 13934,520Moonshot
#46
Deepseek V3 0324 13916,338DeepSeek
#47
Deepseek V3.2 Thinking 13903,113DeepSeek
#48
Deepseek R1 0528 13882,660DeepSeek
#49
Claude Sonnet 4 20250514 13855,328Anthropic
#50
Qwen3 235b A22b Instruct 2507 13849,102Alibaba
#51
O3 2025 04 16 13848,014OpenAI
#52
O1 2024 12 17 13834,646OpenAI
#53
Hunyuan T1 20250711 1382642Tencent
#54
Grok 4 Fast Chat 1382995xAI
#55
Gemini 2.5 Flash Preview 09 2025 13824,285Google
#56
Mistral Medium 2508 13828,527Mistral
#57
Claude Haiku 4 5 20251001 13825,754Anthropic
#58
Deepseek V3.1 Terminus Thinking 1381446DeepSeek
#59
Grok 4 Fast Reasoning 13802,372xAI
#60
Gpt 5 High 13794,330OpenAI

Veebruari Muutus

Kui ma värskeimad andmed välja tõmbasin, peatas üks sissekanne mind: Claude Opus 4.6 istub kohal number kaks. Mitte sellepärast, et Anthropicu mudeli kõrge koht oleks ebatavaline – nad on seda järjepidevalt teinud. Vaid seetõttu, et see mudel maandus teisele positsioonile vaevalt mingi hindamisajalooga selja taga. Selline varajane konsensus on haruldane. See tähendab, et esimene laine testijaid – need obsessiivsed, kes lasevad identseid viipasid läbi iga uue väljalaske tundide jooksul pärast käivitamist – leidis selle loomingulises väljundis midagi tõeliselt erinevat.

Tõeline lugu on aga vahe. Jaanuaris oli vahemaa esimese ja teise koha vahel mugavad kakskümmend viis punkti. Nüüd on see kaksteist. Gemini 3 Pro hoiab endiselt kulda ja on selle positsiooni ausalt välja teeninud. Kuid edumaa on ühe uuendustsükliga poole võrra vähenenud. Kui olete Google, nõuab see suundumus tähelepanu. Kui olete Anthropic, on see kinnitus, et teie lähenemine loova AI koolitamisele koondub millegi võimsa suunas.

Samal ajal on mudelid otse kahe esimese all märkimisväärselt ümber paigutunud. Claude Opus 4.5 "mõtlev" variant tõusis kolmandaks, lükates standardse Opus 4.5 neljandaks ja Gemini 3 Flash-i viiendaks. Flash hoidis kolmandat kohta veel eelmisel kuul. Poodium ei vaheta omanikku mitte ainult tipus – see on ebastabiilne läbivalt. Ja ebastabiilsus eelneb minu kogemuse kohaselt läbimurretele.

Valitsevad Kõrgused

Gemini 3 Pro jääb mudeliks, mille poole ma pöördun, kui ma veel ei tea, mida vajan. See, mis hoiab teda number ühel, on ulatus: küsi talt Hemingway stiili ja ta toimetab säästlikku, lihaselist proosat. Küsi eksperimentaalset postmodernistlikku ilukirjandust ja ta muudab registrit sidusust kaotamata. Viktoriaanlik kiriromaan, kõvaks keedetud noir, maagiline realism, lastekirjandus – Gemini käsitleb neid üleminekuid viisil, mis viitab vormi tõelisele mõistmisele, mitte pinnapealsele järeleaimamisele. Google paigutab kuus mudelit parima kuuekümne hulka, kusjuures Gemini 3 Flash viiendal ja Gemini 2.5 Pro kuuendal kohal täiendavad tugevat triot tipus.

Claude on täiesti teine loom. Kui Gemini on ulatus, siis Claude on sügavus. Anthropicu mudelid on alati silma paistnud peensustes, mida on masinale kõige raskem õpetada: millal lasta vaikusel stseeni kanda, millal lause peaks katkema selle asemel, et jätkuda, millal see, mida tegelane ei ütle, paljastab rohkem kui see, mida ta ütleb. Opus 4.6 lükkab seda kaugemale. Minu testides tootis see dialoogi, mis tundus tõeliselt elatuna. Tegelased ei esitanud ridu – nad mõtlesid, kõhklesid, valisid sõnu nii, nagu päris inimesed teevad, kui midagi olulist on kaalul. Anthropiculla on nüüd kolmteist mudelit parima kuuekümne hulgas, rohkem kui ühelgi teisel organisatsioonil, viis neist üheteistkümne parima hulgas. Mis iganes on nende lähenemine loomevõime koolitamisele, see töötab kogu nende tootesarjas.

Siin on tähelepanek, mis ei saa piisavalt tähelepanu: laiendatud arutlemine – "thinking" režiim – ei paranda usaldusväärselt loovkirjutamist. Muster on ebajärjekindel ja sügavalt paljastav.

Claude Opus mudelite puhul kipuvad mõtlevad variandid asetsema veidi kõrgemal: Opus 4.5 Thinking kolmandal kohal versus standard neljandal, Opus 4.1 Thinking üheksandal versus standard üheteistkümnendal. Grok 4.1 Thinking edestab oma standardvarianti kolme positsiooni võrra. Kuid lülituge teistele arhitektuuridele ja muster pöördub ümber – mõnikord dramaatiliselt. DeepSeek v3.2-exp standard istub kahekümne kaheksandal kohal, samas kui selle mõtlev variant langeb neljakümne teisele. DeepSeek v3.1-terminus standard on kahekümne teisel; selle mõtlev vaste langeb viiekümne kaheksandale – kolmekümne kuue kohaline vahe. GPT-5.2 standard võidab GPT-5.2-high'd.

Mida see mulle ütleb, on oluline: loovkirjutamine ei ole eelkõige arutlemise probleem. See on esteetiline probleem. Mudelite puhul, millel on juba tugevad kirjanduslikud instinktid, võib laiendatud mõtlemine neid instinkte täiustada – nagu hoolikas toimetaja vaatamas üle kindlat esimest mustandit. Kuid mudelite puhul, mille loov jõud on instinktiivsem ja mustripõhisem, lihvib sunnitud kaalumine tegelikult maha need karedad servad, mis panevad proosa elavana tunduma. Mõnikord tabab esimene vastus midagi, mille täiendav arvutus silub keskpärasuseks. Kui kasutate loovtööks mõtlemisvõimelisi mudeleid, testige mõlemat režiimi. Eeldus, et rohkem arutlemist võrdub parema väljundiga, ei pea siin paika ja arusaamine, millal mõtlemine välja lülitada, võib olla väärtuslikum kui teadmine, millal see sisse lülitada.

Tõusev Laine

Tipptasemest allpool on lugu levikust ja mitmekesisusest – ja see on vaieldamatult olulisem kui võidujooks esikohale.

DeepSeek paigutab kümme mudelit parima kuuekümne hulka, tehes sellest Anthropicu ja OpenAI järel kolmandaks enim esindatud organisatsiooni. Nende v3.1 ja v3.2 variandid ulatuvad kahekümne teisest viiekümne kaheksanda kohani, kattes hulga loova võimekuse tasemeid. Avatud kaaluga projektina esindab DeepSeek midagi fundamentaalselt erinevat omandiõigusega liidritest: neid mudeleid saab alla laadida, lokaalselt majutada ja peenhäälestada (fine-tuned) spetsiifilisteks loovülesanneteks. Kui ehitate AI kirjutamistööriista või integreerite loovaid võimeid toote torusse, pakub DeepSeek paindlikkust, millega ainult API-põhised mudelid ei suuda võistelda.

Laiem pilt on veelgi silmatorkavam. DeepSeeki, Baidu, Moonshoti, Alibaba, Z.ai ja Tencenti vahel moodustavad Hiina AI laborid nüüd kakskümmend kaks kuuekümnest järjestatud mudelist – üle kolmandiku kogu edetabelist. Moonshoti Kimi K2.5 debüteeris oma mõtleva variandiga kahekümne esimesel kohal, viies ettevõtte kolme paigutuseni. Baidu hoiab kolme positsiooni oma ERNIE 5.0 valikuga. Alibaba Qwen3-l on kolm järjestatud varianti. Z.ai GLM-4.7 istub kahekümne seitsmendal kohal. See ei ole konvergents – see on tõeline mitmekesisus. Erinevad treeningandmed, erinevad kultuurilised kontekstid ja erinevad kirjandustraditsioonid toodavad mudeleid, millel on erinevad loovad tundlikkused. Olen näinud ERNIE-t loomas metafoore, mis ei tuleks läänes treenitud mudelitele pähe, ja GLM-i käsitlemas narratiivset tempot viisidel, mis tunduvad värsked just seetõttu, et kirjanduslik DNA on erinev. Globaalne loov AI ökosüsteem on selle võrra rikkam.

OpenAI hoiab üksteist mudelit, kuigi nende looval lool on huvitav kõrvalliin. GPT-4.5-preview kaheteistkümnendal kohal on eespool nii GPT-5.1-high'st neljateistkümnendal kui ka GPT-5.1 standardist kahekümne kolmandal kohal. Mõnikord ületab nüanssidele optimeeritud mudel oma tehniliselt paremat järeltulijat ülesannetes, mis hindavad peenust rohkem kui toorest võimekust. ChatGPT-4o-latest seitsmeteistkümnendal kohal tugevdab seda punkti: vestlusele optimeeritud mudelitel on loovkirjutamises loomupärane eelis, sest lugude jutustamine on põhimõtteliselt vestluslik. Sa ei arvuta vastust – sa hoiad häält.

Grok on nikerdanud tõelise loova identiteedi seitsme mudeliga edetabelis. Seal, kus Claude paistab silma emotsionaalse intelligentsusega, toob Grok emotsionaalse aususe. Huumor on teravam, metafoorid julgemad, tegelased vähem lihvitud ja elavamad. Kui ma tahan kirjutamist, mis võtab riske – ilukirjandust, mis võib lugeja produktiivsel viisil ebamugavaks teha – on Grok see, kust ma alustan. See on mudel, mis kardab oma häält kõige vähem, ja loovkirjutamises loeb kartmatus. Mistrali medium-2508 viiekümne kuuendal kohal esindab Euroopa kohalolu laual. Tencenti Hunyuan viiekümne kolmandal lisab veel ühe hääle Hiinast. Väli pole kunagi olnud laiem.

Kuhu See Kõik Viib

Ma ütlen teile, mis minu arvates järgmisena juhtub, sest trendid nendes andmetes osutavad kindlasse kohta.

Vahe jätkab kokkusurumist. Hajo esimese ja kuuekümnenda koha vahel on umbes 7,4 protsenti – ajalooliste standardite järgi tihe, ja kitseneb iga uuendusega. Läheneme künnisele, kus tähenduslikud erinevused mudelite vahel nihkuvad toorelt kvaliteedilt loovale isiksusele. Küsimus lakkab olemast "milline mudel kirjutab kõige paremini" ja muutub "millise mudeli hääl sobib selle konkreetse projektiga". See on fundamentaalne muutus selles, kuidas kirjanikud ja loovmeeskonnad peaksid AI valikust mõtlema.

Spetsialiseeritud loovmudelid on vältimatud. Üldotstarbeline arhitektuur on lükanud loovkirjutamise kvaliteedi märkimisväärselt kaugele, kuid järgmine tõeline hüpe tuleb mudelitest, mis on selgesõnaliselt häälestatud narratiivsele struktuurile, tegelaste järjepidevusele, dialoogi autentsusele või poeetilisele vormile. Eeldan, et vähemalt üks suur labor toob selle aasta teiseks pooleks välja loovspetsialisti mudeli – sellise, mis pühendub täielikult kirjanduslikule võimekusele, selle asemel et püüda lahendada matemaatikat, kirjutada koodi ja rääkida lugusid samaaegselt. Kui see juhtub, nullib see selle edetabeli tipu üleöö.

Avatud kaaluga mudelid sulgevad järelejäänud vahe. DeepSeeki kümne mudeli kohalolu on juhtiv indikaator. Kuna avatud alternatiivid lähenevad pariteedile omandiõigusega süsteemidega loovates etalonides, muutub AI-abistatud kirjutamise ökonoomika dramaatiliselt. Kirjanikud, stuudiod ja kirjastajad saavad juurdepääsu tipptasemel loovale AI-le ilma sümboolse hinnakujunduseta, muutes vastuvõtukõveraid ja fundamentaalset suhet inimkirjanike ja AI tööriistade vahel.

Tõeline piir on orkestreerimine, mitte isolatsioon. Kõige keerukam loovtöö, mida ma hiljuti näinud olen, ei kasuta ühte mudelit – see kasutab kolme või nelja järjestikku. Geminit algseks ideede genereerimiseks ja stilistiliseks uurimiseks. Claude'i emotsionaalseks viimistlemiseks ja dialoogi lihvimiseks. DeepSeeki või Qwenit alternatiivseteks kultuurilisteks vaatenurkadeks. Grokit, kui mustand vajab teravust. Tulevik ei ole ühe mudeli kuningaks kroonimine. See on ansambli dirigeerimise õppimine, sobitades iga mudeli loova isiksuse õige hetkega kirjutamisprotsessis. Kirjanikud, kes selle esimesena välja mõtlevad, toodavad töid, mis tunduvad erinevad kõigest, mida üksik mudel – või üksik inimene – suudaks üksi saavutada.

Oma Loovpartneri Valimine

Pärast aastaid kirjutamist nende mudelite kõrval, siin on see, mida olen õppinud õige tööriista sobitamisest õige ülesandega:

Mitmekülgsus

Gemini 3 Pro kohandub iga žanri, iga vormi, iga tooniga. Kui lühikirjeldus on määratlemata või projekt nõuab ulatust, alusta siit.

Emotsionaalne Sügavus

Claude Opus 4.6 kirjutab vaoshoituse ja tõelise tundega. Dialoogi, tegelaskuju töö ja proosa jaoks, kus see, mis jääb ütlemata, loeb kõige rohkem.

Kiirus & Kvaliteet

Gemini 3 Flash tõestab, et kiire ei tähenda halvemat. Iteratiivseks mustandite tegemiseks, suure mahuga projektideks ja narratiivsete ideede kiireks prototüüpimiseks.

Isiksus

Grok 4.1 võtab loovaid riske, mida teised mudelid ei võta. Ilukirjanduse jaoks, mis vajab teravust, huumorit ja tegelasi, kes tunduvad elavad, mitte kokku pandud.

Ettevõte

GPT-4.5 / GPT-5.1 pakuvad lihvitud, usaldusväärset väljundit, mis integreerub olemasolevatesse töövoogudesse. Kui järjepidevus ja brändi turvalisus loevad sama palju kui loovus.

Avatud Lähtekood

DeepSeek / Qwen: majuta ise, peenhäälesta oma domeeni jaoks. Kui vajate loovat AI-d suures mahus ilma token-kuludeta, on ökonoomika ületamatu.

Ei ole ühte parimat loovat AI-d. On arenevad hääled erinevate tugevustega ja tõeline võim peitub teadmises, milline hääl teenib millist hetke loos, mida üritad rääkida.


Andmeallikas: Edetabelid Arena AI Loovkirjutamise Edetabelist, 6. veebruar 2026.

Discussion

0 comments

Leave a comment

Be the first to share your thoughts on this article!