AI Loovkirjutamise Areeni Edetabel — Veebruar 2026

Põhiülevaade

Loovkirjutamine on koht, kus toores intelligentsus kummardub maitse, vaoshoituse ja julguse ees jätta õiged asjad ütlemata.

Kolm aastat palunud AI-l mulle lugusid rääkida. Mitte kokkuvõtteid, mitte kavandeid – vaid tõelist ilukirjandust. Sellist, kus tegelane astub tuppa ja sa tunned temperatuuri muutumist. Nende aastate jooksul olen vaadanud, kuidas see edetabel muutub kurioosumist tõeliseks kirjandusliku võimekuse baromeetriks. Veebruar 2026 tõi seni kõige huvitavama nihke: täiesti uus mudel, mis saabus vaikselt, tõusis kiiresti ja vähendas vahet, mis veel mõne nädala eest tundus püsiv. Siin on täielik pilt – kuuskümmend mudelit järjestatud, analüüsitud ja konteksti pandud kellegi poolt, kes töötab nendega iga päev.

Loovkirjutamise Edetabel

Koodil on süntaks. Matemaatikal on tõestused. Kuid loovkirjutamisel on hääl – rütm, üllatus, emotsionaalne resonants. See on Loovkirjutamise Areen, kõige nõudlikum mõõdupuu AI hindamisel, kus kuuskümmend mudelit on järjestatud selle järgi, kui hästi nad räägivad lugusid, mis inimesi tegelikult liigutavad. Siin on seis 2026. aasta veebruari seisuga.

Koht	Mudel	Skoor	Hääled	Organisatsioon
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Veebruari Muutus

Kui ma värskeimad andmed välja tõmbasin, peatas üks sissekanne mind: Claude Opus 4.6 istub kohal number kaks. Mitte sellepärast, et Anthropicu mudeli kõrge koht oleks ebatavaline – nad on seda järjepidevalt teinud. Vaid seetõttu, et see mudel maandus teisele positsioonile vaevalt mingi hindamisajalooga selja taga. Selline varajane konsensus on haruldane. See tähendab, et esimene laine testijaid – need obsessiivsed, kes lasevad identseid viipasid läbi iga uue väljalaske tundide jooksul pärast käivitamist – leidis selle loomingulises väljundis midagi tõeliselt erinevat.

Tõeline lugu on aga vahe. Jaanuaris oli vahemaa esimese ja teise koha vahel mugavad kakskümmend viis punkti. Nüüd on see kaksteist. Gemini 3 Pro hoiab endiselt kulda ja on selle positsiooni ausalt välja teeninud. Kuid edumaa on ühe uuendustsükliga poole võrra vähenenud. Kui olete Google, nõuab see suundumus tähelepanu. Kui olete Anthropic, on see kinnitus, et teie lähenemine loova AI koolitamisele koondub millegi võimsa suunas.

Samal ajal on mudelid otse kahe esimese all märkimisväärselt ümber paigutunud. Claude Opus 4.5 "mõtlev" variant tõusis kolmandaks, lükates standardse Opus 4.5 neljandaks ja Gemini 3 Flash-i viiendaks. Flash hoidis kolmandat kohta veel eelmisel kuul. Poodium ei vaheta omanikku mitte ainult tipus – see on ebastabiilne läbivalt. Ja ebastabiilsus eelneb minu kogemuse kohaselt läbimurretele.

Valitsevad Kõrgused

Gemini 3 Pro jääb mudeliks, mille poole ma pöördun, kui ma veel ei tea, mida vajan. See, mis hoiab teda number ühel, on ulatus: küsi talt Hemingway stiili ja ta toimetab säästlikku, lihaselist proosat. Küsi eksperimentaalset postmodernistlikku ilukirjandust ja ta muudab registrit sidusust kaotamata. Viktoriaanlik kiriromaan, kõvaks keedetud noir, maagiline realism, lastekirjandus – Gemini käsitleb neid üleminekuid viisil, mis viitab vormi tõelisele mõistmisele, mitte pinnapealsele järeleaimamisele. Google paigutab kuus mudelit parima kuuekümne hulka, kusjuures Gemini 3 Flash viiendal ja Gemini 2.5 Pro kuuendal kohal täiendavad tugevat triot tipus.

Claude on täiesti teine loom. Kui Gemini on ulatus, siis Claude on sügavus. Anthropicu mudelid on alati silma paistnud peensustes, mida on masinale kõige raskem õpetada: millal lasta vaikusel stseeni kanda, millal lause peaks katkema selle asemel, et jätkuda, millal see, mida tegelane ei ütle, paljastab rohkem kui see, mida ta ütleb. Opus 4.6 lükkab seda kaugemale. Minu testides tootis see dialoogi, mis tundus tõeliselt elatuna. Tegelased ei esitanud ridu – nad mõtlesid, kõhklesid, valisid sõnu nii, nagu päris inimesed teevad, kui midagi olulist on kaalul. Anthropiculla on nüüd kolmteist mudelit parima kuuekümne hulgas, rohkem kui ühelgi teisel organisatsioonil, viis neist üheteistkümne parima hulgas. Mis iganes on nende lähenemine loomevõime koolitamisele, see töötab kogu nende tootesarjas.

Siin on tähelepanek, mis ei saa piisavalt tähelepanu: laiendatud arutlemine – "thinking" režiim – ei paranda usaldusväärselt loovkirjutamist. Muster on ebajärjekindel ja sügavalt paljastav.

Claude Opus mudelite puhul kipuvad mõtlevad variandid asetsema veidi kõrgemal: Opus 4.5 Thinking kolmandal kohal versus standard neljandal, Opus 4.1 Thinking üheksandal versus standard üheteistkümnendal. Grok 4.1 Thinking edestab oma standardvarianti kolme positsiooni võrra. Kuid lülituge teistele arhitektuuridele ja muster pöördub ümber – mõnikord dramaatiliselt. DeepSeek v3.2-exp standard istub kahekümne kaheksandal kohal, samas kui selle mõtlev variant langeb neljakümne teisele. DeepSeek v3.1-terminus standard on kahekümne teisel; selle mõtlev vaste langeb viiekümne kaheksandale – kolmekümne kuue kohaline vahe. GPT-5.2 standard võidab GPT-5.2-high'd.

Mida see mulle ütleb, on oluline: loovkirjutamine ei ole eelkõige arutlemise probleem. See on esteetiline probleem. Mudelite puhul, millel on juba tugevad kirjanduslikud instinktid, võib laiendatud mõtlemine neid instinkte täiustada – nagu hoolikas toimetaja vaatamas üle kindlat esimest mustandit. Kuid mudelite puhul, mille loov jõud on instinktiivsem ja mustripõhisem, lihvib sunnitud kaalumine tegelikult maha need karedad servad, mis panevad proosa elavana tunduma. Mõnikord tabab esimene vastus midagi, mille täiendav arvutus silub keskpärasuseks. Kui kasutate loovtööks mõtlemisvõimelisi mudeleid, testige mõlemat režiimi. Eeldus, et rohkem arutlemist võrdub parema väljundiga, ei pea siin paika ja arusaamine, millal mõtlemine välja lülitada, võib olla väärtuslikum kui teadmine, millal see sisse lülitada.

Tõusev Laine

Tipptasemest allpool on lugu levikust ja mitmekesisusest – ja see on vaieldamatult olulisem kui võidujooks esikohale.

DeepSeek paigutab kümme mudelit parima kuuekümne hulka, tehes sellest Anthropicu ja OpenAI järel kolmandaks enim esindatud organisatsiooni. Nende v3.1 ja v3.2 variandid ulatuvad kahekümne teisest viiekümne kaheksanda kohani, kattes hulga loova võimekuse tasemeid. Avatud kaaluga projektina esindab DeepSeek midagi fundamentaalselt erinevat omandiõigusega liidritest: neid mudeleid saab alla laadida, lokaalselt majutada ja peenhäälestada (fine-tuned) spetsiifilisteks loovülesanneteks. Kui ehitate AI kirjutamistööriista või integreerite loovaid võimeid toote torusse, pakub DeepSeek paindlikkust, millega ainult API-põhised mudelid ei suuda võistelda.

Laiem pilt on veelgi silmatorkavam. DeepSeeki, Baidu, Moonshoti, Alibaba, Z.ai ja Tencenti vahel moodustavad Hiina AI laborid nüüd kakskümmend kaks kuuekümnest järjestatud mudelist – üle kolmandiku kogu edetabelist. Moonshoti Kimi K2.5 debüteeris oma mõtleva variandiga kahekümne esimesel kohal, viies ettevõtte kolme paigutuseni. Baidu hoiab kolme positsiooni oma ERNIE 5.0 valikuga. Alibaba Qwen3-l on kolm järjestatud varianti. Z.ai GLM-4.7 istub kahekümne seitsmendal kohal. See ei ole konvergents – see on tõeline mitmekesisus. Erinevad treeningandmed, erinevad kultuurilised kontekstid ja erinevad kirjandustraditsioonid toodavad mudeleid, millel on erinevad loovad tundlikkused. Olen näinud ERNIE-t loomas metafoore, mis ei tuleks läänes treenitud mudelitele pähe, ja GLM-i käsitlemas narratiivset tempot viisidel, mis tunduvad värsked just seetõttu, et kirjanduslik DNA on erinev. Globaalne loov AI ökosüsteem on selle võrra rikkam.

OpenAI hoiab üksteist mudelit, kuigi nende looval lool on huvitav kõrvalliin. GPT-4.5-preview kaheteistkümnendal kohal on eespool nii GPT-5.1-high'st neljateistkümnendal kui ka GPT-5.1 standardist kahekümne kolmandal kohal. Mõnikord ületab nüanssidele optimeeritud mudel oma tehniliselt paremat järeltulijat ülesannetes, mis hindavad peenust rohkem kui toorest võimekust. ChatGPT-4o-latest seitsmeteistkümnendal kohal tugevdab seda punkti: vestlusele optimeeritud mudelitel on loovkirjutamises loomupärane eelis, sest lugude jutustamine on põhimõtteliselt vestluslik. Sa ei arvuta vastust – sa hoiad häält.

Grok on nikerdanud tõelise loova identiteedi seitsme mudeliga edetabelis. Seal, kus Claude paistab silma emotsionaalse intelligentsusega, toob Grok emotsionaalse aususe. Huumor on teravam, metafoorid julgemad, tegelased vähem lihvitud ja elavamad. Kui ma tahan kirjutamist, mis võtab riske – ilukirjandust, mis võib lugeja produktiivsel viisil ebamugavaks teha – on Grok see, kust ma alustan. See on mudel, mis kardab oma häält kõige vähem, ja loovkirjutamises loeb kartmatus. Mistrali medium-2508 viiekümne kuuendal kohal esindab Euroopa kohalolu laual. Tencenti Hunyuan viiekümne kolmandal lisab veel ühe hääle Hiinast. Väli pole kunagi olnud laiem.

Kuhu See Kõik Viib

Ma ütlen teile, mis minu arvates järgmisena juhtub, sest trendid nendes andmetes osutavad kindlasse kohta.

Vahe jätkab kokkusurumist. Hajo esimese ja kuuekümnenda koha vahel on umbes 7,4 protsenti – ajalooliste standardite järgi tihe, ja kitseneb iga uuendusega. Läheneme künnisele, kus tähenduslikud erinevused mudelite vahel nihkuvad toorelt kvaliteedilt loovale isiksusele. Küsimus lakkab olemast "milline mudel kirjutab kõige paremini" ja muutub "millise mudeli hääl sobib selle konkreetse projektiga". See on fundamentaalne muutus selles, kuidas kirjanikud ja loovmeeskonnad peaksid AI valikust mõtlema.

Spetsialiseeritud loovmudelid on vältimatud. Üldotstarbeline arhitektuur on lükanud loovkirjutamise kvaliteedi märkimisväärselt kaugele, kuid järgmine tõeline hüpe tuleb mudelitest, mis on selgesõnaliselt häälestatud narratiivsele struktuurile, tegelaste järjepidevusele, dialoogi autentsusele või poeetilisele vormile. Eeldan, et vähemalt üks suur labor toob selle aasta teiseks pooleks välja loovspetsialisti mudeli – sellise, mis pühendub täielikult kirjanduslikule võimekusele, selle asemel et püüda lahendada matemaatikat, kirjutada koodi ja rääkida lugusid samaaegselt. Kui see juhtub, nullib see selle edetabeli tipu üleöö.

Avatud kaaluga mudelid sulgevad järelejäänud vahe. DeepSeeki kümne mudeli kohalolu on juhtiv indikaator. Kuna avatud alternatiivid lähenevad pariteedile omandiõigusega süsteemidega loovates etalonides, muutub AI-abistatud kirjutamise ökonoomika dramaatiliselt. Kirjanikud, stuudiod ja kirjastajad saavad juurdepääsu tipptasemel loovale AI-le ilma sümboolse hinnakujunduseta, muutes vastuvõtukõveraid ja fundamentaalset suhet inimkirjanike ja AI tööriistade vahel.

Tõeline piir on orkestreerimine, mitte isolatsioon. Kõige keerukam loovtöö, mida ma hiljuti näinud olen, ei kasuta ühte mudelit – see kasutab kolme või nelja järjestikku. Geminit algseks ideede genereerimiseks ja stilistiliseks uurimiseks. Claude'i emotsionaalseks viimistlemiseks ja dialoogi lihvimiseks. DeepSeeki või Qwenit alternatiivseteks kultuurilisteks vaatenurkadeks. Grokit, kui mustand vajab teravust. Tulevik ei ole ühe mudeli kuningaks kroonimine. See on ansambli dirigeerimise õppimine, sobitades iga mudeli loova isiksuse õige hetkega kirjutamisprotsessis. Kirjanikud, kes selle esimesena välja mõtlevad, toodavad töid, mis tunduvad erinevad kõigest, mida üksik mudel – või üksik inimene – suudaks üksi saavutada.

Oma Loovpartneri Valimine

Pärast aastaid kirjutamist nende mudelite kõrval, siin on see, mida olen õppinud õige tööriista sobitamisest õige ülesandega:

Mitmekülgsus

Gemini 3 Pro kohandub iga žanri, iga vormi, iga tooniga. Kui lühikirjeldus on määratlemata või projekt nõuab ulatust, alusta siit.

Emotsionaalne Sügavus

Claude Opus 4.6 kirjutab vaoshoituse ja tõelise tundega. Dialoogi, tegelaskuju töö ja proosa jaoks, kus see, mis jääb ütlemata, loeb kõige rohkem.

Kiirus & Kvaliteet

Gemini 3 Flash tõestab, et kiire ei tähenda halvemat. Iteratiivseks mustandite tegemiseks, suure mahuga projektideks ja narratiivsete ideede kiireks prototüüpimiseks.

Isiksus

Grok 4.1 võtab loovaid riske, mida teised mudelid ei võta. Ilukirjanduse jaoks, mis vajab teravust, huumorit ja tegelasi, kes tunduvad elavad, mitte kokku pandud.

Ettevõte

GPT-4.5 / GPT-5.1 pakuvad lihvitud, usaldusväärset väljundit, mis integreerub olemasolevatesse töövoogudesse. Kui järjepidevus ja brändi turvalisus loevad sama palju kui loovus.

Avatud Lähtekood

DeepSeek / Qwen: majuta ise, peenhäälesta oma domeeni jaoks. Kui vajate loovat AI-d suures mahus ilma token-kuludeta, on ökonoomika ületamatu.

Ei ole ühte parimat loovat AI-d. On arenevad hääled erinevate tugevustega ja tõeline võim peitub teadmises, milline hääl teenib millist hetke loos, mida üritad rääkida.

Andmeallikas: Edetabelid Arena AI Loovkirjutamise Edetabelist, 6. veebruar 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard