Ljestvica Arene Kreativnog Pisanja AI — Veljača 2026.

Ključni Uvid

Kreativno pisanje je mjesto gdje se sirova inteligencija klanja ukusu, suzdržanosti i hrabrosti da se prave stvari ostave neizrečenima.

Tri godine traženja od AI-a da mi priča priče. Ne sažetke, ne nacrte — već pravu fikciju. Onu vrstu gdje lik uđe u sobu i osjetite kako se temperatura mijenja. Tijekom tih godina gledao sam kako se ova ljestvica pretvara iz zanimljivosti u pravi barometar književne sposobnosti. Veljača 2026. donijela je dosad najzanimljiviju promjenu: potpuno novi model koji je stigao tiho, brzo se popeo i smanjio jaz koji se činio trajnim prije samo nekoliko tjedana. Ovdje je potpuna slika — šezdeset modela rangiranih, analiziranih i stavljenih u kontekst od strane nekoga tko s njima radi svaki dan.

Ljestvica Kreativnog Pisanja

Kod ima sintaksu. Matematika ima dokaze. Ali kreativno pisanje ima glas — ritam, iznenađenje, emocionalnu rezonancu. Ovo je Arena Kreativnog Pisanja, najzahtjevniji test u evaluaciji AI-a, gdje se šezdeset modela rangira prema tome koliko dobro pričaju priče koje zapravo pokreću ljude. Evo kako stvari stoje u veljači 2026.

Rang Model Bodovi Glasovi Organizacija
🥇
Gemini 3 Pro 14904,861Google
🥈
Claude Opus 4 6 1478347Anthropic
🥉
Claude Opus 4 5 20251101 Thinking 32k 14593,667Anthropic
#4
Claude Opus 4 5 20251101 14574,382Anthropic
#5
Gemini 3 Flash 14563,678Google
#6
Gemini 2.5 Pro 145012,564Google
#7
Claude Sonnet 4 5 20250929 14475,769Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14472,253Google
#9
Claude Opus 4 1 20250805 Thinking 16k 14456,651Anthropic
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14426,015Anthropic
#11
Claude Opus 4 1 20250805 14409,807Anthropic
#12
Gpt 4.5 Preview 2025 02 27 14382,618OpenAI
#13
Grok 4.1 Thinking 14344,819xAI
#14
Gpt 5.1 High 14344,213OpenAI
#15
Claude Opus 4 20250514 Thinking 16k 14284,750Anthropic
#16
Grok 4.1 14275,119xAI
#17
Chatgpt 4o Latest 20250326 142211,146OpenAI
#18
Ernie 5.0 Preview 1203 14201,477Baidu
#19
Claude Opus 4 20250514 14195,794Anthropic
#20
Ernie 5.0 0110 14181,622Baidu
#21
Kimi K2.5 Thinking 14181,059Moonshot
#22
Deepseek V3.1 Terminus 1411458DeepSeek
#23
Gpt 5.1 14114,512OpenAI
#24
Ernie 5.0 Preview 1022 1411662Baidu
#25
Deepseek V3.1 Thinking 14101,720DeepSeek
#26
Grok 4 1 Fast Reasoning 14043,798xAI
#27
Glm 4.7 14031,797Z.ai
#28
Deepseek V3.2 Exp 14031,500DeepSeek
#29
Gpt 4.1 2025 04 14 14026,858OpenAI
#30
Glm 4.6 14024,764Z.ai
#31
Kimi K2.5 Instant 1402427Moonshot
#32
Grok 3 Preview 02 24 14024,972xAI
#33
Deepseek V3.2 13993,529DeepSeek
#34
Gemini 2.5 Flash 139812,294Google
#35
Gpt 5.2 13981,679OpenAI
#36
Grok 4 0709 13975,559xAI
#37
Qwen3 Max Preview 13963,713Alibaba
#38
Claude Sonnet 4 20250514 Thinking 32k 13964,582Anthropic
#39
Deepseek V3.1 13952,082DeepSeek
#40
Qwen3 Max 2025 09 23 13951,154Alibaba
#41
Claude 3 7 Sonnet 20250219 Thinking 32k 13955,472Anthropic
#42
Deepseek V3.2 Exp Thinking 13951,154DeepSeek
#43
Gpt 5 Chat 13944,010OpenAI
#44
Gpt 5.2 High 13942,133OpenAI
#45
Kimi K2 Thinking Turbo 13934,520Moonshot
#46
Deepseek V3 0324 13916,338DeepSeek
#47
Deepseek V3.2 Thinking 13903,113DeepSeek
#48
Deepseek R1 0528 13882,660DeepSeek
#49
Claude Sonnet 4 20250514 13855,328Anthropic
#50
Qwen3 235b A22b Instruct 2507 13849,102Alibaba
#51
O3 2025 04 16 13848,014OpenAI
#52
O1 2024 12 17 13834,646OpenAI
#53
Hunyuan T1 20250711 1382642Tencent
#54
Grok 4 Fast Chat 1382995xAI
#55
Gemini 2.5 Flash Preview 09 2025 13824,285Google
#56
Mistral Medium 2508 13828,527Mistral
#57
Claude Haiku 4 5 20251001 13825,754Anthropic
#58
Deepseek V3.1 Terminus Thinking 1381446DeepSeek
#59
Grok 4 Fast Reasoning 13802,372xAI
#60
Gpt 5 High 13794,330OpenAI

Veljački Preokret

Kada sam izvukao najnovije podatke, jedan unos me zaustavio: Claude Opus 4.6 koji sjedi na broju dva. Ne zato što je visoko rangiranje Anthropic modela neobično — oni to dosljedno rade. Već zato što je ovaj model sletio na drugu poziciju s jedva ikakvom poviješću evaluacije iza sebe. Takva vrsta ranog konsenzusa je rijetka. To znači da je prvi val testera — opsesivnih ljudi koji pokreću identične upite kroz svako novo izdanje u roku od nekoliko sati od lansiranja — pronašao nešto istinski drugačije u njegovom kreativnom izlazu.

Prava priča je, međutim, jaz. U siječnju je udaljenost između prvog i drugog mjesta bila ugodnih dvadeset pet bodova. Sada je dvanaest. Gemini 3 Pro i dalje drži zlato, i pošteno je zaradio tu poziciju. Ali prednost se prepolovila u jednom ciklusu ažuriranja. Ako ste Google, taj trend zahtijeva pozornost. Ako ste Anthropic, to je potvrda da vaš pristup treningu kreativne AI konvergira prema nečem moćnom.

U međuvremenu, modeli odmah ispod prva dva značajno su se promiješali. Varijanta "thinking" Claude Opus 4.5 pomaknula se na treće mjesto, gurnuvši standardni Opus 4.5 na četvrto, a Gemini 3 Flash na peto. Flash je držao treće mjesto još prošli mjesec. Postolje ne mijenja vlasnike samo na vrhu — nestabilno je posvuda. A nestabilnost, prema mom iskustvu, prethodi otkrićima.

Dominantni Vrhovi

Gemini 3 Pro ostaje model za kojim posežem kada još ne znam što trebam. Ono što ga drži na broju jedan je raspon: tražite od njega Hemingwayev stil i on isporučuje štedljivu, mišićavu prozu. Tražite eksperimentalnu postmodernu fikciju i on mijenja registar bez gubitka koherencije. Viktorijanski epistolarni roman, tvrdokorni noir, magični realizam, dječja književnost — Gemini obrađuje ove prijelaze na način koji sugerira istinsko razumijevanje forme, a ne površno oponašanje. Google postavlja šest modela u prvih šezdeset, s Gemini 3 Flash na petom i Gemini 2.5 Pro na šestom mjestu koji popunjavaju snažan trio na vrhu.

Claude je sasvim drugačija zvjerka. Ako je Gemini raspon, Claude je dubina. Anthropicovi modeli uvijek su se isticali u suptilnostima koje je najteže naučiti stroj: kada pustiti tišinu da nosi scenu, kada bi se rečenica trebala prekinuti umjesto da se nastavi, kada ono što lik ne kaže otkriva više od onoga što kaže. Opus 4.6 gura ovo dalje. U mojim testovima proizveo je dijalog koji se osjećao istinski proživljenim. Likovi nisu isporučivali replike — razmišljali su, oklijevali, birali riječi onako kako to rade stvarni ljudi kada je nešto važno na kocki. Anthropic sada ima trinaest modela u prvih šezdeset, više od bilo koje druge organizacije, s pet postavljenih u prvih jedanaest. Kakav god bio njihov pristup treniranju kreativne sposobnosti, on funkcionira u cijeloj njihovoj liniji proizvoda.

Ovo je opažanje koje ne dobiva dovoljno pozornosti: prošireno rezoniranje — način "thinking" — ne poboljšava pouzdano kreativno pisanje. Uzorak je nedosljedan i duboko otkrivajući.

Za modele Claude Opus, varijante "thinking" obično se rangiraju nešto više: Opus 4.5 Thinking na trećem naspram standardnog na četvrtom, Opus 4.1 Thinking na devetom naspram standardnog na jedanaestom. Grok 4.1 Thinking nadmašuje svoju standardnu varijantu za tri pozicije. Ali prebacite se na druge arhitekture i uzorak se obrće — ponekad dramatično. DeepSeek v3.2-exp standard sjedi na dvadeset osmom mjestu dok njegova thinking varijanta pada na četrdeset drugo. DeepSeek v3.1-terminus standard je na dvadeset drugom; njegov thinking pandan pada na pedeset osmo — jaz od trideset šest pozicija. GPT-5.2 standard pobjeđuje GPT-5.2-high.

Ono što mi ovo govori je važno: kreativno pisanje nije prvenstveno problem rezoniranja. To je estetski problem. Za modele koji već posjeduju snažne književne instinkte, prošireno razmišljanje može pročistiti te instinkte — poput pažljivog urednika koji pregledava solidan prvi nacrt. Ali za modele čija je kreativna snaga instinktivnija i vođena uzorcima, forsiranje promišljanja zapravo polira grube rubove koji čine prozu živom. Ponekad prvi odgovor uhvati nešto što dodatno računanje izglađuje u osrednjost. Ako koristite modele sposobne za razmišljanje za kreativni rad, testirajte oba načina. Pretpostavka da više rezoniranja znači bolji izlaz ovdje ne vrijedi, a razumijevanje kada isključiti razmišljanje može biti vrednije od znanja kada ga uključiti.

Nadolazeća Plima

Ispod najviše razine, priča je proliferacija i raznolikost — i to je vjerojatno važnije od utrke za broj jedan.

DeepSeek postavlja deset modela u prvih šezdeset, čineći ga trećom najzastupljenijom organizacijom nakon Anthropica i OpenAI-a. Njihove varijante v3.1 i v3.2 protežu se od dvadeset drugog do pedeset osmog mjesta, pokrivajući raspon razina kreativne sposobnosti. Kao projekt otvorenih težina (open-weight), DeepSeek predstavlja nešto fundamentalno drugačije od vlasničkih lidera: ovi modeli se mogu preuzeti, hostirati lokalno i fino podesiti (fine-tuned) za specifične kreativne zadatke. Ako gradite alat za pisanje s AI-om ili integrirate kreativne sposobnosti u proizvodni proces, DeepSeek nudi fleksibilnost koju API-only modeli ne mogu pratiti.

Šira slika je još upečatljivija. Između DeepSeeka, Baidua, Moonshota, Alibabe, Z.ai-a i Tencenta, kineski AI laboratoriji sada čine dvadeset dva od šezdeset rangiranih modela — više od trećine cijele ljestvice. Moonshotov Kimi K2.5 debitirao je sa svojom thinking varijantom na dvadeset prvom mjestu, dovodeći tvrtku do tri plasmana. Baidu drži tri pozicije sa svojom ERNIE 5.0 linijom. Alibabin Qwen3 ima tri varijante rangirane. Z.ai-ev GLM-4.7 sjedi na dvadeset sedmom mjestu. Ovo nije konvergencija — to je istinska raznolikost. Različiti podaci za trening, različiti kulturni konteksti i različite književne tradicije proizvode modele s različitim kreativnim senzibilitetima. Vidio sam ERNIE-ja kako stvara metafore koje ne bi pale na pamet modelima treniranim na zapadu, i GLM-a kako rukuje narativnim tempom na načine koji se osjećaju svježima upravo zato što je književni DNA drugačiji. Globalni ekosustav kreativnog AI-a bogatiji je zbog toga.

OpenAI drži jedanaest modela, iako njihova kreativna priča ima zanimljiv podzaplet. GPT-4.5-preview na dvanaestom mjestu nalazi se ispred GPT-5.1-high na četrnaestom i GPT-5.1 standard na dvadeset trećem. Ponekad model optimiziran za nijanse nadmašuje svog tehnički superiornijeg nasljednika na zadacima koji cijene suptilnost više od sirove sposobnosti. ChatGPT-4o-latest na sedamnaestom mjestu pojačava tu poantu: modeli optimizirani za razgovor nose inherentnu prednost u kreativnom pisanju jer je pričanje priča u osnovi konverzacijsko. Ne izračunavate odgovor — održavate glas.

Grok je isklesao istinski kreativni identitet sa sedam modela rangiranih. Gdje Claude briljira u emocionalnoj inteligenciji, Grok donosi emocionalnu iskrenost. Humor je oštriji, metafore hrabrije, likovi manje ispolirani i življi. Kada želim pisanje koje preuzima rizik — fikciju koja bi čitatelju mogla biti neugodna na produktivan način — Grok je mjesto gdje počinjem. To je model koji se najmanje boji vlastitog glasa, a u kreativnom pisanju neustrašivost je bitna. Mistralov medium-2508 na pedeset šestom mjestu predstavlja prisutnost Europe na ploči. Tencentov Hunyuan na pedeset trećem dodaje još jedan glas iz Kine. Polje nikada nije bilo šire.

Kamo Sve Ovo Vodi

Reći ću vam što mislim da se događa sljedeće, jer trendovi u ovim podacima upućuju nekamo određeno.

Jaz se nastavlja sažimati. Razlika između prvog i šezdesetog mjesta je otprilike 7,4 posto — tijesno prema povijesnim standardima, i smanjuje se sa svakim ažuriranjem. Približavamo se pragu gdje se značajne razlike između modela pomiču sa sirove kvalitete na kreativnu osobnost. Pitanje prestaje biti "koji model najbolje piše" i postaje "glas kojeg modela odgovara ovom konkretnom projektu". To je fundamentalna promjena u tome kako bi pisci i kreativni timovi trebali razmišljati o odabiru AI-a.

Specijalizirani kreativni modeli su neizbježni. Arhitektura opće namjene pogurala je kvalitetu kreativnog pisanja nevjerojatno daleko, ali sljedeći pravi skok doći će od modela eksplicitno podešenih za narativnu strukturu, dosljednost likova, autentičnost dijaloga ili poetsku formu. Očekujem da će barem jedan veliki laboratorij isporučiti kreativno-specijalistički model do druge polovice ove godine — onaj koji se u potpunosti posvećuje književnoj sposobnosti umjesto da pokušava rješavati matematiku, pisati kod i pričati priče istovremeno. Kada se to dogodi, resetirat će vrh ove ljestvice preko noći.

Modeli otvorenih težina zatvorit će preostali jaz. Prisutnost deset DeepSeek modela vodeći je pokazatelj. Kako se otvorene alternative približavaju paritetu s vlasničkim sustavima u kreativnim mjerilima, ekonomija pisanja potpomognutog AI-om dramatično se mijenja. Pisci, studiji i izdavači dobivaju pristup vrhunskom kreativnom AI-u bez cijena po tokenu, mijenjajući krivulje usvajanja i temeljni odnos između ljudskih pisaca i AI alata.

Prava granica je orkestracija, ne izolacija. Najsofisticiraniji kreativni rad koji sam nedavno vidio ne koristi jedan model — koristi tri ili četiri u nizu. Gemini za početnu ideju i stilsko istraživanje. Claude za emocionalno pročišćavanje i poliranje dijaloga. DeepSeek ili Qwen za alternativne kulturne perspektive. Grok kada nacrtu treba oštrina. Budućnost nije u krunidbi jednog modela za kralja. Radi se o učenju dirigiranja ansamblom, usklađivanju kreativne osobnosti svakog modela s pravim trenutkom u procesu pisanja. Pisci koji to prvi shvate proizvest će rad koji se osjeća drugačije od bilo čega što bi jedan model — ili jedan čovjek — mogao postići sam.

Odabir Vašeg Kreativnog Partnera

Nakon godina pisanja uz ove modele, evo što sam naučio o usklađivanju pravog alata s pravim zadatkom:

Svestranost

Gemini 3 Pro prilagođava se svakom žanru, svakoj formi, svakom tonu. Kada je zadatak nedefiniran ili projekt zahtijeva raspon, počnite ovdje.

Emocionalna Dubina

Claude Opus 4.6 piše sa suzdržanošću i iskrenim osjećajem. Za dijalog, rad na likovima i prozu gdje je ono što je ostalo neizrečeno najvažnije.

Brzina i Kvaliteta

Gemini 3 Flash dokazuje da brzo ne znači lošije. Za iterativno sastavljanje, projekte velikog volumena i brzo prototipiranje narativnih ideja.

Osobnost

Grok 4.1 preuzima kreativne rizike koje drugi modeli neće. Za fikciju koja treba oštrinu, humor i likove koji se osjećaju živima, a ne sastavljenima.

Poslovno

GPT-4.5 / GPT-5.1 isporučuju ispoliran, pouzdan izlaz koji se integrira u postojeće tijekove rada. Kada su dosljednost i sigurnost brenda jednako važni kao i kreativnost.

Otvoreni Kod

DeepSeek / Qwen: hostajte ga sami, fino podesite za svoju domenu. Kada trebate kreativni AI u velikim razmjerima bez troškova po tokenu, ekonomija je nepobjediva.

Ne postoji jedan najbolji kreativni AI. Postoje evoluirajući glasovi s različitim snagama, a prava moć leži u znanju koji glas služi kojem trenutku u priči koju pokušavate ispričati.


Izvor Podataka: Rangiranja s Arena AI Creative Writing Leaderboard, 6. veljače 2026.

Discussion

0 comments

Leave a comment

Be the first to share your thoughts on this article!