Kreativno pisanje je mjesto gdje se sirova inteligencija klanja ukusu, suzdržanosti i hrabrosti da se prave stvari ostave neizrečenima.
Tri godine traženja od AI-a da mi priča priče. Ne sažetke, ne nacrte — već pravu fikciju. Onu vrstu gdje lik uđe u sobu i osjetite kako se temperatura mijenja. Tijekom tih godina gledao sam kako se ova ljestvica pretvara iz zanimljivosti u pravi barometar književne sposobnosti. Veljača 2026. donijela je dosad najzanimljiviju promjenu: potpuno novi model koji je stigao tiho, brzo se popeo i smanjio jaz koji se činio trajnim prije samo nekoliko tjedana. Ovdje je potpuna slika — šezdeset modela rangiranih, analiziranih i stavljenih u kontekst od strane nekoga tko s njima radi svaki dan.
Ljestvica Kreativnog Pisanja
Kod ima sintaksu. Matematika ima dokaze. Ali kreativno pisanje ima glas — ritam, iznenađenje, emocionalnu rezonancu. Ovo je Arena Kreativnog Pisanja, najzahtjevniji test u evaluaciji AI-a, gdje se šezdeset modela rangira prema tome koliko dobro pričaju priče koje zapravo pokreću ljude. Evo kako stvari stoje u veljači 2026.
| Rang | Model | Bodovi | Glasovi | Organizacija |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Veljački Preokret
Kada sam izvukao najnovije podatke, jedan unos me zaustavio: Claude Opus 4.6 koji sjedi na broju dva. Ne zato što je visoko rangiranje Anthropic modela neobično — oni to dosljedno rade. Već zato što je ovaj model sletio na drugu poziciju s jedva ikakvom poviješću evaluacije iza sebe. Takva vrsta ranog konsenzusa je rijetka. To znači da je prvi val testera — opsesivnih ljudi koji pokreću identične upite kroz svako novo izdanje u roku od nekoliko sati od lansiranja — pronašao nešto istinski drugačije u njegovom kreativnom izlazu.
Prava priča je, međutim, jaz. U siječnju je udaljenost između prvog i drugog mjesta bila ugodnih dvadeset pet bodova. Sada je dvanaest. Gemini 3 Pro i dalje drži zlato, i pošteno je zaradio tu poziciju. Ali prednost se prepolovila u jednom ciklusu ažuriranja. Ako ste Google, taj trend zahtijeva pozornost. Ako ste Anthropic, to je potvrda da vaš pristup treningu kreativne AI konvergira prema nečem moćnom.
U međuvremenu, modeli odmah ispod prva dva značajno su se promiješali. Varijanta "thinking" Claude Opus 4.5 pomaknula se na treće mjesto, gurnuvši standardni Opus 4.5 na četvrto, a Gemini 3 Flash na peto. Flash je držao treće mjesto još prošli mjesec. Postolje ne mijenja vlasnike samo na vrhu — nestabilno je posvuda. A nestabilnost, prema mom iskustvu, prethodi otkrićima.
Dominantni Vrhovi
Gemini 3 Pro ostaje model za kojim posežem kada još ne znam što trebam. Ono što ga drži na broju jedan je raspon: tražite od njega Hemingwayev stil i on isporučuje štedljivu, mišićavu prozu. Tražite eksperimentalnu postmodernu fikciju i on mijenja registar bez gubitka koherencije. Viktorijanski epistolarni roman, tvrdokorni noir, magični realizam, dječja književnost — Gemini obrađuje ove prijelaze na način koji sugerira istinsko razumijevanje forme, a ne površno oponašanje. Google postavlja šest modela u prvih šezdeset, s Gemini 3 Flash na petom i Gemini 2.5 Pro na šestom mjestu koji popunjavaju snažan trio na vrhu.
Claude je sasvim drugačija zvjerka. Ako je Gemini raspon, Claude je dubina. Anthropicovi modeli uvijek su se isticali u suptilnostima koje je najteže naučiti stroj: kada pustiti tišinu da nosi scenu, kada bi se rečenica trebala prekinuti umjesto da se nastavi, kada ono što lik ne kaže otkriva više od onoga što kaže. Opus 4.6 gura ovo dalje. U mojim testovima proizveo je dijalog koji se osjećao istinski proživljenim. Likovi nisu isporučivali replike — razmišljali su, oklijevali, birali riječi onako kako to rade stvarni ljudi kada je nešto važno na kocki. Anthropic sada ima trinaest modela u prvih šezdeset, više od bilo koje druge organizacije, s pet postavljenih u prvih jedanaest. Kakav god bio njihov pristup treniranju kreativne sposobnosti, on funkcionira u cijeloj njihovoj liniji proizvoda.
Ovo je opažanje koje ne dobiva dovoljno pozornosti: prošireno rezoniranje — način "thinking" — ne poboljšava pouzdano kreativno pisanje. Uzorak je nedosljedan i duboko otkrivajući.
Za modele Claude Opus, varijante "thinking" obično se rangiraju nešto više: Opus 4.5 Thinking na trećem naspram standardnog na četvrtom, Opus 4.1 Thinking na devetom naspram standardnog na jedanaestom. Grok 4.1 Thinking nadmašuje svoju standardnu varijantu za tri pozicije. Ali prebacite se na druge arhitekture i uzorak se obrće — ponekad dramatično. DeepSeek v3.2-exp standard sjedi na dvadeset osmom mjestu dok njegova thinking varijanta pada na četrdeset drugo. DeepSeek v3.1-terminus standard je na dvadeset drugom; njegov thinking pandan pada na pedeset osmo — jaz od trideset šest pozicija. GPT-5.2 standard pobjeđuje GPT-5.2-high.
Ono što mi ovo govori je važno: kreativno pisanje nije prvenstveno problem rezoniranja. To je estetski problem. Za modele koji već posjeduju snažne književne instinkte, prošireno razmišljanje može pročistiti te instinkte — poput pažljivog urednika koji pregledava solidan prvi nacrt. Ali za modele čija je kreativna snaga instinktivnija i vođena uzorcima, forsiranje promišljanja zapravo polira grube rubove koji čine prozu živom. Ponekad prvi odgovor uhvati nešto što dodatno računanje izglađuje u osrednjost. Ako koristite modele sposobne za razmišljanje za kreativni rad, testirajte oba načina. Pretpostavka da više rezoniranja znači bolji izlaz ovdje ne vrijedi, a razumijevanje kada isključiti razmišljanje može biti vrednije od znanja kada ga uključiti.
Nadolazeća Plima
Ispod najviše razine, priča je proliferacija i raznolikost — i to je vjerojatno važnije od utrke za broj jedan.
DeepSeek postavlja deset modela u prvih šezdeset, čineći ga trećom najzastupljenijom organizacijom nakon Anthropica i OpenAI-a. Njihove varijante v3.1 i v3.2 protežu se od dvadeset drugog do pedeset osmog mjesta, pokrivajući raspon razina kreativne sposobnosti. Kao projekt otvorenih težina (open-weight), DeepSeek predstavlja nešto fundamentalno drugačije od vlasničkih lidera: ovi modeli se mogu preuzeti, hostirati lokalno i fino podesiti (fine-tuned) za specifične kreativne zadatke. Ako gradite alat za pisanje s AI-om ili integrirate kreativne sposobnosti u proizvodni proces, DeepSeek nudi fleksibilnost koju API-only modeli ne mogu pratiti.
Šira slika je još upečatljivija. Između DeepSeeka, Baidua, Moonshota, Alibabe, Z.ai-a i Tencenta, kineski AI laboratoriji sada čine dvadeset dva od šezdeset rangiranih modela — više od trećine cijele ljestvice. Moonshotov Kimi K2.5 debitirao je sa svojom thinking varijantom na dvadeset prvom mjestu, dovodeći tvrtku do tri plasmana. Baidu drži tri pozicije sa svojom ERNIE 5.0 linijom. Alibabin Qwen3 ima tri varijante rangirane. Z.ai-ev GLM-4.7 sjedi na dvadeset sedmom mjestu. Ovo nije konvergencija — to je istinska raznolikost. Različiti podaci za trening, različiti kulturni konteksti i različite književne tradicije proizvode modele s različitim kreativnim senzibilitetima. Vidio sam ERNIE-ja kako stvara metafore koje ne bi pale na pamet modelima treniranim na zapadu, i GLM-a kako rukuje narativnim tempom na načine koji se osjećaju svježima upravo zato što je književni DNA drugačiji. Globalni ekosustav kreativnog AI-a bogatiji je zbog toga.
OpenAI drži jedanaest modela, iako njihova kreativna priča ima zanimljiv podzaplet. GPT-4.5-preview na dvanaestom mjestu nalazi se ispred GPT-5.1-high na četrnaestom i GPT-5.1 standard na dvadeset trećem. Ponekad model optimiziran za nijanse nadmašuje svog tehnički superiornijeg nasljednika na zadacima koji cijene suptilnost više od sirove sposobnosti. ChatGPT-4o-latest na sedamnaestom mjestu pojačava tu poantu: modeli optimizirani za razgovor nose inherentnu prednost u kreativnom pisanju jer je pričanje priča u osnovi konverzacijsko. Ne izračunavate odgovor — održavate glas.
Grok je isklesao istinski kreativni identitet sa sedam modela rangiranih. Gdje Claude briljira u emocionalnoj inteligenciji, Grok donosi emocionalnu iskrenost. Humor je oštriji, metafore hrabrije, likovi manje ispolirani i življi. Kada želim pisanje koje preuzima rizik — fikciju koja bi čitatelju mogla biti neugodna na produktivan način — Grok je mjesto gdje počinjem. To je model koji se najmanje boji vlastitog glasa, a u kreativnom pisanju neustrašivost je bitna. Mistralov medium-2508 na pedeset šestom mjestu predstavlja prisutnost Europe na ploči. Tencentov Hunyuan na pedeset trećem dodaje još jedan glas iz Kine. Polje nikada nije bilo šire.
Kamo Sve Ovo Vodi
Reći ću vam što mislim da se događa sljedeće, jer trendovi u ovim podacima upućuju nekamo određeno.
Jaz se nastavlja sažimati. Razlika između prvog i šezdesetog mjesta je otprilike 7,4 posto — tijesno prema povijesnim standardima, i smanjuje se sa svakim ažuriranjem. Približavamo se pragu gdje se značajne razlike između modela pomiču sa sirove kvalitete na kreativnu osobnost. Pitanje prestaje biti "koji model najbolje piše" i postaje "glas kojeg modela odgovara ovom konkretnom projektu". To je fundamentalna promjena u tome kako bi pisci i kreativni timovi trebali razmišljati o odabiru AI-a.
Specijalizirani kreativni modeli su neizbježni. Arhitektura opće namjene pogurala je kvalitetu kreativnog pisanja nevjerojatno daleko, ali sljedeći pravi skok doći će od modela eksplicitno podešenih za narativnu strukturu, dosljednost likova, autentičnost dijaloga ili poetsku formu. Očekujem da će barem jedan veliki laboratorij isporučiti kreativno-specijalistički model do druge polovice ove godine — onaj koji se u potpunosti posvećuje književnoj sposobnosti umjesto da pokušava rješavati matematiku, pisati kod i pričati priče istovremeno. Kada se to dogodi, resetirat će vrh ove ljestvice preko noći.
Modeli otvorenih težina zatvorit će preostali jaz. Prisutnost deset DeepSeek modela vodeći je pokazatelj. Kako se otvorene alternative približavaju paritetu s vlasničkim sustavima u kreativnim mjerilima, ekonomija pisanja potpomognutog AI-om dramatično se mijenja. Pisci, studiji i izdavači dobivaju pristup vrhunskom kreativnom AI-u bez cijena po tokenu, mijenjajući krivulje usvajanja i temeljni odnos između ljudskih pisaca i AI alata.
Prava granica je orkestracija, ne izolacija. Najsofisticiraniji kreativni rad koji sam nedavno vidio ne koristi jedan model — koristi tri ili četiri u nizu. Gemini za početnu ideju i stilsko istraživanje. Claude za emocionalno pročišćavanje i poliranje dijaloga. DeepSeek ili Qwen za alternativne kulturne perspektive. Grok kada nacrtu treba oštrina. Budućnost nije u krunidbi jednog modela za kralja. Radi se o učenju dirigiranja ansamblom, usklađivanju kreativne osobnosti svakog modela s pravim trenutkom u procesu pisanja. Pisci koji to prvi shvate proizvest će rad koji se osjeća drugačije od bilo čega što bi jedan model — ili jedan čovjek — mogao postići sam.
Odabir Vašeg Kreativnog Partnera
Nakon godina pisanja uz ove modele, evo što sam naučio o usklađivanju pravog alata s pravim zadatkom:
Svestranost
Gemini 3 Pro prilagođava se svakom žanru, svakoj formi, svakom tonu. Kada je zadatak nedefiniran ili projekt zahtijeva raspon, počnite ovdje.
Emocionalna Dubina
Claude Opus 4.6 piše sa suzdržanošću i iskrenim osjećajem. Za dijalog, rad na likovima i prozu gdje je ono što je ostalo neizrečeno najvažnije.
Brzina i Kvaliteta
Gemini 3 Flash dokazuje da brzo ne znači lošije. Za iterativno sastavljanje, projekte velikog volumena i brzo prototipiranje narativnih ideja.
Osobnost
Grok 4.1 preuzima kreativne rizike koje drugi modeli neće. Za fikciju koja treba oštrinu, humor i likove koji se osjećaju živima, a ne sastavljenima.
Ne postoji jedan najbolji kreativni AI. Postoje evoluirajući glasovi s različitim snagama, a prava moć leži u znanju koji glas služi kojem trenutku u priči koju pokušavate ispričati.
Izvor Podataka: Rangiranja s Arena AI Creative Writing Leaderboard, 6. veljače 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!