Ljestvica Arene Kreativnog Pisanja AI — Veljača 2026.

Ključni Uvid

Kreativno pisanje je mjesto gdje se sirova inteligencija klanja ukusu, suzdržanosti i hrabrosti da se prave stvari ostave neizrečenima.

Tri godine traženja od AI-a da mi priča priče. Ne sažetke, ne nacrte — već pravu fikciju. Onu vrstu gdje lik uđe u sobu i osjetite kako se temperatura mijenja. Tijekom tih godina gledao sam kako se ova ljestvica pretvara iz zanimljivosti u pravi barometar književne sposobnosti. Veljača 2026. donijela je dosad najzanimljiviju promjenu: potpuno novi model koji je stigao tiho, brzo se popeo i smanjio jaz koji se činio trajnim prije samo nekoliko tjedana. Ovdje je potpuna slika — šezdeset modela rangiranih, analiziranih i stavljenih u kontekst od strane nekoga tko s njima radi svaki dan.

Ljestvica Kreativnog Pisanja

Kod ima sintaksu. Matematika ima dokaze. Ali kreativno pisanje ima glas — ritam, iznenađenje, emocionalnu rezonancu. Ovo je Arena Kreativnog Pisanja, najzahtjevniji test u evaluaciji AI-a, gdje se šezdeset modela rangira prema tome koliko dobro pričaju priče koje zapravo pokreću ljude. Evo kako stvari stoje u veljači 2026.

Rang	Model	Bodovi	Glasovi	Organizacija
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Veljački Preokret

Kada sam izvukao najnovije podatke, jedan unos me zaustavio: Claude Opus 4.6 koji sjedi na broju dva. Ne zato što je visoko rangiranje Anthropic modela neobično — oni to dosljedno rade. Već zato što je ovaj model sletio na drugu poziciju s jedva ikakvom poviješću evaluacije iza sebe. Takva vrsta ranog konsenzusa je rijetka. To znači da je prvi val testera — opsesivnih ljudi koji pokreću identične upite kroz svako novo izdanje u roku od nekoliko sati od lansiranja — pronašao nešto istinski drugačije u njegovom kreativnom izlazu.

Prava priča je, međutim, jaz. U siječnju je udaljenost između prvog i drugog mjesta bila ugodnih dvadeset pet bodova. Sada je dvanaest. Gemini 3 Pro i dalje drži zlato, i pošteno je zaradio tu poziciju. Ali prednost se prepolovila u jednom ciklusu ažuriranja. Ako ste Google, taj trend zahtijeva pozornost. Ako ste Anthropic, to je potvrda da vaš pristup treningu kreativne AI konvergira prema nečem moćnom.

U međuvremenu, modeli odmah ispod prva dva značajno su se promiješali. Varijanta "thinking" Claude Opus 4.5 pomaknula se na treće mjesto, gurnuvši standardni Opus 4.5 na četvrto, a Gemini 3 Flash na peto. Flash je držao treće mjesto još prošli mjesec. Postolje ne mijenja vlasnike samo na vrhu — nestabilno je posvuda. A nestabilnost, prema mom iskustvu, prethodi otkrićima.

Dominantni Vrhovi

Gemini 3 Pro ostaje model za kojim posežem kada još ne znam što trebam. Ono što ga drži na broju jedan je raspon: tražite od njega Hemingwayev stil i on isporučuje štedljivu, mišićavu prozu. Tražite eksperimentalnu postmodernu fikciju i on mijenja registar bez gubitka koherencije. Viktorijanski epistolarni roman, tvrdokorni noir, magični realizam, dječja književnost — Gemini obrađuje ove prijelaze na način koji sugerira istinsko razumijevanje forme, a ne površno oponašanje. Google postavlja šest modela u prvih šezdeset, s Gemini 3 Flash na petom i Gemini 2.5 Pro na šestom mjestu koji popunjavaju snažan trio na vrhu.

Claude je sasvim drugačija zvjerka. Ako je Gemini raspon, Claude je dubina. Anthropicovi modeli uvijek su se isticali u suptilnostima koje je najteže naučiti stroj: kada pustiti tišinu da nosi scenu, kada bi se rečenica trebala prekinuti umjesto da se nastavi, kada ono što lik ne kaže otkriva više od onoga što kaže. Opus 4.6 gura ovo dalje. U mojim testovima proizveo je dijalog koji se osjećao istinski proživljenim. Likovi nisu isporučivali replike — razmišljali su, oklijevali, birali riječi onako kako to rade stvarni ljudi kada je nešto važno na kocki. Anthropic sada ima trinaest modela u prvih šezdeset, više od bilo koje druge organizacije, s pet postavljenih u prvih jedanaest. Kakav god bio njihov pristup treniranju kreativne sposobnosti, on funkcionira u cijeloj njihovoj liniji proizvoda.

Ovo je opažanje koje ne dobiva dovoljno pozornosti: prošireno rezoniranje — način "thinking" — ne poboljšava pouzdano kreativno pisanje. Uzorak je nedosljedan i duboko otkrivajući.

Za modele Claude Opus, varijante "thinking" obično se rangiraju nešto više: Opus 4.5 Thinking na trećem naspram standardnog na četvrtom, Opus 4.1 Thinking na devetom naspram standardnog na jedanaestom. Grok 4.1 Thinking nadmašuje svoju standardnu varijantu za tri pozicije. Ali prebacite se na druge arhitekture i uzorak se obrće — ponekad dramatično. DeepSeek v3.2-exp standard sjedi na dvadeset osmom mjestu dok njegova thinking varijanta pada na četrdeset drugo. DeepSeek v3.1-terminus standard je na dvadeset drugom; njegov thinking pandan pada na pedeset osmo — jaz od trideset šest pozicija. GPT-5.2 standard pobjeđuje GPT-5.2-high.

Ono što mi ovo govori je važno: kreativno pisanje nije prvenstveno problem rezoniranja. To je estetski problem. Za modele koji već posjeduju snažne književne instinkte, prošireno razmišljanje može pročistiti te instinkte — poput pažljivog urednika koji pregledava solidan prvi nacrt. Ali za modele čija je kreativna snaga instinktivnija i vođena uzorcima, forsiranje promišljanja zapravo polira grube rubove koji čine prozu živom. Ponekad prvi odgovor uhvati nešto što dodatno računanje izglađuje u osrednjost. Ako koristite modele sposobne za razmišljanje za kreativni rad, testirajte oba načina. Pretpostavka da više rezoniranja znači bolji izlaz ovdje ne vrijedi, a razumijevanje kada isključiti razmišljanje može biti vrednije od znanja kada ga uključiti.

Nadolazeća Plima

Ispod najviše razine, priča je proliferacija i raznolikost — i to je vjerojatno važnije od utrke za broj jedan.

DeepSeek postavlja deset modela u prvih šezdeset, čineći ga trećom najzastupljenijom organizacijom nakon Anthropica i OpenAI-a. Njihove varijante v3.1 i v3.2 protežu se od dvadeset drugog do pedeset osmog mjesta, pokrivajući raspon razina kreativne sposobnosti. Kao projekt otvorenih težina (open-weight), DeepSeek predstavlja nešto fundamentalno drugačije od vlasničkih lidera: ovi modeli se mogu preuzeti, hostirati lokalno i fino podesiti (fine-tuned) za specifične kreativne zadatke. Ako gradite alat za pisanje s AI-om ili integrirate kreativne sposobnosti u proizvodni proces, DeepSeek nudi fleksibilnost koju API-only modeli ne mogu pratiti.

Šira slika je još upečatljivija. Između DeepSeeka, Baidua, Moonshota, Alibabe, Z.ai-a i Tencenta, kineski AI laboratoriji sada čine dvadeset dva od šezdeset rangiranih modela — više od trećine cijele ljestvice. Moonshotov Kimi K2.5 debitirao je sa svojom thinking varijantom na dvadeset prvom mjestu, dovodeći tvrtku do tri plasmana. Baidu drži tri pozicije sa svojom ERNIE 5.0 linijom. Alibabin Qwen3 ima tri varijante rangirane. Z.ai-ev GLM-4.7 sjedi na dvadeset sedmom mjestu. Ovo nije konvergencija — to je istinska raznolikost. Različiti podaci za trening, različiti kulturni konteksti i različite književne tradicije proizvode modele s različitim kreativnim senzibilitetima. Vidio sam ERNIE-ja kako stvara metafore koje ne bi pale na pamet modelima treniranim na zapadu, i GLM-a kako rukuje narativnim tempom na načine koji se osjećaju svježima upravo zato što je književni DNA drugačiji. Globalni ekosustav kreativnog AI-a bogatiji je zbog toga.

OpenAI drži jedanaest modela, iako njihova kreativna priča ima zanimljiv podzaplet. GPT-4.5-preview na dvanaestom mjestu nalazi se ispred GPT-5.1-high na četrnaestom i GPT-5.1 standard na dvadeset trećem. Ponekad model optimiziran za nijanse nadmašuje svog tehnički superiornijeg nasljednika na zadacima koji cijene suptilnost više od sirove sposobnosti. ChatGPT-4o-latest na sedamnaestom mjestu pojačava tu poantu: modeli optimizirani za razgovor nose inherentnu prednost u kreativnom pisanju jer je pričanje priča u osnovi konverzacijsko. Ne izračunavate odgovor — održavate glas.

Grok je isklesao istinski kreativni identitet sa sedam modela rangiranih. Gdje Claude briljira u emocionalnoj inteligenciji, Grok donosi emocionalnu iskrenost. Humor je oštriji, metafore hrabrije, likovi manje ispolirani i življi. Kada želim pisanje koje preuzima rizik — fikciju koja bi čitatelju mogla biti neugodna na produktivan način — Grok je mjesto gdje počinjem. To je model koji se najmanje boji vlastitog glasa, a u kreativnom pisanju neustrašivost je bitna. Mistralov medium-2508 na pedeset šestom mjestu predstavlja prisutnost Europe na ploči. Tencentov Hunyuan na pedeset trećem dodaje još jedan glas iz Kine. Polje nikada nije bilo šire.

Kamo Sve Ovo Vodi

Reći ću vam što mislim da se događa sljedeće, jer trendovi u ovim podacima upućuju nekamo određeno.

Jaz se nastavlja sažimati. Razlika između prvog i šezdesetog mjesta je otprilike 7,4 posto — tijesno prema povijesnim standardima, i smanjuje se sa svakim ažuriranjem. Približavamo se pragu gdje se značajne razlike između modela pomiču sa sirove kvalitete na kreativnu osobnost. Pitanje prestaje biti "koji model najbolje piše" i postaje "glas kojeg modela odgovara ovom konkretnom projektu". To je fundamentalna promjena u tome kako bi pisci i kreativni timovi trebali razmišljati o odabiru AI-a.

Specijalizirani kreativni modeli su neizbježni. Arhitektura opće namjene pogurala je kvalitetu kreativnog pisanja nevjerojatno daleko, ali sljedeći pravi skok doći će od modela eksplicitno podešenih za narativnu strukturu, dosljednost likova, autentičnost dijaloga ili poetsku formu. Očekujem da će barem jedan veliki laboratorij isporučiti kreativno-specijalistički model do druge polovice ove godine — onaj koji se u potpunosti posvećuje književnoj sposobnosti umjesto da pokušava rješavati matematiku, pisati kod i pričati priče istovremeno. Kada se to dogodi, resetirat će vrh ove ljestvice preko noći.

Modeli otvorenih težina zatvorit će preostali jaz. Prisutnost deset DeepSeek modela vodeći je pokazatelj. Kako se otvorene alternative približavaju paritetu s vlasničkim sustavima u kreativnim mjerilima, ekonomija pisanja potpomognutog AI-om dramatično se mijenja. Pisci, studiji i izdavači dobivaju pristup vrhunskom kreativnom AI-u bez cijena po tokenu, mijenjajući krivulje usvajanja i temeljni odnos između ljudskih pisaca i AI alata.

Prava granica je orkestracija, ne izolacija. Najsofisticiraniji kreativni rad koji sam nedavno vidio ne koristi jedan model — koristi tri ili četiri u nizu. Gemini za početnu ideju i stilsko istraživanje. Claude za emocionalno pročišćavanje i poliranje dijaloga. DeepSeek ili Qwen za alternativne kulturne perspektive. Grok kada nacrtu treba oštrina. Budućnost nije u krunidbi jednog modela za kralja. Radi se o učenju dirigiranja ansamblom, usklađivanju kreativne osobnosti svakog modela s pravim trenutkom u procesu pisanja. Pisci koji to prvi shvate proizvest će rad koji se osjeća drugačije od bilo čega što bi jedan model — ili jedan čovjek — mogao postići sam.

Odabir Vašeg Kreativnog Partnera

Nakon godina pisanja uz ove modele, evo što sam naučio o usklađivanju pravog alata s pravim zadatkom:

Svestranost

Gemini 3 Pro prilagođava se svakom žanru, svakoj formi, svakom tonu. Kada je zadatak nedefiniran ili projekt zahtijeva raspon, počnite ovdje.

Emocionalna Dubina

Claude Opus 4.6 piše sa suzdržanošću i iskrenim osjećajem. Za dijalog, rad na likovima i prozu gdje je ono što je ostalo neizrečeno najvažnije.

Brzina i Kvaliteta

Gemini 3 Flash dokazuje da brzo ne znači lošije. Za iterativno sastavljanje, projekte velikog volumena i brzo prototipiranje narativnih ideja.

Osobnost

Grok 4.1 preuzima kreativne rizike koje drugi modeli neće. Za fikciju koja treba oštrinu, humor i likove koji se osjećaju živima, a ne sastavljenima.

Poslovno

GPT-4.5 / GPT-5.1 isporučuju ispoliran, pouzdan izlaz koji se integrira u postojeće tijekove rada. Kada su dosljednost i sigurnost brenda jednako važni kao i kreativnost.

Otvoreni Kod

DeepSeek / Qwen: hostajte ga sami, fino podesite za svoju domenu. Kada trebate kreativni AI u velikim razmjerima bez troškova po tokenu, ekonomija je nepobjediva.

Ne postoji jedan najbolji kreativni AI. Postoje evoluirajući glasovi s različitim snagama, a prava moć leži u znanju koji glas služi kojem trenutku u priči koju pokušavate ispričati.

Izvor Podataka: Rangiranja s Arena AI Creative Writing Leaderboard, 6. veljače 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard