Lestvica Arene Kreativnega Pisanja UI — Februar 2026

Ključno Spoznanje

Kreativno pisanje je tisto, kjer se surova inteligenca prikloni okusu, zadržanosti in pogumu, da prave stvari ostanejo neizrečene.

Tri leta prosjačenja UI, da mi pripoveduje zgodbe. Ne povzetkov, ne orisov – ampak pravo leposlovje. Tiste vrste, kjer lik vstopi v sobo in začutite, kako se spremeni temperatura. V teh letih sem opazoval, kako se je ta lestvica spremenila iz zanimivosti v pravi barometer literarnih sposobnosti. Februar 2026 je prinesel doslej najbolj zanimiv premik: popolnoma nov model, ki je prispel tiho, hitro napredoval in zmanjšal vrzel, ki se je še pred nekaj tedni zdela trajna. Tukaj je celotna slika – šestdeset modelov, razvrščenih, analiziranih in postavljenih v kontekst s strani nekoga, ki z njimi dela vsak dan.

Lestvica Kreativnega Pisanja

Koda ima sintakso. Matematika ima dokaze. Toda kreativno pisanje ima glas – ritem, presenečenje, čustveno resonanco. To je Arena Kreativnega Pisanja, najzahtevnejše merilo pri vrednotenju UI, kjer je šestdeset modelov razvrščenih po tem, kako dobro pripovedujejo zgodbe, ki dejansko ganejo ljudi. Tako stvari stojijo februarja 2026.

Mesto	Model	Rezultat	Glasovi	Organizacija
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Februarski Preobrat

Ko sem potegnil najnovejše podatke, me je en vnos ustavil: Claude Opus 4.6, ki sedi na drugem mestu. Ne zato, ker bi bila visoka uvrstitev modela Anthropic nenavadna – to počnejo dosledno. Ampak zato, ker je ta model pristal na drugem mestu s komaj kakšno zgodovino ocenjevanja za sabo. Takšna vrsta zgodnjega konsenza je redka. Pomeni, da je prvi val preizkuševalcev – tisti obsedenci, ki poženejo identične pozive skozi vsako novo izdajo v nekaj urah po lansiranju – našel nekaj resnično drugačnega v njegovem kreativnem rezultatu.

Prava zgodba pa je vrzel. Januarja je bila razdalja med prvim in drugim mestom udobnih petindvajset točk. Zdaj je dvanajst. Gemini 3 Pro še vedno drži zlato in si je ta položaj pošteno prislužil. Toda prednost se je v enem samem ciklu posodobitev prepolovila. Če ste Google, ta trend zahteva pozornost. Če ste Anthropic, je to potrditev, da se vaš pristop k usposabljanju kreativne UI zbližuje z nečim močnim.

Medtem so se modeli tik pod prvima dvema močno premešali. Claude Opus 4.5 "misleča" različica se je povzpela na tretje mesto, potisnila standardni Opus 4.5 na četrto in Gemini 3 Flash na peto. Flash je še prejšnji mesec držal tretje mesto. Stopničke ne menjajo lastnikov le na vrhu – nestabilne so povsod. In nestabilnost, po mojih izkušnjah, napoveduje preboje.

Prevladujoči Vrhovi

Gemini 3 Pro ostaja model, po katerem posežem, ko še ne vem, kaj potrebujem. Tisto, kar ga drži na prvem mestu, je razpon: prosite ga za slog Hemingwaya in dostavi varčno, mišičasto prozo. Prosite za eksperimentalno postmoderno fikcijo in zamenja register brez izgube koherence. Viktorijanski pisemski roman, trdo kuhani noir, magični realizem, otroška literatura – Gemini obravnava te prehode na način, ki nakazuje pristno razumevanje oblike, ne le površnega posnemanja. Google postavlja šest modelov v prvih šestdeset, z Gemini 3 Flash na petem in Gemini 2.5 Pro na šestem mestu, ki dopolnjujeta močan trio na vrhu.

Claude je povsem drugačna zver. Če je Gemini razpon, je Claude globina. Modeli Anthropic so vedno blesteli v tankočutnostih, ki jih je najtežje naučiti stroj: kdaj pustiti tišini, da nosi prizor, kdaj naj se stavek pretrga namesto nadaljuje, kdaj tisto, česar lik ne reče, razkrije več kot tisto, kar reče. Opus 4.6 to potiska še dlje. V mojih testih je ustvaril dialog, ki se je zdel resnično naseljen. Liki niso podajali vrstic – razmišljali so, oklevali, izbirali besede tako, kot to počnejo resnični ljudje, ko je na kocki nekaj pomembnega. Anthropic ima zdaj trinajst modelov v prvih šestdesetih, več kot katera koli druga organizacija, s petimi uvrščenimi v prvo enajsterico. Karkoli je njihov pristop k usposabljanju kreativne sposobnosti, deluje v celotni njihovi liniji izdelkov.

Tukaj je opažanje, ki ne prejme dovolj pozornosti: razširjeno sklepanje – način "thinking" – ne izboljša zanesljivo kreativnega pisanja. Vzorec je nedosleden in globoko razkrivajoč.

Pri modelih Claude Opus se misleče različice običajno uvrščajo nekoliko višje: Opus 4.5 Thinking na tretjem mestu v primerjavi s standardnim na četrtem, Opus 4.1 Thinking na devetem v primerjavi s standardnim na enajstem. Grok 4.1 Thinking prekaša svojo standardno različico za tri mesta. Toda preklopite na druge arhitekture in vzorec se obrne – včasih dramatično. DeepSeek v3.2-exp standard sedi na osemindvajsetem mestu, medtem ko njegova misleča različica pade na dvainštirideseto. DeepSeek v3.1-terminus standard je na dvaindvajsetem; njegov misleči ustreznik pade na oseminpetdeseto – vrzel šestintridesetih mest. GPT-5.2 standard premaga GPT-5.2-high.

To, kar mi to pove, je pomembno: kreativno pisanje ni primarno problem sklepanja. Je estetski problem. Za modele, ki že imajo močne literarne instinkte, lahko razširjeno razmišljanje te instinkte prečisti – kot skrben urednik, ki pregleduje trden prvi osnutek. Toda za modele, katerih kreativna moč je bolj instinktivna in vodena z vzorci, prisilni premislek dejansko zgladi grobe robove, zaradi katerih proza deluje živo. Včasih prvi odziv ujame nekaj, kar dodatno računanje zgladi v povprečnost. Če uporabljate modele, sposobne razmišljanja, za kreativno delo, preizkusite oba načina. Predpostavka, da več sklepanja pomeni boljši rezultat, tukaj ne drži, in razumevanje, kdaj izklopiti razmišljanje, je lahko dragocenejše od vedenja, kdaj ga vklopiti.

Naraščajoča Plima

Pod najvišjo ravnijo je zgodba o širjenju in raznolikosti – in to je verjetno pomembneje kot tekma za prvo mesto.

DeepSeek postavlja deset modelov v prvih šestdeset, s čimer postaja tretja najbolj zastopana organizacija za Anthropicom in OpenAI. Njihove različice v3.1 in v3.2 segajo od dvaindvajsetega do oseminpetdesetega mesta in pokrivajo vrsto ravni kreativnih sposobnosti. Kot projekt z odprtimi utežmi (open-weight) DeepSeek predstavlja nekaj bistveno drugačnega od lastniških voditeljev: te modele je mogoče prenesti, gostiti lokalno in fino nastaviti (fine-tuned) za specifične kreativne naloge. Če gradite orodje za pisanje z UI ali integrirate kreativne zmogljivosti v produktni cevovod, DeepSeek ponuja prilagodljivost, ki ji modeli samo z API ne morejo parirati.

Širša slika je še bolj presenetljiva. Med DeepSeek, Baidu, Moonshot, Alibaba, Z.ai in Tencent kitajski laboratoriji za UI zdaj predstavljajo dvaindvajset od šestdesetih uvrščenih modelov – več kot tretjino celotne lestvice. Moonshotov Kimi K2.5 je debitiral s svojo mislečo različico na enaindvajsetem mestu in podjetje pripeljal do treh uvrstitev. Baidu drži tri mesta s svojo linijo ERNIE 5.0. Alibabin Qwen3 ima tri uvrščene različice. Z.ai-jev GLM-4.7 sedi na sedemindvajsetem mestu. To ni konvergenca – to je pristna raznolikost. Različni podatki za usposabljanje, različni kulturni konteksti in različne literarne tradicije proizvajajo modele z različnimi kreativnimi senzibilnostmi. Videl sem ERNIE-ja ustvarjati metafore, ki modelom, usposobljenim na zahodu, ne bi prišle na misel, in GLM-a obravnavati pripovedni tempo na načine, ki se zdijo sveži prav zato, ker je literarni DNK drugačen. Globalni ekosistem kreativne UI je zaradi tega bogatejši.

OpenAI drži enajst modelov, čeprav ima njihova kreativna zgodba zanimiv stranski zaplet. GPT-4.5-preview na dvanajstem mestu je pred GPT-5.1-high na štirinajstem in GPT-5.1 standard na triindvajsetem. Včasih model, optimiziran za nianse, prekaša svojega tehnično superiornega naslednika pri nalogah, ki cenijo subtilnost bolj kot surovo zmogljivost. ChatGPT-4o-latest na sedemnajstem mestu to točko še okrepi: modeli, optimizirani za pogovor, imajo prirojen prednost v kreativnem pisanju, ker je pripovedovanje zgodb v osnovi pogovorno. Ne izračunavate odgovora – vzdržujete glas.

Grok je izklesal pristno kreativno identiteto s sedmimi modeli na lestvici. Kjer Claude blesti v čustveni inteligenci, Grok prinaša čustveno iskrenost. Humor je ostrejši, metafore drznejše, liki manj zloščeni in bolj živi. Ko želim pisanje, ki tvega – fikcijo, ki bi lahko bralcu povzročila nelagodje na produktiven način – je Grok tisti, kjer začnem. Je model, ki se najmanj boji lastnega glasu, in pri kreativnem pisanju neustrašnost šteje. Mistralov medium-2508 na šestinpetdesetem mestu predstavlja prisotnost Evrope na plošči. Tencentov Hunyuan na triinpetdesetem dodaja še en glas iz Kitajske. Polje še nikoli ni bilo širše.

Kam Vse To Vodi

Povedal vam bom, kaj mislim, da se bo zgodilo naprej, ker trendi v teh podatkih kažejo nekam specifično.

Vrzel se še naprej stiska. Razpon med prvim in šestdesetim mestom je približno 7,4 odstotka – tesno po zgodovinskih standardih in se z vsako posodobitvijo oži. Približujemo se pragu, kjer se pomembne razlike med modeli premaknejo od surove kakovosti h kreativni osebnosti. Vprašanje preneha biti "kateri model piše najbolje" in postane "glas katerega modela ustreza temu določenemu projektu". To je temeljna sprememba v tem, kako naj pisatelji in kreativne ekipe razmišljajo o izbiri UI.

Specializirani kreativni modeli so neizogibni. Splošnonamenska arhitektura je potisnila kakovost kreativnega pisanja izjemno daleč, vendar bo naslednji pravi skok prišel od modelov, ki so izrecno nastavljeni za pripovedno strukturo, doslednost likov, pristnost dialoga ali pesniško obliko. Pričakujem, da bo vsaj en velik laboratorij do druge polovice tega leta izdal kreativno-specialistični model – takšnega, ki se popolnoma zaveže literarni sposobnosti, namesto da bi poskušal hkrati reševati matematiko, pisati kodo in pripovedovati zgodbe. Ko se to zgodi, bo čez noč ponastavilo vrh te lestvice.

Modeli z odprtimi utežmi bodo zaprli preostalo vrzel. Prisotnost desetih modelov DeepSeek je vodilni pokazatelj. Ko se odprte alternative približujejo pariteti z lastniškimi sistemi v kreativnih merilih, se ekonomija pisanja s pomočjo UI dramatično spremeni. Pisatelji, studii in založniki dobijo dostop do vrhunske kreativne UI brez cen na žeton, kar spreminja krivulje sprejemanja in temeljni odnos med človeškimi pisatelji in orodji UI.

Prava meja je orkestracija, ne izolacija. Najbolj sofisticirano kreativno delo, ki sem ga videl pred kratkim, ne uporablja enega samega modela – uporablja tri ali štiri v zaporedju. Gemini za začetno idejo in slogovno raziskovanje. Claude za čustveno prefinjenost in brušenje dialoga. DeepSeek ali Qwen za alternativne kulturne perspektive. Grok, ko osnutek potrebuje ostrino. Prihodnost ni v kronanju enega modela za kralja. Gre za učenje dirigiranja ansamblu, usklajevanje kreativne osebnosti vsakega modela s pravim trenutkom v procesu pisanja. Pisatelji, ki to ugotovijo prvi, bodo ustvarili delo, ki se bo zdelo drugačno od vsega, kar bi lahko dosegel en sam model – ali en sam človek – sam.

Izbira Vašega Kreativnega Partnera

Po letih pisanja ob teh modelih je tukaj tisto, kar sem se naučil o usklajevanju pravega orodja s pravo nalogo:

Vsestranskost

Gemini 3 Pro se prilagodi kateremukoli žanru, kateri koli obliki, kateremukoli tonu. Ko je naloga nedefinirana ali projekt zahteva razpon, začnite tukaj.

Čustvena Globina

Claude Opus 4.6 piše z zadržanostjo in pristnim občutkom. Za dialog, delo z liki in prozo, kjer tisto, kar ostane neizrečeno, šteje največ.

Hitrost in Kakovost

Gemini 3 Flash dokazuje, da hitro ne pomeni slabše. Za iterativno sestavljanje, obsežne projekte in hitro prototipiranje pripovednih idej.

Osebnost

Grok 4.1 prevzema kreativna tveganja, ki jih drugi modeli ne bodo. Za fikcijo, ki potrebuje ostrino, humor in like, ki se zdijo živi, ne pa sestavljeni.

Podjetja

GPT-4.5 / GPT-5.1 zagotavljajo izpopolnjen, zanesljiv izhod, ki se integrira v obstoječe delovne tokove. Ko sta doslednost in varnost blagovne znamke enako pomembni kot ustvarjalnost.

Odprta Koda

DeepSeek / Qwen: gostite ga sami, fino nastavite za svojo domeno. Ko potrebujete kreativno UI v velikem obsegu brez stroškov na žeton, je ekonomija nepremagljiva.

Ni ene same najboljše kreativne UI. Obstajajo razvijajoči se glasovi z različnimi močmi in prava moč leži v vedenju, kateri glas služi kateremu trenutku v zgodbi, ki jo poskušate povedati.

Vir Podatkov: Lestvice iz Arena AI Creative Writing Leaderboard, 6. februar 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard