Lestvica Arene Kreativnega Pisanja UI — Februar 2026

Ključno Spoznanje

Kreativno pisanje je tisto, kjer se surova inteligenca prikloni okusu, zadržanosti in pogumu, da prave stvari ostanejo neizrečene.

Tri leta prosjačenja UI, da mi pripoveduje zgodbe. Ne povzetkov, ne orisov – ampak pravo leposlovje. Tiste vrste, kjer lik vstopi v sobo in začutite, kako se spremeni temperatura. V teh letih sem opazoval, kako se je ta lestvica spremenila iz zanimivosti v pravi barometer literarnih sposobnosti. Februar 2026 je prinesel doslej najbolj zanimiv premik: popolnoma nov model, ki je prispel tiho, hitro napredoval in zmanjšal vrzel, ki se je še pred nekaj tedni zdela trajna. Tukaj je celotna slika – šestdeset modelov, razvrščenih, analiziranih in postavljenih v kontekst s strani nekoga, ki z njimi dela vsak dan.

Lestvica Kreativnega Pisanja

Koda ima sintakso. Matematika ima dokaze. Toda kreativno pisanje ima glas – ritem, presenečenje, čustveno resonanco. To je Arena Kreativnega Pisanja, najzahtevnejše merilo pri vrednotenju UI, kjer je šestdeset modelov razvrščenih po tem, kako dobro pripovedujejo zgodbe, ki dejansko ganejo ljudi. Tako stvari stojijo februarja 2026.

Mesto Model Rezultat Glasovi Organizacija
🥇
Gemini 3 Pro 14904,861Google
🥈
Claude Opus 4 6 1478347Anthropic
🥉
Claude Opus 4 5 20251101 Thinking 32k 14593,667Anthropic
#4
Claude Opus 4 5 20251101 14574,382Anthropic
#5
Gemini 3 Flash 14563,678Google
#6
Gemini 2.5 Pro 145012,564Google
#7
Claude Sonnet 4 5 20250929 14475,769Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14472,253Google
#9
Claude Opus 4 1 20250805 Thinking 16k 14456,651Anthropic
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14426,015Anthropic
#11
Claude Opus 4 1 20250805 14409,807Anthropic
#12
Gpt 4.5 Preview 2025 02 27 14382,618OpenAI
#13
Grok 4.1 Thinking 14344,819xAI
#14
Gpt 5.1 High 14344,213OpenAI
#15
Claude Opus 4 20250514 Thinking 16k 14284,750Anthropic
#16
Grok 4.1 14275,119xAI
#17
Chatgpt 4o Latest 20250326 142211,146OpenAI
#18
Ernie 5.0 Preview 1203 14201,477Baidu
#19
Claude Opus 4 20250514 14195,794Anthropic
#20
Ernie 5.0 0110 14181,622Baidu
#21
Kimi K2.5 Thinking 14181,059Moonshot
#22
Deepseek V3.1 Terminus 1411458DeepSeek
#23
Gpt 5.1 14114,512OpenAI
#24
Ernie 5.0 Preview 1022 1411662Baidu
#25
Deepseek V3.1 Thinking 14101,720DeepSeek
#26
Grok 4 1 Fast Reasoning 14043,798xAI
#27
Glm 4.7 14031,797Z.ai
#28
Deepseek V3.2 Exp 14031,500DeepSeek
#29
Gpt 4.1 2025 04 14 14026,858OpenAI
#30
Glm 4.6 14024,764Z.ai
#31
Kimi K2.5 Instant 1402427Moonshot
#32
Grok 3 Preview 02 24 14024,972xAI
#33
Deepseek V3.2 13993,529DeepSeek
#34
Gemini 2.5 Flash 139812,294Google
#35
Gpt 5.2 13981,679OpenAI
#36
Grok 4 0709 13975,559xAI
#37
Qwen3 Max Preview 13963,713Alibaba
#38
Claude Sonnet 4 20250514 Thinking 32k 13964,582Anthropic
#39
Deepseek V3.1 13952,082DeepSeek
#40
Qwen3 Max 2025 09 23 13951,154Alibaba
#41
Claude 3 7 Sonnet 20250219 Thinking 32k 13955,472Anthropic
#42
Deepseek V3.2 Exp Thinking 13951,154DeepSeek
#43
Gpt 5 Chat 13944,010OpenAI
#44
Gpt 5.2 High 13942,133OpenAI
#45
Kimi K2 Thinking Turbo 13934,520Moonshot
#46
Deepseek V3 0324 13916,338DeepSeek
#47
Deepseek V3.2 Thinking 13903,113DeepSeek
#48
Deepseek R1 0528 13882,660DeepSeek
#49
Claude Sonnet 4 20250514 13855,328Anthropic
#50
Qwen3 235b A22b Instruct 2507 13849,102Alibaba
#51
O3 2025 04 16 13848,014OpenAI
#52
O1 2024 12 17 13834,646OpenAI
#53
Hunyuan T1 20250711 1382642Tencent
#54
Grok 4 Fast Chat 1382995xAI
#55
Gemini 2.5 Flash Preview 09 2025 13824,285Google
#56
Mistral Medium 2508 13828,527Mistral
#57
Claude Haiku 4 5 20251001 13825,754Anthropic
#58
Deepseek V3.1 Terminus Thinking 1381446DeepSeek
#59
Grok 4 Fast Reasoning 13802,372xAI
#60
Gpt 5 High 13794,330OpenAI

Februarski Preobrat

Ko sem potegnil najnovejše podatke, me je en vnos ustavil: Claude Opus 4.6, ki sedi na drugem mestu. Ne zato, ker bi bila visoka uvrstitev modela Anthropic nenavadna – to počnejo dosledno. Ampak zato, ker je ta model pristal na drugem mestu s komaj kakšno zgodovino ocenjevanja za sabo. Takšna vrsta zgodnjega konsenza je redka. Pomeni, da je prvi val preizkuševalcev – tisti obsedenci, ki poženejo identične pozive skozi vsako novo izdajo v nekaj urah po lansiranju – našel nekaj resnično drugačnega v njegovem kreativnem rezultatu.

Prava zgodba pa je vrzel. Januarja je bila razdalja med prvim in drugim mestom udobnih petindvajset točk. Zdaj je dvanajst. Gemini 3 Pro še vedno drži zlato in si je ta položaj pošteno prislužil. Toda prednost se je v enem samem ciklu posodobitev prepolovila. Če ste Google, ta trend zahteva pozornost. Če ste Anthropic, je to potrditev, da se vaš pristop k usposabljanju kreativne UI zbližuje z nečim močnim.

Medtem so se modeli tik pod prvima dvema močno premešali. Claude Opus 4.5 "misleča" različica se je povzpela na tretje mesto, potisnila standardni Opus 4.5 na četrto in Gemini 3 Flash na peto. Flash je še prejšnji mesec držal tretje mesto. Stopničke ne menjajo lastnikov le na vrhu – nestabilne so povsod. In nestabilnost, po mojih izkušnjah, napoveduje preboje.

Prevladujoči Vrhovi

Gemini 3 Pro ostaja model, po katerem posežem, ko še ne vem, kaj potrebujem. Tisto, kar ga drži na prvem mestu, je razpon: prosite ga za slog Hemingwaya in dostavi varčno, mišičasto prozo. Prosite za eksperimentalno postmoderno fikcijo in zamenja register brez izgube koherence. Viktorijanski pisemski roman, trdo kuhani noir, magični realizem, otroška literatura – Gemini obravnava te prehode na način, ki nakazuje pristno razumevanje oblike, ne le površnega posnemanja. Google postavlja šest modelov v prvih šestdeset, z Gemini 3 Flash na petem in Gemini 2.5 Pro na šestem mestu, ki dopolnjujeta močan trio na vrhu.

Claude je povsem drugačna zver. Če je Gemini razpon, je Claude globina. Modeli Anthropic so vedno blesteli v tankočutnostih, ki jih je najtežje naučiti stroj: kdaj pustiti tišini, da nosi prizor, kdaj naj se stavek pretrga namesto nadaljuje, kdaj tisto, česar lik ne reče, razkrije več kot tisto, kar reče. Opus 4.6 to potiska še dlje. V mojih testih je ustvaril dialog, ki se je zdel resnično naseljen. Liki niso podajali vrstic – razmišljali so, oklevali, izbirali besede tako, kot to počnejo resnični ljudje, ko je na kocki nekaj pomembnega. Anthropic ima zdaj trinajst modelov v prvih šestdesetih, več kot katera koli druga organizacija, s petimi uvrščenimi v prvo enajsterico. Karkoli je njihov pristop k usposabljanju kreativne sposobnosti, deluje v celotni njihovi liniji izdelkov.

Tukaj je opažanje, ki ne prejme dovolj pozornosti: razširjeno sklepanje – način "thinking" – ne izboljša zanesljivo kreativnega pisanja. Vzorec je nedosleden in globoko razkrivajoč.

Pri modelih Claude Opus se misleče različice običajno uvrščajo nekoliko višje: Opus 4.5 Thinking na tretjem mestu v primerjavi s standardnim na četrtem, Opus 4.1 Thinking na devetem v primerjavi s standardnim na enajstem. Grok 4.1 Thinking prekaša svojo standardno različico za tri mesta. Toda preklopite na druge arhitekture in vzorec se obrne – včasih dramatično. DeepSeek v3.2-exp standard sedi na osemindvajsetem mestu, medtem ko njegova misleča različica pade na dvainštirideseto. DeepSeek v3.1-terminus standard je na dvaindvajsetem; njegov misleči ustreznik pade na oseminpetdeseto – vrzel šestintridesetih mest. GPT-5.2 standard premaga GPT-5.2-high.

To, kar mi to pove, je pomembno: kreativno pisanje ni primarno problem sklepanja. Je estetski problem. Za modele, ki že imajo močne literarne instinkte, lahko razširjeno razmišljanje te instinkte prečisti – kot skrben urednik, ki pregleduje trden prvi osnutek. Toda za modele, katerih kreativna moč je bolj instinktivna in vodena z vzorci, prisilni premislek dejansko zgladi grobe robove, zaradi katerih proza deluje živo. Včasih prvi odziv ujame nekaj, kar dodatno računanje zgladi v povprečnost. Če uporabljate modele, sposobne razmišljanja, za kreativno delo, preizkusite oba načina. Predpostavka, da več sklepanja pomeni boljši rezultat, tukaj ne drži, in razumevanje, kdaj izklopiti razmišljanje, je lahko dragocenejše od vedenja, kdaj ga vklopiti.

Naraščajoča Plima

Pod najvišjo ravnijo je zgodba o širjenju in raznolikosti – in to je verjetno pomembneje kot tekma za prvo mesto.

DeepSeek postavlja deset modelov v prvih šestdeset, s čimer postaja tretja najbolj zastopana organizacija za Anthropicom in OpenAI. Njihove različice v3.1 in v3.2 segajo od dvaindvajsetega do oseminpetdesetega mesta in pokrivajo vrsto ravni kreativnih sposobnosti. Kot projekt z odprtimi utežmi (open-weight) DeepSeek predstavlja nekaj bistveno drugačnega od lastniških voditeljev: te modele je mogoče prenesti, gostiti lokalno in fino nastaviti (fine-tuned) za specifične kreativne naloge. Če gradite orodje za pisanje z UI ali integrirate kreativne zmogljivosti v produktni cevovod, DeepSeek ponuja prilagodljivost, ki ji modeli samo z API ne morejo parirati.

Širša slika je še bolj presenetljiva. Med DeepSeek, Baidu, Moonshot, Alibaba, Z.ai in Tencent kitajski laboratoriji za UI zdaj predstavljajo dvaindvajset od šestdesetih uvrščenih modelov – več kot tretjino celotne lestvice. Moonshotov Kimi K2.5 je debitiral s svojo mislečo različico na enaindvajsetem mestu in podjetje pripeljal do treh uvrstitev. Baidu drži tri mesta s svojo linijo ERNIE 5.0. Alibabin Qwen3 ima tri uvrščene različice. Z.ai-jev GLM-4.7 sedi na sedemindvajsetem mestu. To ni konvergenca – to je pristna raznolikost. Različni podatki za usposabljanje, različni kulturni konteksti in različne literarne tradicije proizvajajo modele z različnimi kreativnimi senzibilnostmi. Videl sem ERNIE-ja ustvarjati metafore, ki modelom, usposobljenim na zahodu, ne bi prišle na misel, in GLM-a obravnavati pripovedni tempo na načine, ki se zdijo sveži prav zato, ker je literarni DNK drugačen. Globalni ekosistem kreativne UI je zaradi tega bogatejši.

OpenAI drži enajst modelov, čeprav ima njihova kreativna zgodba zanimiv stranski zaplet. GPT-4.5-preview na dvanajstem mestu je pred GPT-5.1-high na štirinajstem in GPT-5.1 standard na triindvajsetem. Včasih model, optimiziran za nianse, prekaša svojega tehnično superiornega naslednika pri nalogah, ki cenijo subtilnost bolj kot surovo zmogljivost. ChatGPT-4o-latest na sedemnajstem mestu to točko še okrepi: modeli, optimizirani za pogovor, imajo prirojen prednost v kreativnem pisanju, ker je pripovedovanje zgodb v osnovi pogovorno. Ne izračunavate odgovora – vzdržujete glas.

Grok je izklesal pristno kreativno identiteto s sedmimi modeli na lestvici. Kjer Claude blesti v čustveni inteligenci, Grok prinaša čustveno iskrenost. Humor je ostrejši, metafore drznejše, liki manj zloščeni in bolj živi. Ko želim pisanje, ki tvega – fikcijo, ki bi lahko bralcu povzročila nelagodje na produktiven način – je Grok tisti, kjer začnem. Je model, ki se najmanj boji lastnega glasu, in pri kreativnem pisanju neustrašnost šteje. Mistralov medium-2508 na šestinpetdesetem mestu predstavlja prisotnost Evrope na plošči. Tencentov Hunyuan na triinpetdesetem dodaja še en glas iz Kitajske. Polje še nikoli ni bilo širše.

Kam Vse To Vodi

Povedal vam bom, kaj mislim, da se bo zgodilo naprej, ker trendi v teh podatkih kažejo nekam specifično.

Vrzel se še naprej stiska. Razpon med prvim in šestdesetim mestom je približno 7,4 odstotka – tesno po zgodovinskih standardih in se z vsako posodobitvijo oži. Približujemo se pragu, kjer se pomembne razlike med modeli premaknejo od surove kakovosti h kreativni osebnosti. Vprašanje preneha biti "kateri model piše najbolje" in postane "glas katerega modela ustreza temu določenemu projektu". To je temeljna sprememba v tem, kako naj pisatelji in kreativne ekipe razmišljajo o izbiri UI.

Specializirani kreativni modeli so neizogibni. Splošnonamenska arhitektura je potisnila kakovost kreativnega pisanja izjemno daleč, vendar bo naslednji pravi skok prišel od modelov, ki so izrecno nastavljeni za pripovedno strukturo, doslednost likov, pristnost dialoga ali pesniško obliko. Pričakujem, da bo vsaj en velik laboratorij do druge polovice tega leta izdal kreativno-specialistični model – takšnega, ki se popolnoma zaveže literarni sposobnosti, namesto da bi poskušal hkrati reševati matematiko, pisati kodo in pripovedovati zgodbe. Ko se to zgodi, bo čez noč ponastavilo vrh te lestvice.

Modeli z odprtimi utežmi bodo zaprli preostalo vrzel. Prisotnost desetih modelov DeepSeek je vodilni pokazatelj. Ko se odprte alternative približujejo pariteti z lastniškimi sistemi v kreativnih merilih, se ekonomija pisanja s pomočjo UI dramatično spremeni. Pisatelji, studii in založniki dobijo dostop do vrhunske kreativne UI brez cen na žeton, kar spreminja krivulje sprejemanja in temeljni odnos med človeškimi pisatelji in orodji UI.

Prava meja je orkestracija, ne izolacija. Najbolj sofisticirano kreativno delo, ki sem ga videl pred kratkim, ne uporablja enega samega modela – uporablja tri ali štiri v zaporedju. Gemini za začetno idejo in slogovno raziskovanje. Claude za čustveno prefinjenost in brušenje dialoga. DeepSeek ali Qwen za alternativne kulturne perspektive. Grok, ko osnutek potrebuje ostrino. Prihodnost ni v kronanju enega modela za kralja. Gre za učenje dirigiranja ansamblu, usklajevanje kreativne osebnosti vsakega modela s pravim trenutkom v procesu pisanja. Pisatelji, ki to ugotovijo prvi, bodo ustvarili delo, ki se bo zdelo drugačno od vsega, kar bi lahko dosegel en sam model – ali en sam človek – sam.

Izbira Vašega Kreativnega Partnera

Po letih pisanja ob teh modelih je tukaj tisto, kar sem se naučil o usklajevanju pravega orodja s pravo nalogo:

Vsestranskost

Gemini 3 Pro se prilagodi kateremukoli žanru, kateri koli obliki, kateremukoli tonu. Ko je naloga nedefinirana ali projekt zahteva razpon, začnite tukaj.

Čustvena Globina

Claude Opus 4.6 piše z zadržanostjo in pristnim občutkom. Za dialog, delo z liki in prozo, kjer tisto, kar ostane neizrečeno, šteje največ.

Hitrost in Kakovost

Gemini 3 Flash dokazuje, da hitro ne pomeni slabše. Za iterativno sestavljanje, obsežne projekte in hitro prototipiranje pripovednih idej.

Osebnost

Grok 4.1 prevzema kreativna tveganja, ki jih drugi modeli ne bodo. Za fikcijo, ki potrebuje ostrino, humor in like, ki se zdijo živi, ne pa sestavljeni.

Podjetja

GPT-4.5 / GPT-5.1 zagotavljajo izpopolnjen, zanesljiv izhod, ki se integrira v obstoječe delovne tokove. Ko sta doslednost in varnost blagovne znamke enako pomembni kot ustvarjalnost.

Odprta Koda

DeepSeek / Qwen: gostite ga sami, fino nastavite za svojo domeno. Ko potrebujete kreativno UI v velikem obsegu brez stroškov na žeton, je ekonomija nepremagljiva.

Ni ene same najboljše kreativne UI. Obstajajo razvijajoči se glasovi z različnimi močmi in prava moč leži v vedenju, kateri glas služi kateremu trenutku v zgodbi, ki jo poskušate povedati.


Vir Podatkov: Lestvice iz Arena AI Creative Writing Leaderboard, 6. februar 2026.

Discussion

0 comments

Leave a comment

Be the first to share your thoughts on this article!