Kreatívne písanie je miestom, kde sa hrubá inteligencia klania vkusu, zdržanlivosti a odvahe nechať tie správne veci nevypovedané.
Tri roky žiadania AI, aby mi rozprávala príbehy. Nie zhrnutia, nie osnovy – ale skutočnú fikciu. Ten druh, kde postava vojde do miestnosti a vy cítite, ako sa zmení teplota. Počas tých rokov som sledoval, ako sa tento rebríček mení z kuriozity na skutočný barometer literárnych schopností. Február 2026 priniesol doteraz najzaujímavejší posun: úplne nový model, ktorý dorazil potichu, rýchlo stúpal a zúžil medzeru, ktorá sa ešte pred pár týždňami zdala trvalá. Tu je celý obraz – šesťdesiat modelov zoradených, analyzovaných a zasadených do kontextu niekým, kto s nimi pracuje každý deň.
Rebríček Kreatívneho Písania
Kód má syntax. Matematika má dôkazy. Ale kreatívne písanie má hlas – rytmus, prekvapenie, emocionálnu rezonanciu. Toto je Aréna Kreatívneho Písania, najnáročnejší benchmark v hodnotení AI, kde je šesťdesiat modelov hodnotených podľa toho, ako dobre rozprávajú príbehy, ktoré ľudí skutočne pohnú. Takto to vyzerá vo februári 2026.
| Poradie | Model | Skóre | Hlasy | Organizácia |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Februárový Zlom
Keď som vytiahol najnovšie údaje, jeden záznam ma zastavil: Claude Opus 4.6 sediaci na druhom mieste. Nie preto, že by model od Anthropicu na vysokej pozícii bol niečím nezvyčajným – robia to konzistentne. Ale preto, že tento model pristál na druhej pozícii s takmer nulovou históriou hodnotenia za sebou. Takýto druh skorého konsenzu je zriedkavý. Znamená to, že prvá vlna testerov – posadnutých ľudí, ktorí preženú identické prompty každým novým vydaním v priebehu niekoľkých hodín od spustenia – našla v jeho kreatívnom výstupe niečo skutočne odlišné.
Skutočným príbehom je však tá medzera. V januári bola vzdialenosť medzi prvým a druhým miestom pohodlných dvadsaťpäť bodov. Teraz je to dvanásť. Gemini 3 Pro stále drží zlato a túto pozíciu si zaslúžil poctivo. Ale náskok sa v jedinom aktualizačnom cykle znížil na polovicu. Ak ste Google, tento trend si vyžaduje pozornosť. Ak ste Anthropic, je to potvrdenie, že váš prístup k tréningu kreatívnej AI konverguje k niečomu mocnému.
Medzitým sa modely tesne pod prvou dvojicou výrazne premiešali. "Thinking" variant Claude Opus 4.5 sa posunul na tretie miesto, čím odsunul štandardný Opus 4.5 na štvrté a Gemini 3 Flash na piate. Flash držal tretie miesto ešte minulý mesiac. Pódium nemení majiteľa len na vrchole – je nestabilné skrz naskrz. A nestabilita, podľa mojich skúseností, predchádza prelomom.
Dominantné Výšiny
Gemini 3 Pro zostáva modelom, po ktorom siahnem, keď ešte neviem, čo potrebujem. To, čo ho drží na prvom mieste, je rozsah: požiadajte ho o štýl Hemingwaya a dodá úspornú, svalnatú prózu. Požiadajte o experimentálnu postmodernú fikciu a zmení register bez straty súdržnosti. Viktoriánsky román v listoch, drsný noir, magický realizmus, detská literatúra – Gemini zvláda tieto prechody spôsobom, ktorý naznačuje skutočné porozumenie forme, nie len povrchnú nápodobu. Google umiestňuje šesť modelov do top šesťdesiatky, pričom Gemini 3 Flash na piatom a Gemini 2.5 Pro na šiestom mieste dopĺňajú silné trio na špičke.
Claude je úplne iné zviera. Ak je Gemini rozsah, Claude je hĺbka. Modely Anthropicu vždy vynikali v jemnostiach, ktoré sa stroju učia najťažšie: kedy nechať ticho niesť scénu, kedy by sa veta mala zlomiť namiesto toho, aby pokračovala, kedy to, čo postava nepovie, odhalí viac než to, čo povie. Opus 4.6 to posúva ešte ďalej. V mojich testoch produkoval dialógy, ktoré pôsobili skutočne prežito. Postavy neprednášali repliky – premýšľali, váhali, vyberali slová tak, ako to robia skutoční ľudia, keď je v stávke niečo dôležité. Anthropic má teraz v top šesťdesiatke trinásť modelov, viac než akákoľvek iná organizácia, s piatimi umiestnenými v prvej jedenástke. Nech už je ich prístup k tréningu kreatívnych schopností akýkoľvek, funguje naprieč celou ich produktovou radou.
Tu je postreh, ktorému sa nedostáva dostatočnej pozornosti: rozšírené uvažovanie – režim "thinking" – kreatívne písanie spoľahlivo nezlepšuje. Vzorec je nekonzistentný a hlboko odhaľujúci.
Pri modeloch Claude Opus majú premýšľavé varianty tendenciu umiestňovať sa o niečo vyššie: Opus 4.5 Thinking na treťom mieste oproti štandardnému na štvrtom, Opus 4.1 Thinking na deviatom oproti štandardnému na jedenástom. Grok 4.1 Thinking prekonáva svoj štandardný variant o tri pozície. Ale prejdite k iným architektúram a vzorec sa obráti – niekedy dramaticky. DeepSeek v3.2-exp standard sedí na dvadsiatom ôsmom mieste, zatiaľ čo jeho premýšľavý variant padá na štyridsiate druhé. DeepSeek v3.1-terminus standard je na dvadsiatom druhom; jeho premýšľavý náprotivok klesá na päťdesiate ôsme – priepasť tridsiatich šiestich pozícií. GPT-5.2 standard poráža GPT-5.2-high.
Čo mi to hovorí, je dôležité: kreatívne písanie nie je primárne problém uvažovania. Je to estetický problém. Pri modeloch, ktoré už majú silné literárne inštinkty, môže rozšírené myslenie tieto inštinkty vybrúsiť – ako starostlivý editor revidujúci solídny prvý koncept. Ale pri modeloch, ktorých kreatívna sila je inštinktívnejšia a riadená vzormi, nútené uvažovanie v skutočnosti obrusuje hrubé hrany, vďaka ktorým próza pôsobí živo. Niekedy prvá odpoveď zachytí niečo, čo dodatočný výpočet uhladí do priemernosti. Ak používate modely schopné myslenia pre kreatívnu prácu, otestujte oba režimy. Predpoklad, že viac uvažovania sa rovná lepší výstup, tu neplatí a pochopenie, kedy myslenie vypnúť, môže byť cennejšie než vedieť, kedy ho zapnúť.
Stúpajúci Príliv
Pod najvyššou úrovňou je príbehom proliferácia a rozmanitosť – a je to možno dôležitejšie než závod o prvé miesto.
DeepSeek umiestňuje do top šesťdesiatky desať modelov, čím sa stáva treťou najviac zastúpenou organizáciou po Anthropicu a OpenAI. Ich varianty v3.1 a v3.2 sa pohybujú od dvadsiateho druhého do päťdesiateho ôsmeho miesta a pokrývajú škálu úrovní kreatívnych schopností. Ako projekt s otvorenými váhami (open-weight) predstavuje DeepSeek niečo zásadne odlišné od proprietárnych lídrov: tieto modely je možné stiahnuť, hostovať lokálne a vyladiť (fine-tune) pre špecifické kreatívne úlohy. Ak budujete nástroj na písanie s AI alebo integrujete kreatívne schopnosti do produktového potrubia, DeepSeek ponúka flexibilitu, ktorej sa modely len s API nemôžu rovnať.
Širší obraz je ešte nápadnejší. Medzi DeepSeek, Baidu, Moonshot, Alibaba, Z.ai a Tencent teraz čínske laboratóriá AI predstavujú dvadsaťdva zo šesťdesiatich hodnotených modelov – viac ako tretinu celého rebríčka. Moonshotov Kimi K2.5 debutoval so svojím premýšľavým variantom na dvadsiatom prvom mieste, čím posunul spoločnosť na tri umiestnenia. Baidu drží tri pozície so svojou radou ERNIE 5.0. Alibaba Qwen3 má tri hodnotené varianty. Z.ai GLM-4.7 sedí na dvadsiatom siedmom mieste. Toto nie je konvergencia – to je skutočná rozmanitosť. Rôzne tréningové dáta, rôzne kultúrne kontexty a rôzne literárne tradície produkujú modely s odlišnou kreatívnou citlivosťou. Videl som ERNIE-ho vytvárať metafory, ktoré by západne trénované modely nenapadli, a GLM zaobchádzať s naratívnym tempom spôsobmi, ktoré pôsobia sviežo práve preto, že literárna DNA je iná. Globálny ekosystém kreatívnej AI je vďaka tomu bohatší.
OpenAI drží jedenásť modelov, hoci ich kreatívny príbeh má zaujímavú vedľajšiu zápletku. GPT-4.5-preview na dvanástom mieste je pred GPT-5.1-high na štrnástom aj GPT-5.1 standard na dvadsiatom treťom. Niekedy model optimalizovaný pre nuansy prekoná svojho technicky nadradeného nástupcu v úlohách, ktoré cenia jemnosť nad hrubou schopnosťou. ChatGPT-4o-latest na sedemnástom mieste tento bod posilňuje: modely optimalizované pre konverzáciu majú v kreatívnom písaní inherentnú výhodu, pretože rozprávanie príbehov je v zásade konverzačné. Nepočítate odpoveď – udržiavate hlas.
Grok si vybudoval skutočnú kreatívnu identitu so siedmimi modelmi v rebríčku. Kde Claude vyniká v emočnej inteligencii, Grok prináša emočnú úprimnosť. Humor je ostrejší, metafory odvážnejšie, postavy menej uhladené a živšie. Keď chcem písanie, ktoré riskuje – fikciu, ktorá môže čitateľa produktívnym spôsobom znepokojiť – Grok je miesto, kde začínam. Je to model, ktorý sa najmenej bojí vlastného hlasu, a v kreatívnom písaní na nebojácnosti záleží. Mistralov medium-2508 na päťdesiatom šiestom mieste reprezentuje prítomnosť Európy na tabuli. Tencentov Hunyuan na päťdesiatom treťom pridáva ďalší hlas z Číny. Pole nikdy nebolo širšie.
Kam To Všetko Smeruje
Poviem vám, čo si myslím, že sa stane ďalej, pretože trendy v týchto dátach ukazujú niekam konkrétne.
Medzera sa stále stláča. Rozptyl medzi prvým a šesťdesiatym miestom je zhruba 7,4 percenta – tesné na historické štandardy a zužujúce sa s každou aktualizáciou. Blížime sa k prahu, kde sa zmysluplné rozdiely medzi modelmi posúvajú od hrubej kvality ku kreatívnej osobnosti. Otázka prestáva byť "ktorý model píše najlepšie" a stáva sa "hlas ktorého modelu sa hodí pre tento konkrétny projekt". To je zásadná zmena v tom, ako by mali spisovatelia a kreatívne tímy premýšľať o výbere AI.
Špecializované kreatívne modely sú nevyhnutné. Univerzálna architektúra posunula kvalitu kreatívneho písania pozoruhodne ďaleko, ale ďalší skutočný skok príde od modelov explicitne vyladených pre naratívnu štruktúru, konzistenciu postáv, autentickosť dialógov alebo poetickú formu. Očakávam, že aspoň jedno veľké laboratórium do druhej polovice tohto roka vydá kreatívne-špecialistický model – taký, ktorý sa úplne zaviaže k literárnej schopnosti namiesto toho, aby sa snažil riešiť matematiku, písať kód a rozprávať príbehy súčasne. Keď sa to stane, resetuje to vrchol tohto rebríčka cez noc.
Modely s otvorenými váhami uzavrú zostávajúcu medzeru. Prítomnosť desiatich modelov DeepSeek je vedúcim indikátorom. Ako sa otvorené alternatívy blížia parite s proprietárnymi systémami v kreatívnych benchmarkoch, ekonomika písania s asistenciou AI sa dramaticky mení. Spisovatelia, štúdiá a vydavatelia získavajú prístup k špičkovej kreatívnej AI bez cien za token, čo mení krivky adopcie a základný vzťah medzi ľudskými spisovateľmi a nástrojmi AI.
Skutočnou hranicou je orchestrácia, nie izolácia. Najsofistikovanejšia kreatívna práca, ktorú som v poslednej dobe videl, nepoužíva jediný model – používa tri alebo štyri v sekvencii. Gemini pre počiatočný nápad a štylistický prieskum. Claude pre emočné zjemnenie a leštenie dialógov. DeepSeek alebo Qwen pre alternatívne kultúrne perspektívy. Grok, keď náčrt potrebuje ostrie. Budúcnosť nie je o korunovácii jedného modelu za kráľa. Je to o učení sa dirigovať súbor, zladiť kreatívnu osobnosť každého modelu so správnym momentom v procese písania. Spisovatelia, ktorí na to prídu ako prví, vytvoria dielo, ktoré sa bude cítiť inak ako čokoľvek, čo by mohol dosiahnuť jediný model – alebo jediný človek – sám.
Výber Vášho Kreativneho Partnera
Po rokoch písania popri týchto modeloch je tu to, čo som sa naučil o priraďovaní správneho nástroja k správnej úlohe:
Všestrannosť
Gemini 3 Pro sa prispôsobí akémukoľvek žánru, akejkoľvek forme, akémukoľvek tónu. Keď je zadanie nedefinované alebo projekt vyžaduje rozsah, začnite tu.
Emocionálna Hĺbka
Claude Opus 4.6 píše so zdržanlivosťou a úprimným citom. Pre dialógy, prácu s postavami a prózu, kde záleží najviac na tom, čo zostalo nevypovedané.
Rýchlosť a Kvalita
Gemini 3 Flash dokazuje, že rýchly neznamená horší. Pre iteratívne spisovanie, veľkoobjemové projekty a rýchle prototypovanie naratívnych nápadov.
Osobnosť
Grok 4.1 podstupuje kreatívne riziká, ktoré iné modely nepodstúpia. Pre fikciu, ktorá potrebuje ostrie, humor a postavy, ktoré pôsobia živo skôr než zostavene.
Neexistuje žiadna jediná najlepšia kreatívna AI. Existujú vyvíjajúce sa hlasy s rôznymi silnými stránkami a skutočná sila spočíva v tom vedieť, ktorý hlas slúži ktorému momentu v príbehu, ktorý sa snažíte vyrozprávať.
Zdroj Dát: Rebríčky z Arena AI Creative Writing Leaderboard, 6. februára 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!