Kreativní psaní je místo, kde se hrubá inteligence klaní vkusu, zdrženlivosti a odvaze nechat ty správné věci nevyřčené.
Tři roky žádání AI, aby mi vyprávěla příběhy. Ne shrnutí, ne osnovy – ale skutečnou fikci. Ten druh, kdy postava vejde do místnosti a vy cítíte, jak se změní teplota. Během těch let jsem sledoval, jak se tento žebříček mění z kuriozity na skutečný barometr literárních schopností. Únor 2026 přinesl dosud nejzajímavější posun: zbrusu nový model, který dorazil potichu, rychle stoupal a zúžil mezeru, která se ještě před pár týdny zdála trvalá. Zde je celý obrázek – šedesát modelů seřazených, analyzovaných a zasazených do kontextu někým, kdo s nimi pracuje každý den.
Žebříček Kreativního Psaní
Kód má syntaxi. Matematika má důkazy. Ale kreativní psaní má hlas – rytmus, překvapení, emocionální rezonanci. Toto je Aréna Kreativního Psaní, nejnáročnější benchmark v hodnocení AI, kde je šedesát modelů hodnoceno podle toho, jak dobře vyprávějí příběhy, které lidi skutečně dojmou. Takhle to vypadá v únoru 2026.
| Pořadí | Model | Skóre | Hlasy | Organizace |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Únorový Zlom
Když jsem vytáhl nejnovější data, jeden záznam mě zastavil: Claude Opus 4.6 sedící na druhém místě. Ne proto, že by model od Anthropicu na vysoké pozici byl něčím neobvyklým – dělají to konzistentně. Ale protože tento model přistál na druhé pozici s téměř nulovou historií hodnocení. Takový druh brzkého konsensu je vzácný. Znamená to, že první vlna testerů – posedlých lidí, kteří proženou identické prompty každým novým vydáním během několika hodin od spuštění – našla v jeho kreativním výstupu něco skutečně odlišného.
Skutečným příběhem je však ta mezera. V lednu byla vzdálenost mezi prvním a druhým místem pohodlných dvacet pět bodů. Teď je to dvanáct. Gemini 3 Pro stále drží zlato a tuto pozici si zasloužil poctivě. Ale náskok se v jediném aktualizačním cyklu snížil na polovinu. Pokud jste Google, tento trend vyžaduje pozornost. Pokud jste Anthropic, je to potvrzení, že váš přístup k tréninku kreativní AI konverguje k něčemu mocnému.
Mezitím se modely těsně pod první dvojicí výrazně promíchaly. "Thinking" varianta Claude Opus 4.5 se posunula na třetí místo, čímž odsunula standardní Opus 4.5 na čtvrté a Gemini 3 Flash na páté. Flash držel třetí místo teprve minulý měsíc. Pódium nemění majitele jen na vrcholu – je nestabilní skrz naskrz. A nestabilita, podle mých zkušeností, předchází průlomům.
Dominantní Výšiny
Gemini 3 Pro zůstává modelem, po kterém sáhnu, když ještě nevím, co potřebuji. To, co ho drží na prvním místě, je rozsah: požádejte ho o styl Hemingwaye a dodá úspornou, svalnatou prózu. Požádejte o experimentální postmoderní fikci a změní rejstřík, aniž by ztratil soudržnost. Viktoriánský román v dopisech, drsný noir, magický realismus, dětská literatura – Gemini zvládá tyto přechody způsobem, který naznačuje skutečné porozumění formě, ne jen povrchní nápodobu. Google umisťuje šest modelů do top šedesátky, přičemž Gemini 3 Flash na pátém a Gemini 2.5 Pro na šestém místě doplňují silné trio na špičce.
Claude je úplně jiné zvíře. Pokud je Gemini rozsah, Claude je hloubka. Modely Anthropicu vždy vynikaly v jemnostech, které se stroji učí nejtíže: kdy nechat ticho nést scénu, kdy by se věta měla zlomit místo aby pokračovala, kdy to, co postava neřekne, odhalí víc než to, co řekne. Opus 4.6 to posouvá ještě dál. V mých testech produkoval dialogy, které působily skutečně prožitě. Postavy nepronášely repliky – přemýšlely, váhaly, vybíraly slova tak, jak to dělají skuteční lidé, když je v sázce něco důležitého. Anthropic má nyní v top šedesátce třináct modelů, více než jakákoli jiná organizace, s pěti umístěnými v první jedenáctce. Ať už je jejich přístup k tréninku kreativních schopností jakýkoli, funguje napříč celou jejich produktovou řadou.
Zde je postřeh, kterému se nedostává dostatečné pozornosti: rozšířené uvažování – režim "thinking" – kreativní psaní spolehlivě nezlepšuje. Vzorec je nekonzistentní a hluboce odhalující.
U modelů Claude Opus mají přemýšlivé varianty tendenci umisťovat se o něco výše: Opus 4.5 Thinking na třetím místě oproti standardnímu na čtvrtém, Opus 4.1 Thinking na devátém oproti standardnímu na jedenáctém. Grok 4.1 Thinking překonává svou standardní variantu o tři pozice. Ale přejděte k jiným architekturám a vzorec se obrátí – někdy dramaticky. DeepSeek v3.2-exp standard sedí na dvacátém osmém místě, zatímco jeho přemýšlivá varianta padá na čtyřicáté druhé. DeepSeek v3.1-terminus standard je na dvacátém druhém; jeho přemýšlivý protějšek klesá na padesáté osmé – propast třiceti šesti pozic. GPT-5.2 standard poráží GPT-5.2-high.
Co mi to říká, je důležité: kreativní psaní není primárně problém uvažování. Je to estetický problém. U modelů, které již mají silné literární instinkty, může rozšířené myšlení tyto instinkty vytříbit – jako pečlivý editor revidující solidní první koncept. Ale u modelů, jejichž kreativní síla je instinktivnější a řízená vzorci, nucené uvažování ve skutečnosti obrušuje hrubé hrany, díky nimž próza působí živě. Někdy první odpověď zachytí něco, co dodatečný výpočet uhladí do průměrnosti. Pokud používáte modely schopné myšlení pro kreativní práci, otestujte oba režimy. Předpoklad, že více uvažování rovná se lepší výstup, zde neplatí a pochopení, kdy myšlení vypnout, může být cennější než vědět, kdy ho zapnout.
Stoupající Příliv
Pod nejvyšší úrovní je příběhem proliferace a rozmanitost – a je to možná důležitější než závod o první místo.
DeepSeek umisťuje do top šedesátky deset modelů, čímž se stává třetí nejvíce zastoupenou organizací po Anthropicu a OpenAI. Jejich varianty v3.1 a v3.2 se pohybují od dvacátého druhého do padesátého osmého místa a pokrývají škálu úrovní kreativních schopností. Jako projekt s otevřenými váhami (open-weight) představuje DeepSeek něco zásadně odlišného od proprietárních lídrů: tyto modely lze stáhnout, hostovat lokálně a vyladit (fine-tune) pro specifické kreativní úkoly. Pokud budujete nástroj pro psaní s AI nebo integrujete kreativní schopnosti do produktového potrubí, DeepSeek nabízí flexibilitu, které se modely pouze s API nemohou rovnat.
Širší obraz je ještě nápadnější. Mezi DeepSeek, Baidu, Moonshot, Alibaba, Z.ai a Tencent nyní čínské laboratoře AI představují dvacet dva z šedesáti hodnocených modelů – více než třetinu celého žebříčku. Moonshotův Kimi K2.5 debutoval se svou přemýšlivou variantou na dvacátém prvním místě, čímž posunul společnost na tři umístění. Baidu drží tři pozice se svou řadou ERNIE 5.0. Alibaba Qwen3 má tři hodnocené varianty. Z.ai GLM-4.7 sedí na dvacátém sedmém místě. To není konvergence – to je skutečná rozmanitost. Různá tréninková data, různé kulturní kontexty a různé literární tradice produkují modely s odlišnou kreativní citlivostí. Viděl jsem ERNIEho vytvářet metafory, které by západně trénované modely nenapadly, a GLM zacházet s narativním tempem způsoby, které působí svěže právě proto, že literární DNA je jiná. Globální ekosystém kreativní AI je díky tomu bohatší.
OpenAI drží jedenáct modelů, ačkoli jejich kreativní příběh má zajímavou vedlejší zápletku. GPT-4.5-preview na dvanáctém místě je před GPT-5.1-high na čtrnáctém i GPT-5.1 standard na dvacátém třetím. Někdy model optimalizovaný pro nuance překoná svého technicky nadřazeného nástupce v úkolech, které cení jemnost nad hrubou schopností. ChatGPT-4o-latest na sedmnáctém místě tento bod posiluje: modely optimalizované pro konverzaci mají v kreativním psaní inherentní výhodu, protože vyprávění příběhů je v zásadě konverzační. Nepočítáte odpověď – udržujete hlas.
Grok si vybudoval skutečnou kreativní identitu se sedmi modely v žebříčku. Kde Claude vyniká v emoční inteligenci, Grok přináší emoční upřímnost. Humor je ostřejší, metafory odvážnější, postavy méně uhlazené a živější. Když chci psaní, které riskuje – fikci, která může čtenáře produktivním způsobem znepokojit – Grok je místo, kde začínám. Je to model, který se nejméně bojí vlastního hlasu, a v kreativním psaní na nebojácnosti záleží. Mistralův medium-2508 na padesátém šestém místě reprezentuje přítomnost Evropy na tabuli. Tencentův Hunyuan na padesátém třetím přidává další hlas z Číny. Pole nikdy nebylo širší.
Kam To Všechno Směřuje
Řeknu vám, co si myslím, že se stane dál, protože trendy v těchto datech ukazují někam konkrétně.
Mezera se stále stlačuje. Rozptyl mezi prvním a šedesátým místem je zhruba 7,4 procenta – těsný na historické standardy a zužující se s každou aktualizací. Blížíme se k prahu, kde se smysluplné rozdíly mezi modely posouvají od hrubé kvality ke kreativní osobnosti. Otázka přestává být "který model píše nejlépe" a stává se "hlas kterého modelu se hodí pro tento konkrétní projekt". To je zásadní změna v tom, jak by měli spisovatelé a kreativní týmy přemýšlet o výběru AI.
Specializované kreativní modely jsou nevyhnutelné. Univerzální architektura posunula kvalitu kreativního psaní pozoruhodně daleko, ale další skutečný skok přijde od modelů explicitně vyladěných pro narativní strukturu, konzistenci postav, autentičnost dialogů nebo poetickou formu. Očekávám, že alespoň jedna velká laboratoř do druhé poloviny tohoto roku vydá kreativně-specializovaný model – takový, který se zcela zaváže k literární schopnosti, místo aby se snažil řešit matematiku, psát kód a vyprávět příběhy současně. Až se to stane, resetuje to vrchol tohoto žebříčku přes noc.
Modely s otevřenými váhami uzavřou zbývající mezeru. Přítomnost deseti modelů DeepSeek je vedoucím indikátorem. Jak se otevřené alternativy blíží paritě s proprietárními systémy v kreativních benchmarcích, ekonomika psaní s asistencí AI se dramaticky mění. Spisovatelé, studia a vydavatelé získávají přístup ke špičkové kreativní AI bez cen za token, což mění křivky adopce a základní vztah mezi lidskými spisovateli a nástroji AI.
Skutečnou hranicí je orchestrace, ne izolace. Nejsofistikovanější kreativní práce, kterou jsem v poslední době viděl, nepoužívá jediný model – používá tři nebo čtyři v sekvenci. Gemini pro počáteční nápady a stylistický průzkum. Claude pro emoční zjemnění a leštění dialogů. DeepSeek nebo Qwen pro alternativní kulturní perspektivy. Grok, když koncept potřebuje ostří. Budoucnost není o korunování jednoho modelu králem. Je to o učení se dirigovat soubor, sladit kreativní osobnost každého modelu se správným momentem v procesu psaní. Spisovatelé, kteří na to přijdou jako první, vytvoří dílo, které se bude cítit jinak než cokoli, čeho by mohl dosáhnout jediný model – nebo jediný člověk – sám.
Výběr Vašeho Kreativního Partnera
Po letech psaní po boku těchto modelů je zde to, co jsem se naučil o přiřazování správného nástroje ke správnému úkolu:
Všestrannost
Gemini 3 Pro se přizpůsobí jakémukoli žánru, jakékoli formě, jakémukoli tónu. Když je zadání nedefinované nebo projekt vyžaduje rozsah, začněte zde.
Emoční Hloubka
Claude Opus 4.6 píše se zdrženlivostí a skutečným citem. Pro dialogy, práci s postavami a prózu, kde záleží nejvíce na tom, co zůstalo nevyřčeno.
Rychlost a Kvalita
Gemini 3 Flash dokazuje, že rychlý neznamená horší. Pro iterativní sepisování, velkoobjemové projekty a rychlé prototypování narativních nápadů.
Osobnost
Grok 4.1 podstupuje kreativní rizika, která jiné modely nepodstoupí. Pro fikci, která potřebuje ostří, humor a postavy, které působí živě spíše než sestaveně.
Neexistuje žádná jediná nejlepší kreativní AI. Existují vyvíjející se hlasy s různými silnými stránkami a skutečná síla spočívá v tom vědět, který hlas slouží kterému momentu v příběhu, který se snažíte vyprávět.
Zdroj Dat: Žebříčky z Arena AI Creative Writing Leaderboard, 6. února 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!