Žebříček Arény Kreativního Psaní AI — Únor 2026

Klíčový Poznatek

Kreativní psaní je místo, kde se hrubá inteligence klaní vkusu, zdrženlivosti a odvaze nechat ty správné věci nevyřčené.

Tři roky žádání AI, aby mi vyprávěla příběhy. Ne shrnutí, ne osnovy – ale skutečnou fikci. Ten druh, kdy postava vejde do místnosti a vy cítíte, jak se změní teplota. Během těch let jsem sledoval, jak se tento žebříček mění z kuriozity na skutečný barometr literárních schopností. Únor 2026 přinesl dosud nejzajímavější posun: zbrusu nový model, který dorazil potichu, rychle stoupal a zúžil mezeru, která se ještě před pár týdny zdála trvalá. Zde je celý obrázek – šedesát modelů seřazených, analyzovaných a zasazených do kontextu někým, kdo s nimi pracuje každý den.

Žebříček Kreativního Psaní

Kód má syntaxi. Matematika má důkazy. Ale kreativní psaní má hlas – rytmus, překvapení, emocionální rezonanci. Toto je Aréna Kreativního Psaní, nejnáročnější benchmark v hodnocení AI, kde je šedesát modelů hodnoceno podle toho, jak dobře vyprávějí příběhy, které lidi skutečně dojmou. Takhle to vypadá v únoru 2026.

Pořadí Model Skóre Hlasy Organizace
🥇
Gemini 3 Pro 14904,861Google
🥈
Claude Opus 4 6 1478347Anthropic
🥉
Claude Opus 4 5 20251101 Thinking 32k 14593,667Anthropic
#4
Claude Opus 4 5 20251101 14574,382Anthropic
#5
Gemini 3 Flash 14563,678Google
#6
Gemini 2.5 Pro 145012,564Google
#7
Claude Sonnet 4 5 20250929 14475,769Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14472,253Google
#9
Claude Opus 4 1 20250805 Thinking 16k 14456,651Anthropic
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14426,015Anthropic
#11
Claude Opus 4 1 20250805 14409,807Anthropic
#12
Gpt 4.5 Preview 2025 02 27 14382,618OpenAI
#13
Grok 4.1 Thinking 14344,819xAI
#14
Gpt 5.1 High 14344,213OpenAI
#15
Claude Opus 4 20250514 Thinking 16k 14284,750Anthropic
#16
Grok 4.1 14275,119xAI
#17
Chatgpt 4o Latest 20250326 142211,146OpenAI
#18
Ernie 5.0 Preview 1203 14201,477Baidu
#19
Claude Opus 4 20250514 14195,794Anthropic
#20
Ernie 5.0 0110 14181,622Baidu
#21
Kimi K2.5 Thinking 14181,059Moonshot
#22
Deepseek V3.1 Terminus 1411458DeepSeek
#23
Gpt 5.1 14114,512OpenAI
#24
Ernie 5.0 Preview 1022 1411662Baidu
#25
Deepseek V3.1 Thinking 14101,720DeepSeek
#26
Grok 4 1 Fast Reasoning 14043,798xAI
#27
Glm 4.7 14031,797Z.ai
#28
Deepseek V3.2 Exp 14031,500DeepSeek
#29
Gpt 4.1 2025 04 14 14026,858OpenAI
#30
Glm 4.6 14024,764Z.ai
#31
Kimi K2.5 Instant 1402427Moonshot
#32
Grok 3 Preview 02 24 14024,972xAI
#33
Deepseek V3.2 13993,529DeepSeek
#34
Gemini 2.5 Flash 139812,294Google
#35
Gpt 5.2 13981,679OpenAI
#36
Grok 4 0709 13975,559xAI
#37
Qwen3 Max Preview 13963,713Alibaba
#38
Claude Sonnet 4 20250514 Thinking 32k 13964,582Anthropic
#39
Deepseek V3.1 13952,082DeepSeek
#40
Qwen3 Max 2025 09 23 13951,154Alibaba
#41
Claude 3 7 Sonnet 20250219 Thinking 32k 13955,472Anthropic
#42
Deepseek V3.2 Exp Thinking 13951,154DeepSeek
#43
Gpt 5 Chat 13944,010OpenAI
#44
Gpt 5.2 High 13942,133OpenAI
#45
Kimi K2 Thinking Turbo 13934,520Moonshot
#46
Deepseek V3 0324 13916,338DeepSeek
#47
Deepseek V3.2 Thinking 13903,113DeepSeek
#48
Deepseek R1 0528 13882,660DeepSeek
#49
Claude Sonnet 4 20250514 13855,328Anthropic
#50
Qwen3 235b A22b Instruct 2507 13849,102Alibaba
#51
O3 2025 04 16 13848,014OpenAI
#52
O1 2024 12 17 13834,646OpenAI
#53
Hunyuan T1 20250711 1382642Tencent
#54
Grok 4 Fast Chat 1382995xAI
#55
Gemini 2.5 Flash Preview 09 2025 13824,285Google
#56
Mistral Medium 2508 13828,527Mistral
#57
Claude Haiku 4 5 20251001 13825,754Anthropic
#58
Deepseek V3.1 Terminus Thinking 1381446DeepSeek
#59
Grok 4 Fast Reasoning 13802,372xAI
#60
Gpt 5 High 13794,330OpenAI

Únorový Zlom

Když jsem vytáhl nejnovější data, jeden záznam mě zastavil: Claude Opus 4.6 sedící na druhém místě. Ne proto, že by model od Anthropicu na vysoké pozici byl něčím neobvyklým – dělají to konzistentně. Ale protože tento model přistál na druhé pozici s téměř nulovou historií hodnocení. Takový druh brzkého konsensu je vzácný. Znamená to, že první vlna testerů – posedlých lidí, kteří proženou identické prompty každým novým vydáním během několika hodin od spuštění – našla v jeho kreativním výstupu něco skutečně odlišného.

Skutečným příběhem je však ta mezera. V lednu byla vzdálenost mezi prvním a druhým místem pohodlných dvacet pět bodů. Teď je to dvanáct. Gemini 3 Pro stále drží zlato a tuto pozici si zasloužil poctivě. Ale náskok se v jediném aktualizačním cyklu snížil na polovinu. Pokud jste Google, tento trend vyžaduje pozornost. Pokud jste Anthropic, je to potvrzení, že váš přístup k tréninku kreativní AI konverguje k něčemu mocnému.

Mezitím se modely těsně pod první dvojicí výrazně promíchaly. "Thinking" varianta Claude Opus 4.5 se posunula na třetí místo, čímž odsunula standardní Opus 4.5 na čtvrté a Gemini 3 Flash na páté. Flash držel třetí místo teprve minulý měsíc. Pódium nemění majitele jen na vrcholu – je nestabilní skrz naskrz. A nestabilita, podle mých zkušeností, předchází průlomům.

Dominantní Výšiny

Gemini 3 Pro zůstává modelem, po kterém sáhnu, když ještě nevím, co potřebuji. To, co ho drží na prvním místě, je rozsah: požádejte ho o styl Hemingwaye a dodá úspornou, svalnatou prózu. Požádejte o experimentální postmoderní fikci a změní rejstřík, aniž by ztratil soudržnost. Viktoriánský román v dopisech, drsný noir, magický realismus, dětská literatura – Gemini zvládá tyto přechody způsobem, který naznačuje skutečné porozumění formě, ne jen povrchní nápodobu. Google umisťuje šest modelů do top šedesátky, přičemž Gemini 3 Flash na pátém a Gemini 2.5 Pro na šestém místě doplňují silné trio na špičce.

Claude je úplně jiné zvíře. Pokud je Gemini rozsah, Claude je hloubka. Modely Anthropicu vždy vynikaly v jemnostech, které se stroji učí nejtíže: kdy nechat ticho nést scénu, kdy by se věta měla zlomit místo aby pokračovala, kdy to, co postava neřekne, odhalí víc než to, co řekne. Opus 4.6 to posouvá ještě dál. V mých testech produkoval dialogy, které působily skutečně prožitě. Postavy nepronášely repliky – přemýšlely, váhaly, vybíraly slova tak, jak to dělají skuteční lidé, když je v sázce něco důležitého. Anthropic má nyní v top šedesátce třináct modelů, více než jakákoli jiná organizace, s pěti umístěnými v první jedenáctce. Ať už je jejich přístup k tréninku kreativních schopností jakýkoli, funguje napříč celou jejich produktovou řadou.

Zde je postřeh, kterému se nedostává dostatečné pozornosti: rozšířené uvažování – režim "thinking" – kreativní psaní spolehlivě nezlepšuje. Vzorec je nekonzistentní a hluboce odhalující.

U modelů Claude Opus mají přemýšlivé varianty tendenci umisťovat se o něco výše: Opus 4.5 Thinking na třetím místě oproti standardnímu na čtvrtém, Opus 4.1 Thinking na devátém oproti standardnímu na jedenáctém. Grok 4.1 Thinking překonává svou standardní variantu o tři pozice. Ale přejděte k jiným architekturám a vzorec se obrátí – někdy dramaticky. DeepSeek v3.2-exp standard sedí na dvacátém osmém místě, zatímco jeho přemýšlivá varianta padá na čtyřicáté druhé. DeepSeek v3.1-terminus standard je na dvacátém druhém; jeho přemýšlivý protějšek klesá na padesáté osmé – propast třiceti šesti pozic. GPT-5.2 standard poráží GPT-5.2-high.

Co mi to říká, je důležité: kreativní psaní není primárně problém uvažování. Je to estetický problém. U modelů, které již mají silné literární instinkty, může rozšířené myšlení tyto instinkty vytříbit – jako pečlivý editor revidující solidní první koncept. Ale u modelů, jejichž kreativní síla je instinktivnější a řízená vzorci, nucené uvažování ve skutečnosti obrušuje hrubé hrany, díky nimž próza působí živě. Někdy první odpověď zachytí něco, co dodatečný výpočet uhladí do průměrnosti. Pokud používáte modely schopné myšlení pro kreativní práci, otestujte oba režimy. Předpoklad, že více uvažování rovná se lepší výstup, zde neplatí a pochopení, kdy myšlení vypnout, může být cennější než vědět, kdy ho zapnout.

Stoupající Příliv

Pod nejvyšší úrovní je příběhem proliferace a rozmanitost – a je to možná důležitější než závod o první místo.

DeepSeek umisťuje do top šedesátky deset modelů, čímž se stává třetí nejvíce zastoupenou organizací po Anthropicu a OpenAI. Jejich varianty v3.1 a v3.2 se pohybují od dvacátého druhého do padesátého osmého místa a pokrývají škálu úrovní kreativních schopností. Jako projekt s otevřenými váhami (open-weight) představuje DeepSeek něco zásadně odlišného od proprietárních lídrů: tyto modely lze stáhnout, hostovat lokálně a vyladit (fine-tune) pro specifické kreativní úkoly. Pokud budujete nástroj pro psaní s AI nebo integrujete kreativní schopnosti do produktového potrubí, DeepSeek nabízí flexibilitu, které se modely pouze s API nemohou rovnat.

Širší obraz je ještě nápadnější. Mezi DeepSeek, Baidu, Moonshot, Alibaba, Z.ai a Tencent nyní čínské laboratoře AI představují dvacet dva z šedesáti hodnocených modelů – více než třetinu celého žebříčku. Moonshotův Kimi K2.5 debutoval se svou přemýšlivou variantou na dvacátém prvním místě, čímž posunul společnost na tři umístění. Baidu drží tři pozice se svou řadou ERNIE 5.0. Alibaba Qwen3 má tři hodnocené varianty. Z.ai GLM-4.7 sedí na dvacátém sedmém místě. To není konvergence – to je skutečná rozmanitost. Různá tréninková data, různé kulturní kontexty a různé literární tradice produkují modely s odlišnou kreativní citlivostí. Viděl jsem ERNIEho vytvářet metafory, které by západně trénované modely nenapadly, a GLM zacházet s narativním tempem způsoby, které působí svěže právě proto, že literární DNA je jiná. Globální ekosystém kreativní AI je díky tomu bohatší.

OpenAI drží jedenáct modelů, ačkoli jejich kreativní příběh má zajímavou vedlejší zápletku. GPT-4.5-preview na dvanáctém místě je před GPT-5.1-high na čtrnáctém i GPT-5.1 standard na dvacátém třetím. Někdy model optimalizovaný pro nuance překoná svého technicky nadřazeného nástupce v úkolech, které cení jemnost nad hrubou schopností. ChatGPT-4o-latest na sedmnáctém místě tento bod posiluje: modely optimalizované pro konverzaci mají v kreativním psaní inherentní výhodu, protože vyprávění příběhů je v zásadě konverzační. Nepočítáte odpověď – udržujete hlas.

Grok si vybudoval skutečnou kreativní identitu se sedmi modely v žebříčku. Kde Claude vyniká v emoční inteligenci, Grok přináší emoční upřímnost. Humor je ostřejší, metafory odvážnější, postavy méně uhlazené a živější. Když chci psaní, které riskuje – fikci, která může čtenáře produktivním způsobem znepokojit – Grok je místo, kde začínám. Je to model, který se nejméně bojí vlastního hlasu, a v kreativním psaní na nebojácnosti záleží. Mistralův medium-2508 na padesátém šestém místě reprezentuje přítomnost Evropy na tabuli. Tencentův Hunyuan na padesátém třetím přidává další hlas z Číny. Pole nikdy nebylo širší.

Kam To Všechno Směřuje

Řeknu vám, co si myslím, že se stane dál, protože trendy v těchto datech ukazují někam konkrétně.

Mezera se stále stlačuje. Rozptyl mezi prvním a šedesátým místem je zhruba 7,4 procenta – těsný na historické standardy a zužující se s každou aktualizací. Blížíme se k prahu, kde se smysluplné rozdíly mezi modely posouvají od hrubé kvality ke kreativní osobnosti. Otázka přestává být "který model píše nejlépe" a stává se "hlas kterého modelu se hodí pro tento konkrétní projekt". To je zásadní změna v tom, jak by měli spisovatelé a kreativní týmy přemýšlet o výběru AI.

Specializované kreativní modely jsou nevyhnutelné. Univerzální architektura posunula kvalitu kreativního psaní pozoruhodně daleko, ale další skutečný skok přijde od modelů explicitně vyladěných pro narativní strukturu, konzistenci postav, autentičnost dialogů nebo poetickou formu. Očekávám, že alespoň jedna velká laboratoř do druhé poloviny tohoto roku vydá kreativně-specializovaný model – takový, který se zcela zaváže k literární schopnosti, místo aby se snažil řešit matematiku, psát kód a vyprávět příběhy současně. Až se to stane, resetuje to vrchol tohoto žebříčku přes noc.

Modely s otevřenými váhami uzavřou zbývající mezeru. Přítomnost deseti modelů DeepSeek je vedoucím indikátorem. Jak se otevřené alternativy blíží paritě s proprietárními systémy v kreativních benchmarcích, ekonomika psaní s asistencí AI se dramaticky mění. Spisovatelé, studia a vydavatelé získávají přístup ke špičkové kreativní AI bez cen za token, což mění křivky adopce a základní vztah mezi lidskými spisovateli a nástroji AI.

Skutečnou hranicí je orchestrace, ne izolace. Nejsofistikovanější kreativní práce, kterou jsem v poslední době viděl, nepoužívá jediný model – používá tři nebo čtyři v sekvenci. Gemini pro počáteční nápady a stylistický průzkum. Claude pro emoční zjemnění a leštění dialogů. DeepSeek nebo Qwen pro alternativní kulturní perspektivy. Grok, když koncept potřebuje ostří. Budoucnost není o korunování jednoho modelu králem. Je to o učení se dirigovat soubor, sladit kreativní osobnost každého modelu se správným momentem v procesu psaní. Spisovatelé, kteří na to přijdou jako první, vytvoří dílo, které se bude cítit jinak než cokoli, čeho by mohl dosáhnout jediný model – nebo jediný člověk – sám.

Výběr Vašeho Kreativního Partnera

Po letech psaní po boku těchto modelů je zde to, co jsem se naučil o přiřazování správného nástroje ke správnému úkolu:

Všestrannost

Gemini 3 Pro se přizpůsobí jakémukoli žánru, jakékoli formě, jakémukoli tónu. Když je zadání nedefinované nebo projekt vyžaduje rozsah, začněte zde.

Emoční Hloubka

Claude Opus 4.6 píše se zdrženlivostí a skutečným citem. Pro dialogy, práci s postavami a prózu, kde záleží nejvíce na tom, co zůstalo nevyřčeno.

Rychlost a Kvalita

Gemini 3 Flash dokazuje, že rychlý neznamená horší. Pro iterativní sepisování, velkoobjemové projekty a rychlé prototypování narativních nápadů.

Osobnost

Grok 4.1 podstupuje kreativní rizika, která jiné modely nepodstoupí. Pro fikci, která potřebuje ostří, humor a postavy, které působí živě spíše než sestaveně.

Podnikové

GPT-4.5 / GPT-5.1 dodávají vypilovaný, spolehlivý výstup, který se integruje do stávajících pracovních postupů. Když na konzistenci a bezpečnosti značky záleží stejně jako na kreativitě.

Open Source

DeepSeek / Qwen: hostujte sami, vylaďte pro svou doménu. Když potřebujete kreativní AI ve velkém měřítku bez nákladů za token, ekonomika je neporazitelná.

Neexistuje žádná jediná nejlepší kreativní AI. Existují vyvíjející se hlasy s různými silnými stránkami a skutečná síla spočívá v tom vědět, který hlas slouží kterému momentu v příběhu, který se snažíte vyprávět.


Zdroj Dat: Žebříčky z Arena AI Creative Writing Leaderboard, 6. února 2026.

Discussion

0 comments

Leave a comment

Be the first to share your thoughts on this article!