Žebříček Arény Kreativního Psaní AI — Únor 2026

Klíčový Poznatek

Kreativní psaní je místo, kde se hrubá inteligence klaní vkusu, zdrženlivosti a odvaze nechat ty správné věci nevyřčené.

Tři roky žádání AI, aby mi vyprávěla příběhy. Ne shrnutí, ne osnovy – ale skutečnou fikci. Ten druh, kdy postava vejde do místnosti a vy cítíte, jak se změní teplota. Během těch let jsem sledoval, jak se tento žebříček mění z kuriozity na skutečný barometr literárních schopností. Únor 2026 přinesl dosud nejzajímavější posun: zbrusu nový model, který dorazil potichu, rychle stoupal a zúžil mezeru, která se ještě před pár týdny zdála trvalá. Zde je celý obrázek – šedesát modelů seřazených, analyzovaných a zasazených do kontextu někým, kdo s nimi pracuje každý den.

Žebříček Kreativního Psaní

Kód má syntaxi. Matematika má důkazy. Ale kreativní psaní má hlas – rytmus, překvapení, emocionální rezonanci. Toto je Aréna Kreativního Psaní, nejnáročnější benchmark v hodnocení AI, kde je šedesát modelů hodnoceno podle toho, jak dobře vyprávějí příběhy, které lidi skutečně dojmou. Takhle to vypadá v únoru 2026.

Pořadí	Model	Skóre	Hlasy	Organizace
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Únorový Zlom

Když jsem vytáhl nejnovější data, jeden záznam mě zastavil: Claude Opus 4.6 sedící na druhém místě. Ne proto, že by model od Anthropicu na vysoké pozici byl něčím neobvyklým – dělají to konzistentně. Ale protože tento model přistál na druhé pozici s téměř nulovou historií hodnocení. Takový druh brzkého konsensu je vzácný. Znamená to, že první vlna testerů – posedlých lidí, kteří proženou identické prompty každým novým vydáním během několika hodin od spuštění – našla v jeho kreativním výstupu něco skutečně odlišného.

Skutečným příběhem je však ta mezera. V lednu byla vzdálenost mezi prvním a druhým místem pohodlných dvacet pět bodů. Teď je to dvanáct. Gemini 3 Pro stále drží zlato a tuto pozici si zasloužil poctivě. Ale náskok se v jediném aktualizačním cyklu snížil na polovinu. Pokud jste Google, tento trend vyžaduje pozornost. Pokud jste Anthropic, je to potvrzení, že váš přístup k tréninku kreativní AI konverguje k něčemu mocnému.

Mezitím se modely těsně pod první dvojicí výrazně promíchaly. "Thinking" varianta Claude Opus 4.5 se posunula na třetí místo, čímž odsunula standardní Opus 4.5 na čtvrté a Gemini 3 Flash na páté. Flash držel třetí místo teprve minulý měsíc. Pódium nemění majitele jen na vrcholu – je nestabilní skrz naskrz. A nestabilita, podle mých zkušeností, předchází průlomům.

Dominantní Výšiny

Gemini 3 Pro zůstává modelem, po kterém sáhnu, když ještě nevím, co potřebuji. To, co ho drží na prvním místě, je rozsah: požádejte ho o styl Hemingwaye a dodá úspornou, svalnatou prózu. Požádejte o experimentální postmoderní fikci a změní rejstřík, aniž by ztratil soudržnost. Viktoriánský román v dopisech, drsný noir, magický realismus, dětská literatura – Gemini zvládá tyto přechody způsobem, který naznačuje skutečné porozumění formě, ne jen povrchní nápodobu. Google umisťuje šest modelů do top šedesátky, přičemž Gemini 3 Flash na pátém a Gemini 2.5 Pro na šestém místě doplňují silné trio na špičce.

Claude je úplně jiné zvíře. Pokud je Gemini rozsah, Claude je hloubka. Modely Anthropicu vždy vynikaly v jemnostech, které se stroji učí nejtíže: kdy nechat ticho nést scénu, kdy by se věta měla zlomit místo aby pokračovala, kdy to, co postava neřekne, odhalí víc než to, co řekne. Opus 4.6 to posouvá ještě dál. V mých testech produkoval dialogy, které působily skutečně prožitě. Postavy nepronášely repliky – přemýšlely, váhaly, vybíraly slova tak, jak to dělají skuteční lidé, když je v sázce něco důležitého. Anthropic má nyní v top šedesátce třináct modelů, více než jakákoli jiná organizace, s pěti umístěnými v první jedenáctce. Ať už je jejich přístup k tréninku kreativních schopností jakýkoli, funguje napříč celou jejich produktovou řadou.

Zde je postřeh, kterému se nedostává dostatečné pozornosti: rozšířené uvažování – režim "thinking" – kreativní psaní spolehlivě nezlepšuje. Vzorec je nekonzistentní a hluboce odhalující.

U modelů Claude Opus mají přemýšlivé varianty tendenci umisťovat se o něco výše: Opus 4.5 Thinking na třetím místě oproti standardnímu na čtvrtém, Opus 4.1 Thinking na devátém oproti standardnímu na jedenáctém. Grok 4.1 Thinking překonává svou standardní variantu o tři pozice. Ale přejděte k jiným architekturám a vzorec se obrátí – někdy dramaticky. DeepSeek v3.2-exp standard sedí na dvacátém osmém místě, zatímco jeho přemýšlivá varianta padá na čtyřicáté druhé. DeepSeek v3.1-terminus standard je na dvacátém druhém; jeho přemýšlivý protějšek klesá na padesáté osmé – propast třiceti šesti pozic. GPT-5.2 standard poráží GPT-5.2-high.

Co mi to říká, je důležité: kreativní psaní není primárně problém uvažování. Je to estetický problém. U modelů, které již mají silné literární instinkty, může rozšířené myšlení tyto instinkty vytříbit – jako pečlivý editor revidující solidní první koncept. Ale u modelů, jejichž kreativní síla je instinktivnější a řízená vzorci, nucené uvažování ve skutečnosti obrušuje hrubé hrany, díky nimž próza působí živě. Někdy první odpověď zachytí něco, co dodatečný výpočet uhladí do průměrnosti. Pokud používáte modely schopné myšlení pro kreativní práci, otestujte oba režimy. Předpoklad, že více uvažování rovná se lepší výstup, zde neplatí a pochopení, kdy myšlení vypnout, může být cennější než vědět, kdy ho zapnout.

Stoupající Příliv

Pod nejvyšší úrovní je příběhem proliferace a rozmanitost – a je to možná důležitější než závod o první místo.

DeepSeek umisťuje do top šedesátky deset modelů, čímž se stává třetí nejvíce zastoupenou organizací po Anthropicu a OpenAI. Jejich varianty v3.1 a v3.2 se pohybují od dvacátého druhého do padesátého osmého místa a pokrývají škálu úrovní kreativních schopností. Jako projekt s otevřenými váhami (open-weight) představuje DeepSeek něco zásadně odlišného od proprietárních lídrů: tyto modely lze stáhnout, hostovat lokálně a vyladit (fine-tune) pro specifické kreativní úkoly. Pokud budujete nástroj pro psaní s AI nebo integrujete kreativní schopnosti do produktového potrubí, DeepSeek nabízí flexibilitu, které se modely pouze s API nemohou rovnat.

Širší obraz je ještě nápadnější. Mezi DeepSeek, Baidu, Moonshot, Alibaba, Z.ai a Tencent nyní čínské laboratoře AI představují dvacet dva z šedesáti hodnocených modelů – více než třetinu celého žebříčku. Moonshotův Kimi K2.5 debutoval se svou přemýšlivou variantou na dvacátém prvním místě, čímž posunul společnost na tři umístění. Baidu drží tři pozice se svou řadou ERNIE 5.0. Alibaba Qwen3 má tři hodnocené varianty. Z.ai GLM-4.7 sedí na dvacátém sedmém místě. To není konvergence – to je skutečná rozmanitost. Různá tréninková data, různé kulturní kontexty a různé literární tradice produkují modely s odlišnou kreativní citlivostí. Viděl jsem ERNIEho vytvářet metafory, které by západně trénované modely nenapadly, a GLM zacházet s narativním tempem způsoby, které působí svěže právě proto, že literární DNA je jiná. Globální ekosystém kreativní AI je díky tomu bohatší.

OpenAI drží jedenáct modelů, ačkoli jejich kreativní příběh má zajímavou vedlejší zápletku. GPT-4.5-preview na dvanáctém místě je před GPT-5.1-high na čtrnáctém i GPT-5.1 standard na dvacátém třetím. Někdy model optimalizovaný pro nuance překoná svého technicky nadřazeného nástupce v úkolech, které cení jemnost nad hrubou schopností. ChatGPT-4o-latest na sedmnáctém místě tento bod posiluje: modely optimalizované pro konverzaci mají v kreativním psaní inherentní výhodu, protože vyprávění příběhů je v zásadě konverzační. Nepočítáte odpověď – udržujete hlas.

Grok si vybudoval skutečnou kreativní identitu se sedmi modely v žebříčku. Kde Claude vyniká v emoční inteligenci, Grok přináší emoční upřímnost. Humor je ostřejší, metafory odvážnější, postavy méně uhlazené a živější. Když chci psaní, které riskuje – fikci, která může čtenáře produktivním způsobem znepokojit – Grok je místo, kde začínám. Je to model, který se nejméně bojí vlastního hlasu, a v kreativním psaní na nebojácnosti záleží. Mistralův medium-2508 na padesátém šestém místě reprezentuje přítomnost Evropy na tabuli. Tencentův Hunyuan na padesátém třetím přidává další hlas z Číny. Pole nikdy nebylo širší.

Kam To Všechno Směřuje

Řeknu vám, co si myslím, že se stane dál, protože trendy v těchto datech ukazují někam konkrétně.

Mezera se stále stlačuje. Rozptyl mezi prvním a šedesátým místem je zhruba 7,4 procenta – těsný na historické standardy a zužující se s každou aktualizací. Blížíme se k prahu, kde se smysluplné rozdíly mezi modely posouvají od hrubé kvality ke kreativní osobnosti. Otázka přestává být "který model píše nejlépe" a stává se "hlas kterého modelu se hodí pro tento konkrétní projekt". To je zásadní změna v tom, jak by měli spisovatelé a kreativní týmy přemýšlet o výběru AI.

Specializované kreativní modely jsou nevyhnutelné. Univerzální architektura posunula kvalitu kreativního psaní pozoruhodně daleko, ale další skutečný skok přijde od modelů explicitně vyladěných pro narativní strukturu, konzistenci postav, autentičnost dialogů nebo poetickou formu. Očekávám, že alespoň jedna velká laboratoř do druhé poloviny tohoto roku vydá kreativně-specializovaný model – takový, který se zcela zaváže k literární schopnosti, místo aby se snažil řešit matematiku, psát kód a vyprávět příběhy současně. Až se to stane, resetuje to vrchol tohoto žebříčku přes noc.

Modely s otevřenými váhami uzavřou zbývající mezeru. Přítomnost deseti modelů DeepSeek je vedoucím indikátorem. Jak se otevřené alternativy blíží paritě s proprietárními systémy v kreativních benchmarcích, ekonomika psaní s asistencí AI se dramaticky mění. Spisovatelé, studia a vydavatelé získávají přístup ke špičkové kreativní AI bez cen za token, což mění křivky adopce a základní vztah mezi lidskými spisovateli a nástroji AI.

Skutečnou hranicí je orchestrace, ne izolace. Nejsofistikovanější kreativní práce, kterou jsem v poslední době viděl, nepoužívá jediný model – používá tři nebo čtyři v sekvenci. Gemini pro počáteční nápady a stylistický průzkum. Claude pro emoční zjemnění a leštění dialogů. DeepSeek nebo Qwen pro alternativní kulturní perspektivy. Grok, když koncept potřebuje ostří. Budoucnost není o korunování jednoho modelu králem. Je to o učení se dirigovat soubor, sladit kreativní osobnost každého modelu se správným momentem v procesu psaní. Spisovatelé, kteří na to přijdou jako první, vytvoří dílo, které se bude cítit jinak než cokoli, čeho by mohl dosáhnout jediný model – nebo jediný člověk – sám.

Výběr Vašeho Kreativního Partnera

Po letech psaní po boku těchto modelů je zde to, co jsem se naučil o přiřazování správného nástroje ke správnému úkolu:

Všestrannost

Gemini 3 Pro se přizpůsobí jakémukoli žánru, jakékoli formě, jakémukoli tónu. Když je zadání nedefinované nebo projekt vyžaduje rozsah, začněte zde.

Emoční Hloubka

Claude Opus 4.6 píše se zdrženlivostí a skutečným citem. Pro dialogy, práci s postavami a prózu, kde záleží nejvíce na tom, co zůstalo nevyřčeno.

Rychlost a Kvalita

Gemini 3 Flash dokazuje, že rychlý neznamená horší. Pro iterativní sepisování, velkoobjemové projekty a rychlé prototypování narativních nápadů.

Osobnost

Grok 4.1 podstupuje kreativní rizika, která jiné modely nepodstoupí. Pro fikci, která potřebuje ostří, humor a postavy, které působí živě spíše než sestaveně.

Podnikové

GPT-4.5 / GPT-5.1 dodávají vypilovaný, spolehlivý výstup, který se integruje do stávajících pracovních postupů. Když na konzistenci a bezpečnosti značky záleží stejně jako na kreativitě.

Open Source

DeepSeek / Qwen: hostujte sami, vylaďte pro svou doménu. Když potřebujete kreativní AI ve velkém měřítku bez nákladů za token, ekonomika je neporazitelná.

Neexistuje žádná jediná nejlepší kreativní AI. Existují vyvíjející se hlasy s různými silnými stránkami a skutečná síla spočívá v tom vědět, který hlas slouží kterému momentu v příběhu, který se snažíte vyprávět.

Zdroj Dat: Žebříčky z Arena AI Creative Writing Leaderboard, 6. února 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard