AI Kreatív Írás Aréna Ranglista — 2026. Február

Központi Felismerés

A kreatív írás az a hely, ahol a nyers intelligencia meghajol az ízlés, a visszafogottság és a bátorság előtt, hogy a megfelelő dolgokat kimondatlanul hagyjuk.

Három évig kértem az AI-t, hogy meséljen nekem történeteket. Nem összefoglalókat, nem vázlatokat – hanem valódi fikciót. Azt a fajtát, ahol egy karakter belép a szobába, és érzed, hogy megváltozik a hőmérséklet. Ezek alatt az évek alatt figyeltem, ahogy ez a ranglista érdekességből az irodalmi képességek valódi barométerévé vált. 2026 februárja hozta el az eddigi legérdekesebb változást: egy vadonatúj modell, amely csendben érkezett, gyorsan emelkedett, és szűkített egy olyan szakadékot, amely hetekkel ezelőtt még tartósnak tűnt. Itt a teljes kép – hatvan modell rangsorolva, elemezve és kontextusba helyezve valaki által, aki minden nap velük dolgozik.

A Kreatív Írás Ranglista

A kódnak szintaxisa van. A matematikának bizonyításai vannak. De a kreatív írásnak hangja van – ritmusa, meglepetése, érzelmi rezonanciája. Ez a Kreatív Írás Aréna, az AI értékelés legigényesebb benchmarkja, ahol hatvan modellt rangsorolnak az alapján, hogy mennyire jól mesélnek el olyan történeteket, amelyek valóban megmozgatják az embereket. Így állnak a dolgok 2026 februárjában.

Helyezés	Modell	Pontszám	Szavazatok	Szervezet
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

A Februári Fordulat

Amikor lekértem a legfrissebb adatokat, egy bejegyzés megállított: a Claude Opus 4.6 a második helyen ült. Nem azért, mert szokatlan, hogy egy Anthropic modell előkelő helyen szerepel – ezt következetesen teszik. Hanem azért, mert ez a modell szinte semmilyen értékelési előzmény nélkül landolt a második helyen. Ez a fajta korai konszenzus ritka. Ez azt jelenti, hogy a tesztelők első hulláma – a megszállottak, akik a megjelenést követő órákban azonos promptokat futtatnak le minden új kiadáson – valami valóban mást találtak a kreatív kimenetében.

Az igazi történet azonban a szakadék. Januárban az első és a második hely közötti távolság kényelmes huszonöt pont volt. Most tizenkettő. A Gemini 3 Pro még mindig tartja az aranyat, és becsületesen kiérdemelte ezt a pozíciót. De az előny egyetlen frissítési ciklus alatt a felére csökkent. Ha te vagy a Google, ez a tendencia figyelmet követel. Ha az Anthropic vagy, ez megerősítése annak, hogy a kreatív AI képzésére vonatkozó megközelítésed valami erőteljes felé konvergál.

Eközben a közvetlenül az első kettő alatti modellek jelentősen átrendeződtek. A Claude Opus 4.5 "gondolkodó" változata feljött a harmadik helyre, a standard Opus 4.5-öt a negyedikre, a Gemini 3 Flash-t pedig az ötödikre tolva. A Flash még a múlt hónapban a harmadik helyen állt. A dobogó nem csak a csúcson cserél gazdát – instabil az egész. És az instabilitás, tapasztalataim szerint, áttöréseket előz meg.

Uralkodó Magasságok

A Gemini 3 Pro marad az a modell, amelyhez akkor nyúlok, amikor még nem tudom, mire van szükségem. Ami az első helyen tartja, az a tartomány: kérj tőle Hemingway-stílust, és szikár, izmos prózát ad. Kérj kísérleti posztmodern fikciót, és regisztert vált anélkül, hogy elveszítené a koherenciát. Viktoriánus levélregény, keménykötésű noir, mágikus realizmus, gyermekirodalom – a Gemini olyan módon kezeli ezeket az átmeneteket, ami a forma valódi megértésére utal, nem felületes utánzásra. A Google hat modellt helyez el a legjobb hatvanban, a Gemini 3 Flash az ötödik, a Gemini 2.5 Pro a hatodik helyen egészíti ki az erős triót az élen.

A Claude egy teljesen más állatfaj. Ha a Gemini a tartomány, a Claude a mélység. Az Anthropic modelljei mindig is jeleskedtek azokban a finomságokban, amelyeket a legnehezebb megtanítani egy gépnek: mikor hagyja, hogy a csend vigye a jelenetet, mikor törjön meg egy mondat a folytatás helyett, mikor árul el többet az, amit egy karakter nem mond, mint amit mond. Az Opus 4.6 ezt még tovább viszi. Tesztjeimben olyan párbeszédeket produkált, amelyek valóban átéltnek tűntek. A karakterek nem sorokat mondtak fel – gondolkodtak, haboztak, úgy választották meg a szavakat, ahogy a valódi emberek teszik, amikor valami fontos dolog forog kockán. Az Anthropicnak most tizenhárom modellje van a legjobb hatvanban, több, mint bármely más szervezetnek, ötöt az első tizenegyben elhelyezve. Bármi is legyen a kreatív képességek képzésére vonatkozó megközelítésük, az a teljes termékvonalukon működik.

Itt egy megfigyelés, amely nem kap elég figyelmet: a kiterjesztett érvelés – a "gondolkodó" (thinking) mód – nem javítja megbízhatóan a kreatív írást. A minta következetlen és mélyen árulkodó.

A Claude Opus modellek esetében a gondolkodó változatok hajlamosak kissé magasabb helyezést elérni: az Opus 4.5 Thinking a harmadik, szemben a standard negyedikkel, az Opus 4.1 Thinking a kilencedik, szemben a standard tizenegyedikkel. A Grok 4.1 Thinking három pozícióval felülmúlja standard változatát. De válts át más architektúrákra, és a minta megfordul – néha drámaian. A DeepSeek v3.2-exp standard a huszonnyolcadik helyen ül, míg gondolkodó változata a negyvenkettedikre esik. A DeepSeek v3.1-terminus standard a huszonkettedik helyen van; gondolkodó társa az ötvennyolcadikra zuhan – harminchat pozíciós szakadék. A GPT-5.2 standard legyőzi a GPT-5.2-high-t.

Amit ez mond nekem, az fontos: a kreatív írás nem elsősorban érvelési probléma. Ez egy esztétikai probléma. Azoknál a modelleknél, amelyek már rendelkeznek erős irodalmi ösztönökkel, a kiterjesztett gondolkodás finomíthatja ezeket az ösztönöket – mint egy gondos szerkesztő, aki átnéz egy szilárd első vázlatot. De azoknál a modelleknél, amelyek kreatív ereje ösztönösebb és mintavezérelt, a mérlegelés erőltetése valójában lecsiszolja azokat a durva éleket, amelyek élővé teszik a prózát. Néha az első válasz megragad valamit, amit a további számítás középszerűségbe simít. Ha gondolkodásra képes modelleket használsz kreatív munkához, teszteld mindkét módot. A feltételezés, hogy több érvelés egyenlő a jobb kimenettel, itt nem állja meg a helyét, és annak megértése, mikor kell kikapcsolni a gondolkodást, értékesebb lehet, mint tudni, mikor kell bekapcsolni.

Az Emelkedő Ár

A felső szint alatt a történet a burjánzásról és a sokféleségről szól – és ez vitathatatlanul fontosabb, mint az első helyért folyó verseny.

A DeepSeek tíz modellt helyez el a legjobb hatvanban, ezzel az Anthropic és az OpenAI után a harmadik legreprezentáltabb szervezetté válva. A v3.1 és v3.2 változataik a huszonkettediktől az ötvennyolcadik helyig terjednek, lefedve a kreatív képességi szintek széles skáláját. Nyílt súlyozású projektként a DeepSeek valami alapvetően mást képvisel, mint a zárt vezetők: ezek a modellek letölthetők, helyileg hosztolhatók és finomhangolhatók (fine-tuned) specifikus kreatív feladatokra. Ha AI íróeszközt építesz, vagy kreatív képességeket integrálsz egy termékfolyamatba, a DeepSeek olyan rugalmasságot kínál, amellyel a csak API-n elérhető modellek nem versenyezhetnek.

A tágabb kép még feltűnőbb. A DeepSeek, Baidu, Moonshot, Alibaba, Z.ai és Tencent között a kínai AI laboratóriumok most huszonkettőt adnak a hatvan rangsorolt modellből – a teljes ranglista több mint egyharmadát. A Moonshot Kimi K2.5-je gondolkodó változatával a huszonegyedik helyen debütált, háromra növelve a vállalat helyezéseit. A Baidu három pozíciót tart az ERNIE 5.0 sorozatával. Az Alibaba Qwen3-nak három változata van a rangsorban. A Z.ai GLM-4.7-ese a huszonhetedik helyen ül. Ez nem konvergencia – ez valódi sokféleség. Különböző képzési adatok, különböző kulturális kontextusok és különböző irodalmi hagyományok eltérő kreatív érzékenységű modelleket eredményeznek. Láttam az ERNIE-t olyan metaforákat alkotni, amelyek nyugati képzésű modelleknek eszükbe sem jutnának, és a GLM-et olyan módon kezelni a narratív tempót, ami frissnek hat, pontosan azért, mert az irodalmi DNS más. A globális kreatív AI ökoszisztéma gazdagabb ettől.

Az OpenAI tizenegy modellt tart, bár kreatív történetüknek van egy érdekes mellékszála. A GPT-4.5-preview a tizenkettedik helyen megelőzi mind a GPT-5.1-high-t a tizennegyedik, mind a GPT-5.1 standardot a huszonharmadik helyen. Néha egy árnyalatokra optimalizált modell felülmúlja technikailag felsőbbrendű utódját olyan feladatokban, amelyek a finomságot díjazzák a nyers képességgel szemben. A ChatGPT-4o-latest a tizenhetedik helyen megerősíti ezt a pontot: a beszélgetésre optimalizált modellek eredendő előnnyel rendelkeznek a kreatív írásban, mert a történetmesélés alapvetően társalgási jellegű. Nem egy választ számítasz ki – egy hangot tartasz fenn.

A Grok valódi kreatív identitást vésett ki hét rangsorolt modellel. Ahol a Claude az érzelmi intelligenciában jeleskedik, ott a Grok érzelmi őszinteséget hoz. A humor élesebb, a metaforák merészebbek, a karakterek kevésbé csiszoltak és élőbbek. Amikor olyan írást akarok, amely kockázatot vállal – fikciót, amely termékeny módon kényelmetlenné teheti az olvasót –, a Grok az, ahol kezdek. Ez az a modell, amely a legkevésbé fél a saját hangjától, és a kreatív írásban a félelem nélküliség számít. A Mistral medium-2508-asa az ötvenhatodik helyen Európa jelenlétét képviseli a táblán. A Tencent Hunyuan-ja az ötvenharmadik helyen még egy hangot ad Kínából. A mezőny sosem volt még szélesebb.

Hová Vezet Mindez

Elmondom, szerintem mi történik ezután, mert az adatok trendjei egy konkrét irányba mutatnak.

A szakadék tovább tömörödik. Az első és a hatvanadik hely közötti szórás nagyjából 7,4 százalék – történelmi mércével mérve szoros, és minden frissítéssel szűkül. Közeledünk egy küszöbhöz, ahol a modellek közötti jelentős különbségek a nyers minőségről a kreatív személyiségre tolódnak el. A kérdés már nem az, hogy "melyik modell ír a legjobban", hanem azzá válik, hogy "melyik modell hangja illik ehhez a konkrét projekthez". Ez alapvető változás abban, ahogy az íróknak és a kreatív csapatoknak gondolkodniuk kellene az AI kiválasztásáról.

A specializált kreatív modellek elkerülhetetlenek. Az általános célú architektúra figyelemre méltóan messzire tolta a kreatív írás minőségét, de a következő igazi ugrás az olyan modellektől fog származni, amelyeket kifejezetten narratív szerkezetre, karakterkövetkezetességre, párbeszéd-hitelességre vagy költői formára hangoltak. Arra számítok, hogy az év második felére legalább egy nagy laboratórium kiad egy kreatív-specialista modellt – olyat, amely teljesen elkötelezi magát az irodalmi képességek mellett, ahelyett, hogy egyszerre próbálna matematikát megoldani, kódot írni és történeteket mesélni. Amikor ez megtörténik, az egyik napról a másikra újrarendezi ennek a ranglistának az elejét.

A nyílt súlyozású modellek bezárják a fennmaradó rést. A DeepSeek tíz modellje a vezető indikátor. Ahogy a nyílt alternatívák megközelítik a paritást a zárt rendszerekkel a kreatív benchmarkokban, az AI-val segített írás gazdaságtana drámaian megváltozik. Az írók, stúdiók és kiadók hozzáférést nyernek a csúcskategóriás kreatív AI-hoz tokenenkénti árazás nélkül, megváltoztatva az elfogadási görbéket és az emberi írók és AI eszközök közötti alapvető kapcsolatot.

A valódi határvonal a hangszerelés, nem az elszigeteltség. A legkifinomultabb kreatív munka, amit mostanában láttam, nem egyetlen modellt használ – hármat vagy négyet használ egymás után. Geminit a kezdeti ötleteléshez és stilisztikai felfedezéshez. Claudet az érzelmi finomításhoz és a párbeszédek csiszolásához. DeepSeeket vagy Qwent az alternatív kulturális perspektívákhoz. Grokot, amikor a vázlatnak élre van szüksége. A jövő nem arról szól, hogy egy modellt királlyá koronázunk. Hanem arról, hogy megtanulunk vezényelni egy együttest, összeillesztve minden modell kreatív személyiségét a megfelelő pillanattal az írási folyamatban. Azok az írók, akik erre először rájönnek, olyan munkákat fognak alkotni, amelyek másnak érződnek, mint bármi, amit egyetlen modell – vagy egyetlen ember – egyedül elérhetne.

Kreatív Partner Kiválasztása

Miután évekig írtam e modellek mellett, itt van, amit a megfelelő eszköz és a megfelelő feladat összeillesztéséről tanultam:

Sokoldalúság

Gemini 3 Pro alkalmazkodik bármilyen műfajhoz, bármilyen formához, bármilyen hangnemhez. Amikor a brief definiálatlan vagy a projekt tartományt követel, kezdj itt.

Érzelmi Mélység

Claude Opus 4.6 visszafogottsággal és valódi érzéssel ír. Párbeszédekhez, karaktermunkához és prózához, ahol a kimondatlan számít a leginkább.

Sebesség és Minőség

Gemini 3 Flash bizonyítja, hogy a gyors nem jelent rosszabbat. Iteratív fogalmazáshoz, nagy volumenű projektekhez és narratív ötletek gyors prototípus-készítéséhez.

Személyiség

Grok 4.1 olyan kreatív kockázatokat vállal, amelyeket más modellek nem. Fikcióhoz, amelynek élre, humorra van szüksége, és karakterekre, akik inkább élőnek, mint összeszereltnek érződnek.

Vállalati

GPT-4.5 / GPT-5.1 csiszolt, megbízható kimenetet nyújtanak, amely integrálódik a meglévő munkafolyamatokba. Amikor a következetesség és a márka biztonsága ugyanolyan fontos, mint a kreativitás.

Nyílt Forráskód

DeepSeek / Qwen: hosztold magad, finomhangold a domainedre. Amikor kreatív AI-ra van szükséged skálázva tokenenkénti költségek nélkül, a gazdaságosság verhetetlen.

Nincs egyetlen legjobb kreatív AI. Fejlődő hangok vannak különböző erősségekkel, és az igazi erő abban rejlik, hogy tudjuk, melyik hang melyik pillanatot szolgálja a történetben, amit el próbálsz mesélni.

Adatforrás: Rangsorok az Arena AI Kreatív Írás Ranglistáról, 2026. február 6.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard