A kreatív írás az a hely, ahol a nyers intelligencia meghajol az ízlés, a visszafogottság és a bátorság előtt, hogy a megfelelő dolgokat kimondatlanul hagyjuk.
Három évig kértem az AI-t, hogy meséljen nekem történeteket. Nem összefoglalókat, nem vázlatokat – hanem valódi fikciót. Azt a fajtát, ahol egy karakter belép a szobába, és érzed, hogy megváltozik a hőmérséklet. Ezek alatt az évek alatt figyeltem, ahogy ez a ranglista érdekességből az irodalmi képességek valódi barométerévé vált. 2026 februárja hozta el az eddigi legérdekesebb változást: egy vadonatúj modell, amely csendben érkezett, gyorsan emelkedett, és szűkített egy olyan szakadékot, amely hetekkel ezelőtt még tartósnak tűnt. Itt a teljes kép – hatvan modell rangsorolva, elemezve és kontextusba helyezve valaki által, aki minden nap velük dolgozik.
A Kreatív Írás Ranglista
A kódnak szintaxisa van. A matematikának bizonyításai vannak. De a kreatív írásnak hangja van – ritmusa, meglepetése, érzelmi rezonanciája. Ez a Kreatív Írás Aréna, az AI értékelés legigényesebb benchmarkja, ahol hatvan modellt rangsorolnak az alapján, hogy mennyire jól mesélnek el olyan történeteket, amelyek valóban megmozgatják az embereket. Így állnak a dolgok 2026 februárjában.
| Helyezés | Modell | Pontszám | Szavazatok | Szervezet |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
A Februári Fordulat
Amikor lekértem a legfrissebb adatokat, egy bejegyzés megállított: a Claude Opus 4.6 a második helyen ült. Nem azért, mert szokatlan, hogy egy Anthropic modell előkelő helyen szerepel – ezt következetesen teszik. Hanem azért, mert ez a modell szinte semmilyen értékelési előzmény nélkül landolt a második helyen. Ez a fajta korai konszenzus ritka. Ez azt jelenti, hogy a tesztelők első hulláma – a megszállottak, akik a megjelenést követő órákban azonos promptokat futtatnak le minden új kiadáson – valami valóban mást találtak a kreatív kimenetében.
Az igazi történet azonban a szakadék. Januárban az első és a második hely közötti távolság kényelmes huszonöt pont volt. Most tizenkettő. A Gemini 3 Pro még mindig tartja az aranyat, és becsületesen kiérdemelte ezt a pozíciót. De az előny egyetlen frissítési ciklus alatt a felére csökkent. Ha te vagy a Google, ez a tendencia figyelmet követel. Ha az Anthropic vagy, ez megerősítése annak, hogy a kreatív AI képzésére vonatkozó megközelítésed valami erőteljes felé konvergál.
Eközben a közvetlenül az első kettő alatti modellek jelentősen átrendeződtek. A Claude Opus 4.5 "gondolkodó" változata feljött a harmadik helyre, a standard Opus 4.5-öt a negyedikre, a Gemini 3 Flash-t pedig az ötödikre tolva. A Flash még a múlt hónapban a harmadik helyen állt. A dobogó nem csak a csúcson cserél gazdát – instabil az egész. És az instabilitás, tapasztalataim szerint, áttöréseket előz meg.
Uralkodó Magasságok
A Gemini 3 Pro marad az a modell, amelyhez akkor nyúlok, amikor még nem tudom, mire van szükségem. Ami az első helyen tartja, az a tartomány: kérj tőle Hemingway-stílust, és szikár, izmos prózát ad. Kérj kísérleti posztmodern fikciót, és regisztert vált anélkül, hogy elveszítené a koherenciát. Viktoriánus levélregény, keménykötésű noir, mágikus realizmus, gyermekirodalom – a Gemini olyan módon kezeli ezeket az átmeneteket, ami a forma valódi megértésére utal, nem felületes utánzásra. A Google hat modellt helyez el a legjobb hatvanban, a Gemini 3 Flash az ötödik, a Gemini 2.5 Pro a hatodik helyen egészíti ki az erős triót az élen.
A Claude egy teljesen más állatfaj. Ha a Gemini a tartomány, a Claude a mélység. Az Anthropic modelljei mindig is jeleskedtek azokban a finomságokban, amelyeket a legnehezebb megtanítani egy gépnek: mikor hagyja, hogy a csend vigye a jelenetet, mikor törjön meg egy mondat a folytatás helyett, mikor árul el többet az, amit egy karakter nem mond, mint amit mond. Az Opus 4.6 ezt még tovább viszi. Tesztjeimben olyan párbeszédeket produkált, amelyek valóban átéltnek tűntek. A karakterek nem sorokat mondtak fel – gondolkodtak, haboztak, úgy választották meg a szavakat, ahogy a valódi emberek teszik, amikor valami fontos dolog forog kockán. Az Anthropicnak most tizenhárom modellje van a legjobb hatvanban, több, mint bármely más szervezetnek, ötöt az első tizenegyben elhelyezve. Bármi is legyen a kreatív képességek képzésére vonatkozó megközelítésük, az a teljes termékvonalukon működik.
Itt egy megfigyelés, amely nem kap elég figyelmet: a kiterjesztett érvelés – a "gondolkodó" (thinking) mód – nem javítja megbízhatóan a kreatív írást. A minta következetlen és mélyen árulkodó.
A Claude Opus modellek esetében a gondolkodó változatok hajlamosak kissé magasabb helyezést elérni: az Opus 4.5 Thinking a harmadik, szemben a standard negyedikkel, az Opus 4.1 Thinking a kilencedik, szemben a standard tizenegyedikkel. A Grok 4.1 Thinking három pozícióval felülmúlja standard változatát. De válts át más architektúrákra, és a minta megfordul – néha drámaian. A DeepSeek v3.2-exp standard a huszonnyolcadik helyen ül, míg gondolkodó változata a negyvenkettedikre esik. A DeepSeek v3.1-terminus standard a huszonkettedik helyen van; gondolkodó társa az ötvennyolcadikra zuhan – harminchat pozíciós szakadék. A GPT-5.2 standard legyőzi a GPT-5.2-high-t.
Amit ez mond nekem, az fontos: a kreatív írás nem elsősorban érvelési probléma. Ez egy esztétikai probléma. Azoknál a modelleknél, amelyek már rendelkeznek erős irodalmi ösztönökkel, a kiterjesztett gondolkodás finomíthatja ezeket az ösztönöket – mint egy gondos szerkesztő, aki átnéz egy szilárd első vázlatot. De azoknál a modelleknél, amelyek kreatív ereje ösztönösebb és mintavezérelt, a mérlegelés erőltetése valójában lecsiszolja azokat a durva éleket, amelyek élővé teszik a prózát. Néha az első válasz megragad valamit, amit a további számítás középszerűségbe simít. Ha gondolkodásra képes modelleket használsz kreatív munkához, teszteld mindkét módot. A feltételezés, hogy több érvelés egyenlő a jobb kimenettel, itt nem állja meg a helyét, és annak megértése, mikor kell kikapcsolni a gondolkodást, értékesebb lehet, mint tudni, mikor kell bekapcsolni.
Az Emelkedő Ár
A felső szint alatt a történet a burjánzásról és a sokféleségről szól – és ez vitathatatlanul fontosabb, mint az első helyért folyó verseny.
A DeepSeek tíz modellt helyez el a legjobb hatvanban, ezzel az Anthropic és az OpenAI után a harmadik legreprezentáltabb szervezetté válva. A v3.1 és v3.2 változataik a huszonkettediktől az ötvennyolcadik helyig terjednek, lefedve a kreatív képességi szintek széles skáláját. Nyílt súlyozású projektként a DeepSeek valami alapvetően mást képvisel, mint a zárt vezetők: ezek a modellek letölthetők, helyileg hosztolhatók és finomhangolhatók (fine-tuned) specifikus kreatív feladatokra. Ha AI íróeszközt építesz, vagy kreatív képességeket integrálsz egy termékfolyamatba, a DeepSeek olyan rugalmasságot kínál, amellyel a csak API-n elérhető modellek nem versenyezhetnek.
A tágabb kép még feltűnőbb. A DeepSeek, Baidu, Moonshot, Alibaba, Z.ai és Tencent között a kínai AI laboratóriumok most huszonkettőt adnak a hatvan rangsorolt modellből – a teljes ranglista több mint egyharmadát. A Moonshot Kimi K2.5-je gondolkodó változatával a huszonegyedik helyen debütált, háromra növelve a vállalat helyezéseit. A Baidu három pozíciót tart az ERNIE 5.0 sorozatával. Az Alibaba Qwen3-nak három változata van a rangsorban. A Z.ai GLM-4.7-ese a huszonhetedik helyen ül. Ez nem konvergencia – ez valódi sokféleség. Különböző képzési adatok, különböző kulturális kontextusok és különböző irodalmi hagyományok eltérő kreatív érzékenységű modelleket eredményeznek. Láttam az ERNIE-t olyan metaforákat alkotni, amelyek nyugati képzésű modelleknek eszükbe sem jutnának, és a GLM-et olyan módon kezelni a narratív tempót, ami frissnek hat, pontosan azért, mert az irodalmi DNS más. A globális kreatív AI ökoszisztéma gazdagabb ettől.
Az OpenAI tizenegy modellt tart, bár kreatív történetüknek van egy érdekes mellékszála. A GPT-4.5-preview a tizenkettedik helyen megelőzi mind a GPT-5.1-high-t a tizennegyedik, mind a GPT-5.1 standardot a huszonharmadik helyen. Néha egy árnyalatokra optimalizált modell felülmúlja technikailag felsőbbrendű utódját olyan feladatokban, amelyek a finomságot díjazzák a nyers képességgel szemben. A ChatGPT-4o-latest a tizenhetedik helyen megerősíti ezt a pontot: a beszélgetésre optimalizált modellek eredendő előnnyel rendelkeznek a kreatív írásban, mert a történetmesélés alapvetően társalgási jellegű. Nem egy választ számítasz ki – egy hangot tartasz fenn.
A Grok valódi kreatív identitást vésett ki hét rangsorolt modellel. Ahol a Claude az érzelmi intelligenciában jeleskedik, ott a Grok érzelmi őszinteséget hoz. A humor élesebb, a metaforák merészebbek, a karakterek kevésbé csiszoltak és élőbbek. Amikor olyan írást akarok, amely kockázatot vállal – fikciót, amely termékeny módon kényelmetlenné teheti az olvasót –, a Grok az, ahol kezdek. Ez az a modell, amely a legkevésbé fél a saját hangjától, és a kreatív írásban a félelem nélküliség számít. A Mistral medium-2508-asa az ötvenhatodik helyen Európa jelenlétét képviseli a táblán. A Tencent Hunyuan-ja az ötvenharmadik helyen még egy hangot ad Kínából. A mezőny sosem volt még szélesebb.
Hová Vezet Mindez
Elmondom, szerintem mi történik ezután, mert az adatok trendjei egy konkrét irányba mutatnak.
A szakadék tovább tömörödik. Az első és a hatvanadik hely közötti szórás nagyjából 7,4 százalék – történelmi mércével mérve szoros, és minden frissítéssel szűkül. Közeledünk egy küszöbhöz, ahol a modellek közötti jelentős különbségek a nyers minőségről a kreatív személyiségre tolódnak el. A kérdés már nem az, hogy "melyik modell ír a legjobban", hanem azzá válik, hogy "melyik modell hangja illik ehhez a konkrét projekthez". Ez alapvető változás abban, ahogy az íróknak és a kreatív csapatoknak gondolkodniuk kellene az AI kiválasztásáról.
A specializált kreatív modellek elkerülhetetlenek. Az általános célú architektúra figyelemre méltóan messzire tolta a kreatív írás minőségét, de a következő igazi ugrás az olyan modellektől fog származni, amelyeket kifejezetten narratív szerkezetre, karakterkövetkezetességre, párbeszéd-hitelességre vagy költői formára hangoltak. Arra számítok, hogy az év második felére legalább egy nagy laboratórium kiad egy kreatív-specialista modellt – olyat, amely teljesen elkötelezi magát az irodalmi képességek mellett, ahelyett, hogy egyszerre próbálna matematikát megoldani, kódot írni és történeteket mesélni. Amikor ez megtörténik, az egyik napról a másikra újrarendezi ennek a ranglistának az elejét.
A nyílt súlyozású modellek bezárják a fennmaradó rést. A DeepSeek tíz modellje a vezető indikátor. Ahogy a nyílt alternatívák megközelítik a paritást a zárt rendszerekkel a kreatív benchmarkokban, az AI-val segített írás gazdaságtana drámaian megváltozik. Az írók, stúdiók és kiadók hozzáférést nyernek a csúcskategóriás kreatív AI-hoz tokenenkénti árazás nélkül, megváltoztatva az elfogadási görbéket és az emberi írók és AI eszközök közötti alapvető kapcsolatot.
A valódi határvonal a hangszerelés, nem az elszigeteltség. A legkifinomultabb kreatív munka, amit mostanában láttam, nem egyetlen modellt használ – hármat vagy négyet használ egymás után. Geminit a kezdeti ötleteléshez és stilisztikai felfedezéshez. Claudet az érzelmi finomításhoz és a párbeszédek csiszolásához. DeepSeeket vagy Qwent az alternatív kulturális perspektívákhoz. Grokot, amikor a vázlatnak élre van szüksége. A jövő nem arról szól, hogy egy modellt királlyá koronázunk. Hanem arról, hogy megtanulunk vezényelni egy együttest, összeillesztve minden modell kreatív személyiségét a megfelelő pillanattal az írási folyamatban. Azok az írók, akik erre először rájönnek, olyan munkákat fognak alkotni, amelyek másnak érződnek, mint bármi, amit egyetlen modell – vagy egyetlen ember – egyedül elérhetne.
Kreatív Partner Kiválasztása
Miután évekig írtam e modellek mellett, itt van, amit a megfelelő eszköz és a megfelelő feladat összeillesztéséről tanultam:
Sokoldalúság
Gemini 3 Pro alkalmazkodik bármilyen műfajhoz, bármilyen formához, bármilyen hangnemhez. Amikor a brief definiálatlan vagy a projekt tartományt követel, kezdj itt.
Érzelmi Mélység
Claude Opus 4.6 visszafogottsággal és valódi érzéssel ír. Párbeszédekhez, karaktermunkához és prózához, ahol a kimondatlan számít a leginkább.
Sebesség és Minőség
Gemini 3 Flash bizonyítja, hogy a gyors nem jelent rosszabbat. Iteratív fogalmazáshoz, nagy volumenű projektekhez és narratív ötletek gyors prototípus-készítéséhez.
Személyiség
Grok 4.1 olyan kreatív kockázatokat vállal, amelyeket más modellek nem. Fikcióhoz, amelynek élre, humorra van szüksége, és karakterekre, akik inkább élőnek, mint összeszereltnek érződnek.
Nincs egyetlen legjobb kreatív AI. Fejlődő hangok vannak különböző erősségekkel, és az igazi erő abban rejlik, hogy tudjuk, melyik hang melyik pillanatot szolgálja a történetben, amit el próbálsz mesélni.
Adatforrás: Rangsorok az Arena AI Kreatív Írás Ranglistáról, 2026. február 6.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!