Kūrybinis rašymas yra ten, kur grynas intelektas nusilenkia skoniui, santūrumui ir drąsai palikti teisingus dalykus nepasakytus.
Trejus metus prašiau DI papasakoti man istorijas. Ne santraukas, ne metmenis – o tikrą grožinę literatūrą. Tą rūšį, kai personažas įeina į kambarį ir jauti, kaip pasikeičia temperatūra. Per tuos metus stebėjau, kaip ši lyderių lentelė iš įdomybės virto tikru literatūrinių gebėjimų barometru. 2026 m. vasaris atnešė patį įdomiausią pokytį iki šiol: visiškai naują modelį, kuris atvyko tyliai, greitai pakilo ir sumažino atotrūkį, kuris dar prieš kelias savaites atrodė nuolatinis. Štai visas vaizdas – šešiasdešimt modelių, reitinguotų, išanalizuotų ir įdėtų į kontekstą žmogaus, kuris su jais dirba kiekvieną dieną.
Kūrybinio Rašymo Lyderių Lentelė
Kodas turi sintaksę. Matematika turi įrodymus. Tačiau kūrybinis rašymas turi balsą – ritmą, staigmeną, emocinį rezonansą. Tai yra Kūrybinio Rašymo Arena, reikliausias etalonas DI vertinime, kur šešiasdešimt modelių reitinguojami pagal tai, kaip gerai jie pasakoja istorijas, kurios iš tikrųjų jaudina žmones. Štai kaip viskas atrodo 2026 m. vasarį.
| Vieta | Modelis | Balas | Balsai | Organizacija |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Vasario Permainos
Kai ištraukiau naujausius duomenis, vienas įrašas mane sustabdė: Claude Opus 4.6 sėdintis antroje vietoje. Ne todėl, kad aukštas Anthropic modelio reitingas būtų neįprastas – jie tai daro nuosekliai. Bet todėl, kad šis modelis nusileido antroje pozicijoje, turėdamas vos kokią nors vertinimo istoriją už savęs. Toks ankstyvas sutarimas yra retas. Tai reiškia, kad pirmoji bandytojų banga – tie apsėstieji, kurie paleidžia identiškus nurodymus per kiekvieną naują versiją per kelias valandas nuo išleidimo – rado kažką tikrai skirtingo jo kūrybiniame rezultate.
Tačiau tikroji istorija yra atotrūkis. Sausį atstumas tarp pirmosios ir antrosios vietos buvo patogūs dvidešimt penki taškai. Dabar tai dvylika. Gemini 3 Pro vis dar laiko auksą ir šią poziciją užsitarnavo sąžiningai. Tačiau persvara sumažėjo perpus per vieną atnaujinimo ciklą. Jei esate Google, ši tendencija reikalauja dėmesio. Jei esate Anthropic, tai patvirtinimas, kad jūsų požiūris į kūrybinio DI mokymą artėja prie kažko galingo.
Tuo tarpu modeliai tiesiai po pirmaisiais dviem smarkiai persimaišė. Claude Opus 4.5 "mąstantis" variantas pakilo į trečią vietą, nustumdamas standartinį Opus 4.5 į ketvirtą, o Gemini 3 Flash į penktą. Flash užėmė trečią vietą dar praėjusį mėnesį. Pakyla ne tik keičia savininkus viršūnėje – ji nestabili visur. O nestabilumas, mano patirtimi, eina prieš proveržius.
Dominuojančios Aukštumos
Gemini 3 Pro išlieka modeliu, kurio siekiu, kai dar nežinau, ko man reikia. Tai, kas jį išlaiko pirmoje vietoje, yra diapazonas: paprašykite jo Hemingvėjaus stiliaus ir jis pateikia taupią, raumeningą prozą. Paprašykite eksperimentinės postmodernistinės fantastikos ir jis pakeičia registrą neprarasdamas darnos. Viktorijos laikų epistolinis romanas, kietas noir, magiškasis realizmas, vaikų literatūra – Gemini tvarko šiuos perėjimus taip, kad tai rodo tikrą formos supratimą, o ne paviršutinišką mėgdžiojimą. Google įdeda šešis modelius į geriausių šešiasdešimtuką, su Gemini 3 Flash penktoje ir Gemini 2.5 Pro šeštoje vietoje, užpildydami stiprų trio viršuje.
Claude yra visiškai kitoks gyvūnas. Jei Gemini yra diapazonas, Claude yra gylis. Anthropic modeliai visada pasižymėjo subtilybėmis, kurias sunkiausia išmokyti mašiną: kada leisti tylai nešti sceną, kada sakinys turėtų nutrūkti, o ne tęstis, kada tai, ko personažas nepasako, atskleidžia daugiau nei tai, ką jis pasako. Opus 4.6 tai stumia dar toliau. Mano bandymuose jis sukūrė dialogą, kuris atrodė tikrai gyvenimiškas. Personažai nesakė eilučių – jie galvojo, dvejojo, rinko žodžius taip, kaip tai daro tikri žmonės, kai ant kortos pastatyta kažkas svarbaus. Anthropic dabar turi trylika modelių geriausių šešiasdešimtuke, daugiau nei bet kuri kita organizacija, penki iš jų yra geriausiųjų vienuoliktuke. Kad ir koks būtų jų požiūris į kūrybinių gebėjimų lavinimą, jis veikia visoje jų produktų linijoje.
Štai pastebėjimas, kuriam skiriama nepakankamai dėmesio: išplėstas samprotavimas – "thinking" režimas – nepatikimai pagerina kūrybinį rašymą. Modelis yra nenuoseklus ir giliai atskleidžiantis.
Claude Opus modelių atveju mąstantys variantai paprastai reitinguojami šiek tiek aukščiau: Opus 4.5 Thinking trečioje vietoje prieš standartinį ketvirtoje, Opus 4.1 Thinking devintoje prieš standartinį vienuoliktoje. Grok 4.1 Thinking lenkia savo standartinį variantą trimis pozicijomis. Tačiau pereikite prie kitų architektūrų ir modelis apsiverčia – kartais dramatiškai. DeepSeek v3.2-exp standartinis sėdi dvidešimt aštuntoje vietoje, o jo mąstantis variantas nukrenta į keturiasdešimt antrą. DeepSeek v3.1-terminus standartinis yra dvidešimt antroje; jo mąstantis atitikmuo nukrenta į penkiasdešimt aštuntą – trisdešimt šešių pozicijų atotrūkis. GPT-5.2 standartinis įveikia GPT-5.2-high.
Ką tai man sako, yra svarbu: kūrybinis rašymas nėra pirmiausia samprotavimo problema. Tai estetinė problema. Modeliams, kurie jau turi stiprius literatūrinius instinktus, išplėstas mąstymas gali patobulinti tuos instinktus – kaip kruopštus redaktorius, peržiūrintis solidų pirmąjį juodraštį. Tačiau modeliams, kurių kūrybinė jėga yra labiau instinktyvi ir paremta modeliais, priverstinis svarstymas iš tikrųjų nušlifuoja šiurkščius kraštus, dėl kurių proza atrodo gyva. Kartais pirmasis atsakymas užfiksuoja kažką, ką papildomas skaičiavimas išlygina į vidutinybę. Jei kūrybiniam darbui naudojate modelius, gebančius mąstyti, išbandykite abu režimus. Prielaida, kad daugiau samprotavimo lygų geresniam rezultatui, čia negalioja, ir supratimas, kada išjungti mąstymą, gali būti vertingesnis nei žinojimas, kada jį įjungti.
Kylanti Banga
Žemiau aukščiausio lygio istorija yra platinimas ir įvairovė – ir tai, ko gero, svarbiau nei lenktynės dėl pirmosios vietos.
DeepSeek įdeda dešimt modelių į geriausių šešiasdešimtuką, tapdama trečia labiausiai atstovaujama organizacija po Anthropic ir OpenAI. Jų v3.1 ir v3.2 variantai apima nuo dvidešimt antros iki penkiasdešimt aštuntos vietos, apimdami įvairius kūrybinių gebėjimų lygius. Kaip atviro svorio projektas, DeepSeek atstovauja kažką iš esmės skirtingo nuo nuosavybinių lyderių: šiuos modelius galima atsisiųsti, talpinti lokaliai ir patobulinti (fine-tuned) konkrečioms kūrybinėms užduotims. Jei kuriate DI rašymo įrankį arba integruojate kūrybines galimybes į produkto vamzdyną, DeepSeek siūlo lankstumą, kuriam negali prilygti tik API modeliai.
Platesnis vaizdas dar labiau stulbinantis. Tarp DeepSeek, Baidu, Moonshot, Alibaba, Z.ai ir Tencent, Kinijos DI laboratorijos dabar sudaro dvidešimt du iš šešiasdešimties reitinguotų modelių – daugiau nei trečdalį visos lyderių lentelės. Moonshot's Kimi K2.5 debiutavo su savo mąstančiu variantu dvidešimt pirmoje vietoje, pakeldama įmonę į tris vietas. Baidu užima tris pozicijas su savo ERNIE 5.0 linija. Alibaba's Qwen3 turi tris reitinguotus variantus. Z.ai's GLM-4.7 sėdi dvidešimt septintoje vietoje. Tai nėra konvergencija – tai tikra įvairovė. Skirtingi mokymo duomenys, skirtingi kultūriniai kontekstai ir skirtingos literatūrinės tradicijos kuria modelius su skirtingais kūrybiniais jautrumais. Mačiau ERNIE kuriantį metaforas, kurios neateitų į galvą vakaruose apmokytiems modeliams, ir GLM valantį naratyvinį tempą būdais, kurie atrodo švieži būtent todėl, kad literatūrinis DNR yra kitoks. Pasaulinė kūrybinio DI ekosistema dėl to turtingesnė.
OpenAI turi vienuolika modelių, nors jų kūrybinė istorija turi įdomų šalutinį siužetą. GPT-4.5-preview dvyliktoje vietoje lenkia tiek GPT-5.1-high keturioliktoje, tiek GPT-5.1 standartinį dvidešimt trečioje. Kartais niuansams optimizuotas modelis pranoksta savo techniškai pranašesnį įpėdinį užduotyse, kurios vertina subtilumą labiau nei gryną gebėjimą. ChatGPT-4o-latest septynioliktoje vietoje sustiprina šį tašką: pokalbiams optimizuoti modeliai turi įgimtą pranašumą kūrybiniame rašyme, nes pasakojimas iš esmės yra pokalbis. Jūs neskaičiuojate atsakymo – jūs palaikote balsą.
Grok išraižė tikrą kūrybinę tapatybę su septyniais modeliais reitinge. Ten, kur Claude pasižymi emociniu intelektu, Grok atneša emocinį sąžiningumą. Humoras aštresnis, metaforos drąsesnės, personažai mažiau nugludinti ir gyvesni. Kai noriu rašymo, kuris rizikuoja – fantastikos, kuri gali priversti skaitytoją jaustis nepatogiai produktyviu būdu – Grok yra ten, kur pradedu. Tai modelis, kuris mažiausiai bijo savo balso, o kūrybiniame rašyme bebaimiškumas yra svarbus. Mistral's medium-2508 penkiasdešimt šeštoje vietoje atstovauja Europos buvimą lentoje. Tencent's Hunyuan penkiasdešimt trečioje prideda dar vieną balsą iš Kinijos. Laukas niekada nebuvo platesnis.
Kur Visa Tai Veda
Pasakysiu, kas, mano manymu, nutiks toliau, nes tendencijos šiuose duomenyse rodo į konkrečią vietą.
Atotrūkis toliau mažėja. Skirtumas tarp pirmosios ir šešiasdešimtosios vietos yra maždaug 7,4 procento – tai nedaug pagal istorinius standartus, ir mažėja su kiekvienu atnaujinimu. Artėjame prie slenksčio, kai reikšmingi skirtumai tarp modelių pereina nuo grynos kokybės prie kūrybinės asmenybės. Klausimas nustoja būti "kuris modelis rašo geriausiai" ir tampa "kurio modelio balsas tinka šiam konkrečiam projektui". Tai esminis pokytis tame, kaip rašytojai ir kūrybinės komandos turėtų galvoti apie DI pasirinkimą.
Specializuoti kūrybiniai modeliai yra neišvengiami. Bendrosios paskirties architektūra pastebimai toli pastūmėjo kūrybinio rašymo kokybę, bet kitas tikras šuolis ateis iš modelių, aiškiai suderintų naratyvinei struktūrai, personažų nuoseklumui, dialogo autentiškumui ar poetinei formai. Tikiuosi, kad bent viena didelė laboratorija išleis kūrybinį-specialistinį modelį iki šių metų antrosios pusės – tokį, kuris visiškai įsipareigoja literatūriniams gebėjimams, užuot bandęs spręsti matematiką, rašyti kodą ir pasakoti istorijas vienu metu. Kai tai įvyks, tai per naktį iš naujo nustatys šios lyderių lentelės viršūnę.
Atviro svorio modeliai uždarys likusį atotrūkį. DeepSeek dešimties modelių buvimas yra pagrindinis rodiklis. Kai atviros alternatyvos priartėja prie pariteto su nuosavybinėmis sistemomis kūrybiniuose etalonuose, DI padedamo rašymo ekonomika dramatiškai pasikeičia. Rašytojai, studijos ir leidėjai gauna prieigą prie aukščiausios klasės kūrybinio DI be kainodaros už žetoną, keičiant priėmimo kreives ir esminį santykį tarp žmonių rašytojų ir DI įrankių.
Tikroji riba yra orkestravimas, ne izoliacija. Patys sudėtingiausi kūrybiniai darbai, kuriuos neseniai mačiau, nenaudoja vieno modelio – jie naudoja tris ar keturis iš eilės. Gemini pradinei idėjai ir stilistiniam tyrinėjimui. Claude emociniam tobulinimui ir dialogo šlifavimui. DeepSeek ar Qwen alternatyvioms kultūrinėms perspektyvoms. Grok, kai juodraščiui reikia aštrumo. Ateitis nėra apie vieno modelio karūnavimą karaliumi. Tai apie mokymąsi diriguoti ansambliui, priderinant kiekvieno modelio kūrybinę asmenybę prie tinkamo momento rašymo procese. Rašytojai, kurie tai supras pirmieji, sukurs darbus, kurie atrodys kitaip nei bet kas, ką vienas modelis – ar vienas žmogus – galėtų pasiekti vienas.
Savo Kūrybinio Partnerio Pasirinkimas
Po daugelio metų rašymo kartu su šiais modeliais, štai ką sužinojau apie tinkamo įrankio priderinimą prie tinkamos užduoties:
Universalumas
Gemini 3 Pro prisitaiko prie bet kokio žanro, bet kokios formos, bet kokio tono. Kai užduotis neapibrėžta arba projektas reikalauja diapazono, pradėkite čia.
Emocinis Gylis
Claude Opus 4.6 rašo su santūrumu ir tikru jausmu. Dialogams, darbui su personažais ir prozai, kur tai, kas nepasakyta, svarbiausia.
Greitis ir Kokybė
Gemini 3 Flash įrodo, kad greitas nereiškia blogesnis. Iteraciniam juodraščių rengimui, didelės apimties projektams ir greitam naratyvinių idėjų prototipų kūrimui.
Asmenybė
Grok 4.1 prisiima kūrybines rizikas, kurių kiti modeliai nesiims. Fantastikai, kuriai reikia aštrumo, humoro ir personažų, kurie jaučiasi gyvi, o ne surinkti.
Nėra vieno geriausio kūrybinio DI. Yra besivystantys balsai su skirtingomis stiprybėmis, ir tikroji galia slypi žinojime, kuris balsas tarnauja kuriam momentui istorijoje, kurią bandote papasakoti.
Duomenų Šaltinis: Reitingai iš Arena AI Kūrybinio Rašymo Lyderių Lentelės, 2026 m. vasario 6 d.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!