DI Kūrybinio Rašymo Arenos Lyderių Lentelė — 2026 m. Vasaris

Pagrindinė Įžvalga

Kūrybinis rašymas yra ten, kur grynas intelektas nusilenkia skoniui, santūrumui ir drąsai palikti teisingus dalykus nepasakytus.

Trejus metus prašiau DI papasakoti man istorijas. Ne santraukas, ne metmenis – o tikrą grožinę literatūrą. Tą rūšį, kai personažas įeina į kambarį ir jauti, kaip pasikeičia temperatūra. Per tuos metus stebėjau, kaip ši lyderių lentelė iš įdomybės virto tikru literatūrinių gebėjimų barometru. 2026 m. vasaris atnešė patį įdomiausią pokytį iki šiol: visiškai naują modelį, kuris atvyko tyliai, greitai pakilo ir sumažino atotrūkį, kuris dar prieš kelias savaites atrodė nuolatinis. Štai visas vaizdas – šešiasdešimt modelių, reitinguotų, išanalizuotų ir įdėtų į kontekstą žmogaus, kuris su jais dirba kiekvieną dieną.

Kūrybinio Rašymo Lyderių Lentelė

Kodas turi sintaksę. Matematika turi įrodymus. Tačiau kūrybinis rašymas turi balsą – ritmą, staigmeną, emocinį rezonansą. Tai yra Kūrybinio Rašymo Arena, reikliausias etalonas DI vertinime, kur šešiasdešimt modelių reitinguojami pagal tai, kaip gerai jie pasakoja istorijas, kurios iš tikrųjų jaudina žmones. Štai kaip viskas atrodo 2026 m. vasarį.

Vieta Modelis Balas Balsai Organizacija
🥇
Gemini 3 Pro 14904,861Google
🥈
Claude Opus 4 6 1478347Anthropic
🥉
Claude Opus 4 5 20251101 Thinking 32k 14593,667Anthropic
#4
Claude Opus 4 5 20251101 14574,382Anthropic
#5
Gemini 3 Flash 14563,678Google
#6
Gemini 2.5 Pro 145012,564Google
#7
Claude Sonnet 4 5 20250929 14475,769Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14472,253Google
#9
Claude Opus 4 1 20250805 Thinking 16k 14456,651Anthropic
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14426,015Anthropic
#11
Claude Opus 4 1 20250805 14409,807Anthropic
#12
Gpt 4.5 Preview 2025 02 27 14382,618OpenAI
#13
Grok 4.1 Thinking 14344,819xAI
#14
Gpt 5.1 High 14344,213OpenAI
#15
Claude Opus 4 20250514 Thinking 16k 14284,750Anthropic
#16
Grok 4.1 14275,119xAI
#17
Chatgpt 4o Latest 20250326 142211,146OpenAI
#18
Ernie 5.0 Preview 1203 14201,477Baidu
#19
Claude Opus 4 20250514 14195,794Anthropic
#20
Ernie 5.0 0110 14181,622Baidu
#21
Kimi K2.5 Thinking 14181,059Moonshot
#22
Deepseek V3.1 Terminus 1411458DeepSeek
#23
Gpt 5.1 14114,512OpenAI
#24
Ernie 5.0 Preview 1022 1411662Baidu
#25
Deepseek V3.1 Thinking 14101,720DeepSeek
#26
Grok 4 1 Fast Reasoning 14043,798xAI
#27
Glm 4.7 14031,797Z.ai
#28
Deepseek V3.2 Exp 14031,500DeepSeek
#29
Gpt 4.1 2025 04 14 14026,858OpenAI
#30
Glm 4.6 14024,764Z.ai
#31
Kimi K2.5 Instant 1402427Moonshot
#32
Grok 3 Preview 02 24 14024,972xAI
#33
Deepseek V3.2 13993,529DeepSeek
#34
Gemini 2.5 Flash 139812,294Google
#35
Gpt 5.2 13981,679OpenAI
#36
Grok 4 0709 13975,559xAI
#37
Qwen3 Max Preview 13963,713Alibaba
#38
Claude Sonnet 4 20250514 Thinking 32k 13964,582Anthropic
#39
Deepseek V3.1 13952,082DeepSeek
#40
Qwen3 Max 2025 09 23 13951,154Alibaba
#41
Claude 3 7 Sonnet 20250219 Thinking 32k 13955,472Anthropic
#42
Deepseek V3.2 Exp Thinking 13951,154DeepSeek
#43
Gpt 5 Chat 13944,010OpenAI
#44
Gpt 5.2 High 13942,133OpenAI
#45
Kimi K2 Thinking Turbo 13934,520Moonshot
#46
Deepseek V3 0324 13916,338DeepSeek
#47
Deepseek V3.2 Thinking 13903,113DeepSeek
#48
Deepseek R1 0528 13882,660DeepSeek
#49
Claude Sonnet 4 20250514 13855,328Anthropic
#50
Qwen3 235b A22b Instruct 2507 13849,102Alibaba
#51
O3 2025 04 16 13848,014OpenAI
#52
O1 2024 12 17 13834,646OpenAI
#53
Hunyuan T1 20250711 1382642Tencent
#54
Grok 4 Fast Chat 1382995xAI
#55
Gemini 2.5 Flash Preview 09 2025 13824,285Google
#56
Mistral Medium 2508 13828,527Mistral
#57
Claude Haiku 4 5 20251001 13825,754Anthropic
#58
Deepseek V3.1 Terminus Thinking 1381446DeepSeek
#59
Grok 4 Fast Reasoning 13802,372xAI
#60
Gpt 5 High 13794,330OpenAI

Vasario Permainos

Kai ištraukiau naujausius duomenis, vienas įrašas mane sustabdė: Claude Opus 4.6 sėdintis antroje vietoje. Ne todėl, kad aukštas Anthropic modelio reitingas būtų neįprastas – jie tai daro nuosekliai. Bet todėl, kad šis modelis nusileido antroje pozicijoje, turėdamas vos kokią nors vertinimo istoriją už savęs. Toks ankstyvas sutarimas yra retas. Tai reiškia, kad pirmoji bandytojų banga – tie apsėstieji, kurie paleidžia identiškus nurodymus per kiekvieną naują versiją per kelias valandas nuo išleidimo – rado kažką tikrai skirtingo jo kūrybiniame rezultate.

Tačiau tikroji istorija yra atotrūkis. Sausį atstumas tarp pirmosios ir antrosios vietos buvo patogūs dvidešimt penki taškai. Dabar tai dvylika. Gemini 3 Pro vis dar laiko auksą ir šią poziciją užsitarnavo sąžiningai. Tačiau persvara sumažėjo perpus per vieną atnaujinimo ciklą. Jei esate Google, ši tendencija reikalauja dėmesio. Jei esate Anthropic, tai patvirtinimas, kad jūsų požiūris į kūrybinio DI mokymą artėja prie kažko galingo.

Tuo tarpu modeliai tiesiai po pirmaisiais dviem smarkiai persimaišė. Claude Opus 4.5 "mąstantis" variantas pakilo į trečią vietą, nustumdamas standartinį Opus 4.5 į ketvirtą, o Gemini 3 Flash į penktą. Flash užėmė trečią vietą dar praėjusį mėnesį. Pakyla ne tik keičia savininkus viršūnėje – ji nestabili visur. O nestabilumas, mano patirtimi, eina prieš proveržius.

Dominuojančios Aukštumos

Gemini 3 Pro išlieka modeliu, kurio siekiu, kai dar nežinau, ko man reikia. Tai, kas jį išlaiko pirmoje vietoje, yra diapazonas: paprašykite jo Hemingvėjaus stiliaus ir jis pateikia taupią, raumeningą prozą. Paprašykite eksperimentinės postmodernistinės fantastikos ir jis pakeičia registrą neprarasdamas darnos. Viktorijos laikų epistolinis romanas, kietas noir, magiškasis realizmas, vaikų literatūra – Gemini tvarko šiuos perėjimus taip, kad tai rodo tikrą formos supratimą, o ne paviršutinišką mėgdžiojimą. Google įdeda šešis modelius į geriausių šešiasdešimtuką, su Gemini 3 Flash penktoje ir Gemini 2.5 Pro šeštoje vietoje, užpildydami stiprų trio viršuje.

Claude yra visiškai kitoks gyvūnas. Jei Gemini yra diapazonas, Claude yra gylis. Anthropic modeliai visada pasižymėjo subtilybėmis, kurias sunkiausia išmokyti mašiną: kada leisti tylai nešti sceną, kada sakinys turėtų nutrūkti, o ne tęstis, kada tai, ko personažas nepasako, atskleidžia daugiau nei tai, ką jis pasako. Opus 4.6 tai stumia dar toliau. Mano bandymuose jis sukūrė dialogą, kuris atrodė tikrai gyvenimiškas. Personažai nesakė eilučių – jie galvojo, dvejojo, rinko žodžius taip, kaip tai daro tikri žmonės, kai ant kortos pastatyta kažkas svarbaus. Anthropic dabar turi trylika modelių geriausių šešiasdešimtuke, daugiau nei bet kuri kita organizacija, penki iš jų yra geriausiųjų vienuoliktuke. Kad ir koks būtų jų požiūris į kūrybinių gebėjimų lavinimą, jis veikia visoje jų produktų linijoje.

Štai pastebėjimas, kuriam skiriama nepakankamai dėmesio: išplėstas samprotavimas – "thinking" režimas – nepatikimai pagerina kūrybinį rašymą. Modelis yra nenuoseklus ir giliai atskleidžiantis.

Claude Opus modelių atveju mąstantys variantai paprastai reitinguojami šiek tiek aukščiau: Opus 4.5 Thinking trečioje vietoje prieš standartinį ketvirtoje, Opus 4.1 Thinking devintoje prieš standartinį vienuoliktoje. Grok 4.1 Thinking lenkia savo standartinį variantą trimis pozicijomis. Tačiau pereikite prie kitų architektūrų ir modelis apsiverčia – kartais dramatiškai. DeepSeek v3.2-exp standartinis sėdi dvidešimt aštuntoje vietoje, o jo mąstantis variantas nukrenta į keturiasdešimt antrą. DeepSeek v3.1-terminus standartinis yra dvidešimt antroje; jo mąstantis atitikmuo nukrenta į penkiasdešimt aštuntą – trisdešimt šešių pozicijų atotrūkis. GPT-5.2 standartinis įveikia GPT-5.2-high.

Ką tai man sako, yra svarbu: kūrybinis rašymas nėra pirmiausia samprotavimo problema. Tai estetinė problema. Modeliams, kurie jau turi stiprius literatūrinius instinktus, išplėstas mąstymas gali patobulinti tuos instinktus – kaip kruopštus redaktorius, peržiūrintis solidų pirmąjį juodraštį. Tačiau modeliams, kurių kūrybinė jėga yra labiau instinktyvi ir paremta modeliais, priverstinis svarstymas iš tikrųjų nušlifuoja šiurkščius kraštus, dėl kurių proza atrodo gyva. Kartais pirmasis atsakymas užfiksuoja kažką, ką papildomas skaičiavimas išlygina į vidutinybę. Jei kūrybiniam darbui naudojate modelius, gebančius mąstyti, išbandykite abu režimus. Prielaida, kad daugiau samprotavimo lygų geresniam rezultatui, čia negalioja, ir supratimas, kada išjungti mąstymą, gali būti vertingesnis nei žinojimas, kada jį įjungti.

Kylanti Banga

Žemiau aukščiausio lygio istorija yra platinimas ir įvairovė – ir tai, ko gero, svarbiau nei lenktynės dėl pirmosios vietos.

DeepSeek įdeda dešimt modelių į geriausių šešiasdešimtuką, tapdama trečia labiausiai atstovaujama organizacija po Anthropic ir OpenAI. Jų v3.1 ir v3.2 variantai apima nuo dvidešimt antros iki penkiasdešimt aštuntos vietos, apimdami įvairius kūrybinių gebėjimų lygius. Kaip atviro svorio projektas, DeepSeek atstovauja kažką iš esmės skirtingo nuo nuosavybinių lyderių: šiuos modelius galima atsisiųsti, talpinti lokaliai ir patobulinti (fine-tuned) konkrečioms kūrybinėms užduotims. Jei kuriate DI rašymo įrankį arba integruojate kūrybines galimybes į produkto vamzdyną, DeepSeek siūlo lankstumą, kuriam negali prilygti tik API modeliai.

Platesnis vaizdas dar labiau stulbinantis. Tarp DeepSeek, Baidu, Moonshot, Alibaba, Z.ai ir Tencent, Kinijos DI laboratorijos dabar sudaro dvidešimt du iš šešiasdešimties reitinguotų modelių – daugiau nei trečdalį visos lyderių lentelės. Moonshot's Kimi K2.5 debiutavo su savo mąstančiu variantu dvidešimt pirmoje vietoje, pakeldama įmonę į tris vietas. Baidu užima tris pozicijas su savo ERNIE 5.0 linija. Alibaba's Qwen3 turi tris reitinguotus variantus. Z.ai's GLM-4.7 sėdi dvidešimt septintoje vietoje. Tai nėra konvergencija – tai tikra įvairovė. Skirtingi mokymo duomenys, skirtingi kultūriniai kontekstai ir skirtingos literatūrinės tradicijos kuria modelius su skirtingais kūrybiniais jautrumais. Mačiau ERNIE kuriantį metaforas, kurios neateitų į galvą vakaruose apmokytiems modeliams, ir GLM valantį naratyvinį tempą būdais, kurie atrodo švieži būtent todėl, kad literatūrinis DNR yra kitoks. Pasaulinė kūrybinio DI ekosistema dėl to turtingesnė.

OpenAI turi vienuolika modelių, nors jų kūrybinė istorija turi įdomų šalutinį siužetą. GPT-4.5-preview dvyliktoje vietoje lenkia tiek GPT-5.1-high keturioliktoje, tiek GPT-5.1 standartinį dvidešimt trečioje. Kartais niuansams optimizuotas modelis pranoksta savo techniškai pranašesnį įpėdinį užduotyse, kurios vertina subtilumą labiau nei gryną gebėjimą. ChatGPT-4o-latest septynioliktoje vietoje sustiprina šį tašką: pokalbiams optimizuoti modeliai turi įgimtą pranašumą kūrybiniame rašyme, nes pasakojimas iš esmės yra pokalbis. Jūs neskaičiuojate atsakymo – jūs palaikote balsą.

Grok išraižė tikrą kūrybinę tapatybę su septyniais modeliais reitinge. Ten, kur Claude pasižymi emociniu intelektu, Grok atneša emocinį sąžiningumą. Humoras aštresnis, metaforos drąsesnės, personažai mažiau nugludinti ir gyvesni. Kai noriu rašymo, kuris rizikuoja – fantastikos, kuri gali priversti skaitytoją jaustis nepatogiai produktyviu būdu – Grok yra ten, kur pradedu. Tai modelis, kuris mažiausiai bijo savo balso, o kūrybiniame rašyme bebaimiškumas yra svarbus. Mistral's medium-2508 penkiasdešimt šeštoje vietoje atstovauja Europos buvimą lentoje. Tencent's Hunyuan penkiasdešimt trečioje prideda dar vieną balsą iš Kinijos. Laukas niekada nebuvo platesnis.

Kur Visa Tai Veda

Pasakysiu, kas, mano manymu, nutiks toliau, nes tendencijos šiuose duomenyse rodo į konkrečią vietą.

Atotrūkis toliau mažėja. Skirtumas tarp pirmosios ir šešiasdešimtosios vietos yra maždaug 7,4 procento – tai nedaug pagal istorinius standartus, ir mažėja su kiekvienu atnaujinimu. Artėjame prie slenksčio, kai reikšmingi skirtumai tarp modelių pereina nuo grynos kokybės prie kūrybinės asmenybės. Klausimas nustoja būti "kuris modelis rašo geriausiai" ir tampa "kurio modelio balsas tinka šiam konkrečiam projektui". Tai esminis pokytis tame, kaip rašytojai ir kūrybinės komandos turėtų galvoti apie DI pasirinkimą.

Specializuoti kūrybiniai modeliai yra neišvengiami. Bendrosios paskirties architektūra pastebimai toli pastūmėjo kūrybinio rašymo kokybę, bet kitas tikras šuolis ateis iš modelių, aiškiai suderintų naratyvinei struktūrai, personažų nuoseklumui, dialogo autentiškumui ar poetinei formai. Tikiuosi, kad bent viena didelė laboratorija išleis kūrybinį-specialistinį modelį iki šių metų antrosios pusės – tokį, kuris visiškai įsipareigoja literatūriniams gebėjimams, užuot bandęs spręsti matematiką, rašyti kodą ir pasakoti istorijas vienu metu. Kai tai įvyks, tai per naktį iš naujo nustatys šios lyderių lentelės viršūnę.

Atviro svorio modeliai uždarys likusį atotrūkį. DeepSeek dešimties modelių buvimas yra pagrindinis rodiklis. Kai atviros alternatyvos priartėja prie pariteto su nuosavybinėmis sistemomis kūrybiniuose etalonuose, DI padedamo rašymo ekonomika dramatiškai pasikeičia. Rašytojai, studijos ir leidėjai gauna prieigą prie aukščiausios klasės kūrybinio DI be kainodaros už žetoną, keičiant priėmimo kreives ir esminį santykį tarp žmonių rašytojų ir DI įrankių.

Tikroji riba yra orkestravimas, ne izoliacija. Patys sudėtingiausi kūrybiniai darbai, kuriuos neseniai mačiau, nenaudoja vieno modelio – jie naudoja tris ar keturis iš eilės. Gemini pradinei idėjai ir stilistiniam tyrinėjimui. Claude emociniam tobulinimui ir dialogo šlifavimui. DeepSeek ar Qwen alternatyvioms kultūrinėms perspektyvoms. Grok, kai juodraščiui reikia aštrumo. Ateitis nėra apie vieno modelio karūnavimą karaliumi. Tai apie mokymąsi diriguoti ansambliui, priderinant kiekvieno modelio kūrybinę asmenybę prie tinkamo momento rašymo procese. Rašytojai, kurie tai supras pirmieji, sukurs darbus, kurie atrodys kitaip nei bet kas, ką vienas modelis – ar vienas žmogus – galėtų pasiekti vienas.

Savo Kūrybinio Partnerio Pasirinkimas

Po daugelio metų rašymo kartu su šiais modeliais, štai ką sužinojau apie tinkamo įrankio priderinimą prie tinkamos užduoties:

Universalumas

Gemini 3 Pro prisitaiko prie bet kokio žanro, bet kokios formos, bet kokio tono. Kai užduotis neapibrėžta arba projektas reikalauja diapazono, pradėkite čia.

Emocinis Gylis

Claude Opus 4.6 rašo su santūrumu ir tikru jausmu. Dialogams, darbui su personažais ir prozai, kur tai, kas nepasakyta, svarbiausia.

Greitis ir Kokybė

Gemini 3 Flash įrodo, kad greitas nereiškia blogesnis. Iteraciniam juodraščių rengimui, didelės apimties projektams ir greitam naratyvinių idėjų prototipų kūrimui.

Asmenybė

Grok 4.1 prisiima kūrybines rizikas, kurių kiti modeliai nesiims. Fantastikai, kuriai reikia aštrumo, humoro ir personažų, kurie jaučiasi gyvi, o ne surinkti.

Verslui

GPT-4.5 / GPT-5.1 pateikia nušlifuotą, patikimą rezultatą, kuris integruojasi į esamus darbo srautus. Kai nuoseklumas ir prekės ženklo saugumas svarbūs tiek pat, kiek kūrybiškumas.

Atviras Kodas

DeepSeek / Qwen: talpinkite patys, patobulinkite savo sričiai. Kai jums reikia kūrybinio DI dideliu mastu be kainos už žetoną, ekonomika yra nepralenkiama.

Nėra vieno geriausio kūrybinio DI. Yra besivystantys balsai su skirtingomis stiprybėmis, ir tikroji galia slypi žinojime, kuris balsas tarnauja kuriam momentui istorijoje, kurią bandote papasakoti.


Duomenų Šaltinis: Reitingai iš Arena AI Kūrybinio Rašymo Lyderių Lentelės, 2026 m. vasario 6 d.

Discussion

0 comments

Leave a comment

Be the first to share your thoughts on this article!