DI Kūrybinio Rašymo Arenos Lyderių Lentelė — 2026 m. Vasaris

Pagrindinė Įžvalga

Kūrybinis rašymas yra ten, kur grynas intelektas nusilenkia skoniui, santūrumui ir drąsai palikti teisingus dalykus nepasakytus.

Trejus metus prašiau DI papasakoti man istorijas. Ne santraukas, ne metmenis – o tikrą grožinę literatūrą. Tą rūšį, kai personažas įeina į kambarį ir jauti, kaip pasikeičia temperatūra. Per tuos metus stebėjau, kaip ši lyderių lentelė iš įdomybės virto tikru literatūrinių gebėjimų barometru. 2026 m. vasaris atnešė patį įdomiausią pokytį iki šiol: visiškai naują modelį, kuris atvyko tyliai, greitai pakilo ir sumažino atotrūkį, kuris dar prieš kelias savaites atrodė nuolatinis. Štai visas vaizdas – šešiasdešimt modelių, reitinguotų, išanalizuotų ir įdėtų į kontekstą žmogaus, kuris su jais dirba kiekvieną dieną.

Kūrybinio Rašymo Lyderių Lentelė

Kodas turi sintaksę. Matematika turi įrodymus. Tačiau kūrybinis rašymas turi balsą – ritmą, staigmeną, emocinį rezonansą. Tai yra Kūrybinio Rašymo Arena, reikliausias etalonas DI vertinime, kur šešiasdešimt modelių reitinguojami pagal tai, kaip gerai jie pasakoja istorijas, kurios iš tikrųjų jaudina žmones. Štai kaip viskas atrodo 2026 m. vasarį.

Vieta	Modelis	Balas	Balsai	Organizacija
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Vasario Permainos

Kai ištraukiau naujausius duomenis, vienas įrašas mane sustabdė: Claude Opus 4.6 sėdintis antroje vietoje. Ne todėl, kad aukštas Anthropic modelio reitingas būtų neįprastas – jie tai daro nuosekliai. Bet todėl, kad šis modelis nusileido antroje pozicijoje, turėdamas vos kokią nors vertinimo istoriją už savęs. Toks ankstyvas sutarimas yra retas. Tai reiškia, kad pirmoji bandytojų banga – tie apsėstieji, kurie paleidžia identiškus nurodymus per kiekvieną naują versiją per kelias valandas nuo išleidimo – rado kažką tikrai skirtingo jo kūrybiniame rezultate.

Tačiau tikroji istorija yra atotrūkis. Sausį atstumas tarp pirmosios ir antrosios vietos buvo patogūs dvidešimt penki taškai. Dabar tai dvylika. Gemini 3 Pro vis dar laiko auksą ir šią poziciją užsitarnavo sąžiningai. Tačiau persvara sumažėjo perpus per vieną atnaujinimo ciklą. Jei esate Google, ši tendencija reikalauja dėmesio. Jei esate Anthropic, tai patvirtinimas, kad jūsų požiūris į kūrybinio DI mokymą artėja prie kažko galingo.

Tuo tarpu modeliai tiesiai po pirmaisiais dviem smarkiai persimaišė. Claude Opus 4.5 "mąstantis" variantas pakilo į trečią vietą, nustumdamas standartinį Opus 4.5 į ketvirtą, o Gemini 3 Flash į penktą. Flash užėmė trečią vietą dar praėjusį mėnesį. Pakyla ne tik keičia savininkus viršūnėje – ji nestabili visur. O nestabilumas, mano patirtimi, eina prieš proveržius.

Dominuojančios Aukštumos

Gemini 3 Pro išlieka modeliu, kurio siekiu, kai dar nežinau, ko man reikia. Tai, kas jį išlaiko pirmoje vietoje, yra diapazonas: paprašykite jo Hemingvėjaus stiliaus ir jis pateikia taupią, raumeningą prozą. Paprašykite eksperimentinės postmodernistinės fantastikos ir jis pakeičia registrą neprarasdamas darnos. Viktorijos laikų epistolinis romanas, kietas noir, magiškasis realizmas, vaikų literatūra – Gemini tvarko šiuos perėjimus taip, kad tai rodo tikrą formos supratimą, o ne paviršutinišką mėgdžiojimą. Google įdeda šešis modelius į geriausių šešiasdešimtuką, su Gemini 3 Flash penktoje ir Gemini 2.5 Pro šeštoje vietoje, užpildydami stiprų trio viršuje.

Claude yra visiškai kitoks gyvūnas. Jei Gemini yra diapazonas, Claude yra gylis. Anthropic modeliai visada pasižymėjo subtilybėmis, kurias sunkiausia išmokyti mašiną: kada leisti tylai nešti sceną, kada sakinys turėtų nutrūkti, o ne tęstis, kada tai, ko personažas nepasako, atskleidžia daugiau nei tai, ką jis pasako. Opus 4.6 tai stumia dar toliau. Mano bandymuose jis sukūrė dialogą, kuris atrodė tikrai gyvenimiškas. Personažai nesakė eilučių – jie galvojo, dvejojo, rinko žodžius taip, kaip tai daro tikri žmonės, kai ant kortos pastatyta kažkas svarbaus. Anthropic dabar turi trylika modelių geriausių šešiasdešimtuke, daugiau nei bet kuri kita organizacija, penki iš jų yra geriausiųjų vienuoliktuke. Kad ir koks būtų jų požiūris į kūrybinių gebėjimų lavinimą, jis veikia visoje jų produktų linijoje.

Štai pastebėjimas, kuriam skiriama nepakankamai dėmesio: išplėstas samprotavimas – "thinking" režimas – nepatikimai pagerina kūrybinį rašymą. Modelis yra nenuoseklus ir giliai atskleidžiantis.

Claude Opus modelių atveju mąstantys variantai paprastai reitinguojami šiek tiek aukščiau: Opus 4.5 Thinking trečioje vietoje prieš standartinį ketvirtoje, Opus 4.1 Thinking devintoje prieš standartinį vienuoliktoje. Grok 4.1 Thinking lenkia savo standartinį variantą trimis pozicijomis. Tačiau pereikite prie kitų architektūrų ir modelis apsiverčia – kartais dramatiškai. DeepSeek v3.2-exp standartinis sėdi dvidešimt aštuntoje vietoje, o jo mąstantis variantas nukrenta į keturiasdešimt antrą. DeepSeek v3.1-terminus standartinis yra dvidešimt antroje; jo mąstantis atitikmuo nukrenta į penkiasdešimt aštuntą – trisdešimt šešių pozicijų atotrūkis. GPT-5.2 standartinis įveikia GPT-5.2-high.

Ką tai man sako, yra svarbu: kūrybinis rašymas nėra pirmiausia samprotavimo problema. Tai estetinė problema. Modeliams, kurie jau turi stiprius literatūrinius instinktus, išplėstas mąstymas gali patobulinti tuos instinktus – kaip kruopštus redaktorius, peržiūrintis solidų pirmąjį juodraštį. Tačiau modeliams, kurių kūrybinė jėga yra labiau instinktyvi ir paremta modeliais, priverstinis svarstymas iš tikrųjų nušlifuoja šiurkščius kraštus, dėl kurių proza atrodo gyva. Kartais pirmasis atsakymas užfiksuoja kažką, ką papildomas skaičiavimas išlygina į vidutinybę. Jei kūrybiniam darbui naudojate modelius, gebančius mąstyti, išbandykite abu režimus. Prielaida, kad daugiau samprotavimo lygų geresniam rezultatui, čia negalioja, ir supratimas, kada išjungti mąstymą, gali būti vertingesnis nei žinojimas, kada jį įjungti.

Kylanti Banga

Žemiau aukščiausio lygio istorija yra platinimas ir įvairovė – ir tai, ko gero, svarbiau nei lenktynės dėl pirmosios vietos.

DeepSeek įdeda dešimt modelių į geriausių šešiasdešimtuką, tapdama trečia labiausiai atstovaujama organizacija po Anthropic ir OpenAI. Jų v3.1 ir v3.2 variantai apima nuo dvidešimt antros iki penkiasdešimt aštuntos vietos, apimdami įvairius kūrybinių gebėjimų lygius. Kaip atviro svorio projektas, DeepSeek atstovauja kažką iš esmės skirtingo nuo nuosavybinių lyderių: šiuos modelius galima atsisiųsti, talpinti lokaliai ir patobulinti (fine-tuned) konkrečioms kūrybinėms užduotims. Jei kuriate DI rašymo įrankį arba integruojate kūrybines galimybes į produkto vamzdyną, DeepSeek siūlo lankstumą, kuriam negali prilygti tik API modeliai.

Platesnis vaizdas dar labiau stulbinantis. Tarp DeepSeek, Baidu, Moonshot, Alibaba, Z.ai ir Tencent, Kinijos DI laboratorijos dabar sudaro dvidešimt du iš šešiasdešimties reitinguotų modelių – daugiau nei trečdalį visos lyderių lentelės. Moonshot's Kimi K2.5 debiutavo su savo mąstančiu variantu dvidešimt pirmoje vietoje, pakeldama įmonę į tris vietas. Baidu užima tris pozicijas su savo ERNIE 5.0 linija. Alibaba's Qwen3 turi tris reitinguotus variantus. Z.ai's GLM-4.7 sėdi dvidešimt septintoje vietoje. Tai nėra konvergencija – tai tikra įvairovė. Skirtingi mokymo duomenys, skirtingi kultūriniai kontekstai ir skirtingos literatūrinės tradicijos kuria modelius su skirtingais kūrybiniais jautrumais. Mačiau ERNIE kuriantį metaforas, kurios neateitų į galvą vakaruose apmokytiems modeliams, ir GLM valantį naratyvinį tempą būdais, kurie atrodo švieži būtent todėl, kad literatūrinis DNR yra kitoks. Pasaulinė kūrybinio DI ekosistema dėl to turtingesnė.

OpenAI turi vienuolika modelių, nors jų kūrybinė istorija turi įdomų šalutinį siužetą. GPT-4.5-preview dvyliktoje vietoje lenkia tiek GPT-5.1-high keturioliktoje, tiek GPT-5.1 standartinį dvidešimt trečioje. Kartais niuansams optimizuotas modelis pranoksta savo techniškai pranašesnį įpėdinį užduotyse, kurios vertina subtilumą labiau nei gryną gebėjimą. ChatGPT-4o-latest septynioliktoje vietoje sustiprina šį tašką: pokalbiams optimizuoti modeliai turi įgimtą pranašumą kūrybiniame rašyme, nes pasakojimas iš esmės yra pokalbis. Jūs neskaičiuojate atsakymo – jūs palaikote balsą.

Grok išraižė tikrą kūrybinę tapatybę su septyniais modeliais reitinge. Ten, kur Claude pasižymi emociniu intelektu, Grok atneša emocinį sąžiningumą. Humoras aštresnis, metaforos drąsesnės, personažai mažiau nugludinti ir gyvesni. Kai noriu rašymo, kuris rizikuoja – fantastikos, kuri gali priversti skaitytoją jaustis nepatogiai produktyviu būdu – Grok yra ten, kur pradedu. Tai modelis, kuris mažiausiai bijo savo balso, o kūrybiniame rašyme bebaimiškumas yra svarbus. Mistral's medium-2508 penkiasdešimt šeštoje vietoje atstovauja Europos buvimą lentoje. Tencent's Hunyuan penkiasdešimt trečioje prideda dar vieną balsą iš Kinijos. Laukas niekada nebuvo platesnis.

Kur Visa Tai Veda

Pasakysiu, kas, mano manymu, nutiks toliau, nes tendencijos šiuose duomenyse rodo į konkrečią vietą.

Atotrūkis toliau mažėja. Skirtumas tarp pirmosios ir šešiasdešimtosios vietos yra maždaug 7,4 procento – tai nedaug pagal istorinius standartus, ir mažėja su kiekvienu atnaujinimu. Artėjame prie slenksčio, kai reikšmingi skirtumai tarp modelių pereina nuo grynos kokybės prie kūrybinės asmenybės. Klausimas nustoja būti "kuris modelis rašo geriausiai" ir tampa "kurio modelio balsas tinka šiam konkrečiam projektui". Tai esminis pokytis tame, kaip rašytojai ir kūrybinės komandos turėtų galvoti apie DI pasirinkimą.

Specializuoti kūrybiniai modeliai yra neišvengiami. Bendrosios paskirties architektūra pastebimai toli pastūmėjo kūrybinio rašymo kokybę, bet kitas tikras šuolis ateis iš modelių, aiškiai suderintų naratyvinei struktūrai, personažų nuoseklumui, dialogo autentiškumui ar poetinei formai. Tikiuosi, kad bent viena didelė laboratorija išleis kūrybinį-specialistinį modelį iki šių metų antrosios pusės – tokį, kuris visiškai įsipareigoja literatūriniams gebėjimams, užuot bandęs spręsti matematiką, rašyti kodą ir pasakoti istorijas vienu metu. Kai tai įvyks, tai per naktį iš naujo nustatys šios lyderių lentelės viršūnę.

Atviro svorio modeliai uždarys likusį atotrūkį. DeepSeek dešimties modelių buvimas yra pagrindinis rodiklis. Kai atviros alternatyvos priartėja prie pariteto su nuosavybinėmis sistemomis kūrybiniuose etalonuose, DI padedamo rašymo ekonomika dramatiškai pasikeičia. Rašytojai, studijos ir leidėjai gauna prieigą prie aukščiausios klasės kūrybinio DI be kainodaros už žetoną, keičiant priėmimo kreives ir esminį santykį tarp žmonių rašytojų ir DI įrankių.

Tikroji riba yra orkestravimas, ne izoliacija. Patys sudėtingiausi kūrybiniai darbai, kuriuos neseniai mačiau, nenaudoja vieno modelio – jie naudoja tris ar keturis iš eilės. Gemini pradinei idėjai ir stilistiniam tyrinėjimui. Claude emociniam tobulinimui ir dialogo šlifavimui. DeepSeek ar Qwen alternatyvioms kultūrinėms perspektyvoms. Grok, kai juodraščiui reikia aštrumo. Ateitis nėra apie vieno modelio karūnavimą karaliumi. Tai apie mokymąsi diriguoti ansambliui, priderinant kiekvieno modelio kūrybinę asmenybę prie tinkamo momento rašymo procese. Rašytojai, kurie tai supras pirmieji, sukurs darbus, kurie atrodys kitaip nei bet kas, ką vienas modelis – ar vienas žmogus – galėtų pasiekti vienas.

Savo Kūrybinio Partnerio Pasirinkimas

Po daugelio metų rašymo kartu su šiais modeliais, štai ką sužinojau apie tinkamo įrankio priderinimą prie tinkamos užduoties:

Universalumas

Gemini 3 Pro prisitaiko prie bet kokio žanro, bet kokios formos, bet kokio tono. Kai užduotis neapibrėžta arba projektas reikalauja diapazono, pradėkite čia.

Emocinis Gylis

Claude Opus 4.6 rašo su santūrumu ir tikru jausmu. Dialogams, darbui su personažais ir prozai, kur tai, kas nepasakyta, svarbiausia.

Greitis ir Kokybė

Gemini 3 Flash įrodo, kad greitas nereiškia blogesnis. Iteraciniam juodraščių rengimui, didelės apimties projektams ir greitam naratyvinių idėjų prototipų kūrimui.

Asmenybė

Grok 4.1 prisiima kūrybines rizikas, kurių kiti modeliai nesiims. Fantastikai, kuriai reikia aštrumo, humoro ir personažų, kurie jaučiasi gyvi, o ne surinkti.

Verslui

GPT-4.5 / GPT-5.1 pateikia nušlifuotą, patikimą rezultatą, kuris integruojasi į esamus darbo srautus. Kai nuoseklumas ir prekės ženklo saugumas svarbūs tiek pat, kiek kūrybiškumas.

Atviras Kodas

DeepSeek / Qwen: talpinkite patys, patobulinkite savo sričiai. Kai jums reikia kūrybinio DI dideliu mastu be kainos už žetoną, ekonomika yra nepralenkiama.

Nėra vieno geriausio kūrybinio DI. Yra besivystantys balsai su skirtingomis stiprybėmis, ir tikroji galia slypi žinojime, kuris balsas tarnauja kuriam momentui istorijoje, kurią bandote papasakoti.

Duomenų Šaltinis: Reitingai iš Arena AI Kūrybinio Rašymo Lyderių Lentelės, 2026 m. vasario 6 d.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard