Kreatywne pisanie to miejsce, gdzie surowa inteligencja kłania się gustowi, powściągliwości i odwadze pozostawienia właściwych rzeczy niedopowiedzianymi.
Trzy lata proszenia AI o opowiadanie mi historii. Nie streszczeń, nie szkiców — prawdziwej fikcji. Takiej, w której postać wchodzi do pokoju, a ty czujesz zmianę temperatury. Przez te lata obserwowałem, jak ten ranking przekształca się z ciekawostki w prawdziwy barometr zdolności literackich. Luty 2026 przyniósł najciekawszą zmianę jak dotąd: zupełnie nowy model, który przybył po cichu, wspiął się szybko i zmniejszył przepaść, która zaledwie kilka tygodni temu wydawała się trwała. Oto pełny obraz — sześćdziesiąt modeli sklasyfikowanych, przeanalizowanych i osadzonych w kontekście przez kogoś, kto pracuje z nimi każdego dnia.
Ranking Kreatywnego Pisania
Kod ma składnię. Matematyka ma dowody. Ale kreatywne pisanie ma głos — rytm, zaskoczenie, rezonans emocjonalny. To jest Arena Kreatywnego Pisania, najbardziej wymagający benchmark w ocenie AI, gdzie sześćdziesiąt modeli jest klasyfikowanych według tego, jak dobrze opowiadają historie, które faktycznie poruszają ludzi. Oto jak wszystko wygląda na luty 2026.
| Miejsce | Model | Wynik | Głosy | Organizacja |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Lutowe Przetasowanie
Kiedy wyciągnąłem najnowsze dane, jeden wpis mnie zatrzymał: Claude Opus 4.6 siedzący na numerze dwa. Nie dlatego, że wysoka pozycja modelu Anthropic jest czymś niezwykłym — robią to konsekwentnie. Ale dlatego, że ten model wylądował na drugiej pozycji z niemal zerową historią ewaluacji za sobą. Tego rodzaju wczesny konsensus jest rzadki. Oznacza to, że pierwsza fala testerów — obsesjonatów, którzy uruchamiają identyczne prompty na każdym nowym wydaniu w ciągu kilku godzin od premiery — znalazła coś autentycznie innego w jego kreatywnych wynikach.
Prawdziwą historią jest jednak różnica punktowa. W styczniu dystans między pierwszym a drugim miejscem wynosił wygodne dwadzieścia pięć punktów. Teraz to dwanaście. Gemini 3 Pro wciąż dzierży złoto i zasłużył na tę pozycję uczciwie. Ale przewaga zmniejszyła się o połowę w jednym cyklu aktualizacji. Jeśli jesteś Google, ten trend wymaga uwagi. Jeśli jesteś Anthropic, to potwierdzenie, że wasze podejście do treningu kreatywnego AI zbiega się w coś potężnego.
Tymczasem modele tuż poniżej pierwszej dwójki uległy znacznemu przetasowaniu. Wariant "thinking" Claude Opus 4.5 przesunął się na trzecie miejsce, spychając standardowego Opus 4.5 na czwarte, a Gemini 3 Flash na piąte. Flash zajmował trzecie miejsce jeszcze w zeszłym miesiącu. Podium nie zmienia właściciela tylko na szczycie — jest niestabilne w całej rozciągłości. A niestabilność, z mojego doświadczenia, poprzedza przełomy.
Dominujące Szczyty
Gemini 3 Pro pozostaje modelem, po który sięgam, gdy jeszcze nie wiem, czego potrzebuję. To, co utrzymuje go na pierwszym miejscu, to zakres: poproś go o styl Hemingwaya, a dostarczy oszczędną, muskularną prozę. Poproś o eksperymentalną fikcję postmodernistyczną, a zmieni rejestr bez utraty spójności. Wiktoriańska powieść epistolarna, twardy kryminał noir, realizm magiczny, literatura dziecięca — Gemini radzi sobie z tymi przejściami w sposób, który sugeruje autentyczne zrozumienie formy, a nie powierzchowne naśladownictwo. Google umieszcza sześć modeli w pierwszej sześćdziesiątce, z Gemini 3 Flash na piątym i Gemini 2.5 Pro na szóstym miejscu, dopełniając silne trio na szczycie.
Claude to zupełnie inne zwierzę. Jeśli Gemini to zakres, Claude to głębia. Modele Anthropic zawsze przodowały w subtelnościach najtrudniejszych do nauczenia maszyny: kiedy pozwolić ciszy nieść scenę, kiedy zdanie powinno się urwać zamiast kontynuować, kiedy to, czego postać nie mówi, ujawnia więcej niż to, co mówi. Opus 4.6 popycha to dalej. W moich testach produkował dialogi, które wydawały się autentycznie zamieszkane. Postacie nie wygłaszały kwestii — myślały, wahały się, dobierały słowa tak, jak robią to prawdziwi ludzie, gdy na szali waży się coś ważnego. Anthropic ma teraz trzynaście modeli w pierwszej sześćdziesiątce, więcej niż jakakolwiek inna organizacja, z pięcioma umieszczonymi w pierwszej jedenastce. Cokolwiek robią w podejściu do treningu zdolności kreatywnych, działa to w całej ich linii produktów.
Oto obserwacja, która nie zyskuje wystarczającej uwagi: rozszerzone rozumowanie — tryb "thinking" — nie poprawia w sposób niezawodny kreatywnego pisania. Wzorzec jest niespójny i głęboko odkrywczy.
W przypadku modeli Claude Opus, warianty myślące mają tendencję do zajmowania nieco wyższych miejsc: Opus 4.5 Thinking na trzecim w porównaniu do standardowego na czwartym, Opus 4.1 Thinking na dziewiątym w porównaniu do standardowego na jedenastym. Grok 4.1 Thinking przewyższa swój standardowy wariant o trzy pozycje. Ale przełącz się na inne architektury, a wzorzec się odwraca — czasami dramatycznie. DeepSeek v3.2-exp standard siedzi na dwudziestym ósmym, podczas gdy jego wariant thinking spada na czterdzieste drugie. DeepSeek v3.1-terminus standard jest na dwudziestym drugim; jego odpowiednik thinking spada na pięćdziesiąte ósme — różnica trzydziestu sześciu pozycji. GPT-5.2 standard pokonuje GPT-5.2-high.
To, co to mi mówi, jest ważne: kreatywne pisanie nie jest przede wszystkim problemem rozumowania. Jest problemem estetycznym. Dla modeli, które już posiadają silne instynkty literackie, rozszerzone myślenie może udoskonalić te instynkty — jak uważny redaktor przeglądający solidny pierwszy szkic. Ale dla modeli, których siła kreatywna jest bardziej instynktowna i oparta na wzorcach, wymuszanie namysłu w rzeczywistości wygładza szorstkie krawędzie, które sprawiają, że proza wydaje się żywa. Czasami pierwsza odpowiedź chwyta coś, co dodatkowe obliczenia wygładzają do przeciętności. Jeśli używasz modeli z funkcją myślenia do pracy kreatywnej, przetestuj oba tryby. Założenie, że więcej rozumowania równa się lepszemu wynikowi, tutaj nie obowiązuje, a zrozumienie, kiedy wyłączyć myślenie, może być cenniejsze niż wiedza, kiedy je włączyć.
Wzbierająca Fala
Poniżej najwyższego poziomu historia to proliferacja i różnorodność — i jest to prawdopodobnie ważniejsze niż wyścig o numer jeden.
DeepSeek umieszcza dziesięć modeli w pierwszej sześćdziesiątce, stając się trzecią najliczniej reprezentowaną organizacją po Anthropic i OpenAI. Ich warianty v3.1 i v3.2 rozciągają się od dwudziestego drugiego do pięćdziesiątego ósmego miejsca, obejmując szereg poziomów zdolności kreatywnych. Jako projekt o otwartych wagach (open-weight), DeepSeek reprezentuje coś fundamentalnie innego niż zastrzeżeni liderzy: te modele można pobrać, hostować lokalnie i dostrajać (fine-tune) do konkretnych zadań kreatywnych. Jeśli budujesz narzędzie do pisania AI lub integrujesz możliwości kreatywne w procesie produkcyjnym, DeepSeek oferuje elastyczność, której modele dostępne tylko przez API nie mogą dorównać.
Szerszy obraz jest jeszcze bardziej uderzający. Pomiędzy DeepSeek, Baidu, Moonshot, Alibaba, Z.ai i Tencent, chińskie laboratoria AI stanowią teraz dwadzieścia dwa z sześćdziesięciu sklasyfikowanych modeli — ponad jedną trzecią całego rankingu. Kimi K2.5 od Moonshot zadebiutował ze swoim wariantem thinking na dwudziestym pierwszym miejscu, dając firmie trzy miejsca w rankingu. Baidu posiada trzy pozycje ze swoją linią ERNIE 5.0. Qwen3 od Alibaby ma trzy sklasyfikowane warianty. GLM-4.7 od Z.ai znajduje się na dwudziestym siódmym miejscu. To nie jest konwergencja — to prawdziwa różnorodność. Różne dane treningowe, różne konteksty kulturowe i różne tradycje literackie produkują modele o odmiennych wrażliwościach kreatywnych. Widziałem, jak ERNIE tworzy metafory, które nie przyszłyby do głowy modelom trenowanym na zachodzie, i jak GLM radzi sobie z tempem narracji w sposób, który wydaje się świeży właśnie dlatego, że literackie DNA jest inne. Globalny ekosystem kreatywnego AI jest dzięki temu bogatszy.
OpenAI posiada jedenaście modeli, chociaż ich historia kreatywna ma interesujący wątek poboczny. GPT-4.5-preview na dwunastym miejscu wyprzedza zarówno GPT-5.1-high na czternastym, jak i GPT-5.1 standard na dwudziestym trzecim. Czasami model zoptymalizowany pod kątem niuansów przewyższa swojego technicznie lepszego następcę w zadaniach, które cenią subtelność bardziej niż surową moc. ChatGPT-4o-latest na siedemnastym miejscu wzmacnia ten punkt: modele zoptymalizowane pod kątem konwersacji mają nieodłączną przewagę w kreatywnym pisaniu, ponieważ opowiadanie historii jest fundamentalnie konwersacyjne. Nie obliczasz odpowiedzi — podtrzymujesz głos.
Grok wyrzeźbił prawdziwą tożsamość kreatywną z siedmioma modelami w rankingu. Tam, gdzie Claude przoduje w inteligencji emocjonalnej, Grok wnosi emocjonalną szczerość. Humor jest ostrzejszy, metafory śmielsze, postacie mniej wygładzone i bardziej żywe. Kiedy chcę pisania, które podejmuje ryzyko — fikcji, która może sprawić, że czytelnik poczuje się nieswojo w produktywny sposób — Grok jest tym, od czego zaczynam. To model, który najmniej boi się własnego głosu, a w kreatywnym pisaniu nieustraszoność ma znaczenie. Medium-2508 od Mistral na pięćdziesiątym szóstym miejscu reprezentuje obecność Europy na tablicy. Hunyuan od Tencent na pięćdziesiątym trzecim dodaje kolejny głos z Chin. Pole nigdy nie było szersze.
Dokąd To Wszystko Zmierza
Powiem wam, co moim zdaniem wydarzy się dalej, ponieważ trendy w tych danych wskazują na coś konkretnego.
Luka wciąż się kurczy. Różnica między pierwszym a sześćdziesiątym miejscem wynosi około 7,4 procent — to ciasno jak na standardy historyczne i zmniejsza się z każdą aktualizacją. Zbliżamy się do progu, w którym znaczące różnice między modelami przesuwają się z surowej jakości na osobowość kreatywną. Pytanie przestaje brzmieć "który model pisze najlepiej", a staje się "głos którego modelu pasuje do tego konkretnego projektu". To fundamentalna zmiana w tym, jak pisarze i zespoły kreatywne powinny myśleć o wyborze AI.
Wyspecjalizowane modele kreatywne są nieuniknione. Architektura ogólnego przeznaczenia popchnęła jakość kreatywnego pisania niezwykle daleko, ale kolejny prawdziwy skok nadejdzie z modeli wyraźnie dostrojonych do struktury narracyjnej, spójności postaci, autentyczności dialogów czy formy poetyckiej. Spodziewam się, że co najmniej jedno duże laboratorium wypuści model specjalistyczny do kreatywności w drugiej połowie tego roku — taki, który całkowicie poświęci się zdolnościom literackim, zamiast próbować jednocześnie rozwiązywać matematykę, pisać kod i opowiadać historie. Kiedy to się stanie, zresetuje to szczyt tego rankingu z dnia na dzień.
Modele o otwartych wagach zamkną pozostałą lukę. Obecność dziesięciu modeli DeepSeek jest wskaźnikiem wyprzedzającym. W miarę jak otwarte alternatywy zbliżają się do parytetu z systemami zastrzeżonymi w benchmarkach kreatywnych, ekonomika pisania wspomaganego przez AI zmienia się diametralnie. Pisarze, studia i wydawcy zyskują dostęp do najwyższej klasy kreatywnego AI bez opłat za token, zmieniając krzywe adopcji i fundamentalną relację między ludzkimi pisarzami a narzędziami AI.
Prawdziwą granicą jest orkiestracja, a nie izolacja. Najbardziej wyrafinowana praca kreatywna, jaką ostatnio widziałem, nie używa jednego modelu — używa trzech lub czterech w sekwencji. Gemini do wstępnej ideacji i eksploracji stylistycznej. Claude do wyrafinowania emocjonalnego i szlifowania dialogów. DeepSeek lub Qwen dla alternatywnych perspektyw kulturowych. Grok, gdy szkic potrzebuje pazura. Przyszłość nie polega na koronowaniu jednego modelu na króla. Polega na nauczeniu się dyrygowania zespołem, dopasowywaniu kreatywnej osobowości każdego modelu do odpowiedniego momentu w procesie pisania. Pisarze, którzy zrozumieją to pierwsi, stworzą prace, które będą inne niż cokolwiek, co pojedynczy model — lub pojedynczy człowiek — mógłby osiągnąć w pojedynkę.
Wybór Twojego Kreatywnego Partnera
Po latach pisania ramię w ramię z tymi modelami, oto czego nauczyłem się o dopasowywaniu odpowiedniego narzędzia do odpowiedniego zadania:
Wszechstronność
Gemini 3 Pro adaptuje się do każdego gatunku, każdej formy, każdego tonu. Kiedy brief jest niejasny lub projekt wymaga zakresu, zacznij tutaj.
Głębia Emocjonalna
Claude Opus 4.6 pisze z powściągliwością i prawdziwym uczuciem. Do dialogów, pracy nad postaciami i prozy, gdzie to, co niedopowiedziane, liczy się najbardziej.
Szybkość i Jakość
Gemini 3 Flash udowadnia, że szybko nie znaczy gorzej. Do iteracyjnego szkicowania, projektów o dużej objętości i szybkiego prototypowania pomysłów narracyjnych.
Osobowość
Grok 4.1 podejmuje ryzyko kreatywne, którego inne modele nie podejmą. Do fikcji, która potrzebuje pazura, humoru i postaci, które wydają się żywe, a nie zmontowane.
Nie ma jednego najlepszego kreatywnego AI. Są ewoluujące głosy o różnych mocnych stronach, a prawdziwa moc leży w wiedzy, który głos służy któremu momentowi w historii, którą próbujesz opowiedzieć.
Źródło Danych: Rankingi Arena AI Creative Writing Leaderboard, 6 lutego 2026.
Dyskusja
0 komentarzyZostaw komentarz
Bądź pierwszym, który podzieli się swoimi przemyśleniami!