Creatief schrijven is waar ruwe intelligentie buigt voor smaak, terughoudendheid en de moed om de juiste dingen ongezegd te laten.
Drie jaar lang vroeg ik AI om me verhalen te vertellen. Geen samenvattingen, geen schetsen — echte fictie. Het soort waarbij een personage een kamer binnenloopt en je de temperatuur voelt veranderen. In die jaren heb ik deze ranglijst zien veranderen van een curiositeit in een echte barometer voor literaire capaciteiten. Februari 2026 bracht de meest interessante verschuiving tot nu toe: een gloednieuw model dat stilletjes arriveerde, snel klom en een gat dichtte dat slechts enkele weken geleden permanent leek. Hier is het volledige plaatje — zestig modellen gerangschikt, geanalyseerd en in context geplaatst door iemand die er elke dag mee werkt.
De Creatief Schrijven Ranglijst
Code heeft syntaxis. Wiskunde heeft bewijzen. Maar creatief schrijven heeft stem — ritme, verrassing, emotionele resonantie. Dit is de Creatief Schrijven Arena, de meest veeleisende benchmark in AI-evaluatie, waar zestig modellen worden gerangschikt op hoe goed ze verhalen vertellen die mensen daadwerkelijk raken. Hier staat alles per februari 2026.
| Rang | Model | Score | Stemmen | Organisatie |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
De Verstoring van Februari
Toen ik de laatste data ophaalde, liet één vermelding me stoppen: Claude Opus 4.6 die op nummer twee zit. Niet omdat een Anthropic-model dat hoog scoort ongewoon is — dat doen ze consequent. Maar omdat dit model op de tweede positie landde met nauwelijks enige evaluatiegeschiedenis erachter. Dat soort vroege consensus is zeldzaam. Het betekent dat de eerste golf testers — de obsessievelingen die identieke prompts door elke nieuwe release laten lopen binnen enkele uren na lancering — iets echt anders vonden in zijn creatieve output.
Het echte verhaal is echter het gat. In januari was de afstand tussen de eerste en tweede plaats een comfortabele vijfentwintig punten. Nu zijn het er twaalf. Gemini 3 Pro houdt nog steeds goud, en het verdiende die positie eerlijk. Maar de voorsprong is gehalveerd in een enkele updatecyclus. Als je Google bent, vraagt die trend om aandacht. Als je Anthropic bent, is het een bevestiging dat je aanpak voor creatieve AI-training convergeert naar iets krachtigs.
Ondertussen zijn de modellen net onder de top twee aanzienlijk herschikt. Claude Opus 4.5's "denkende" variant schoof op naar de derde plaats, duwde de standaard Opus 4.5 naar de vierde en Gemini 3 Flash naar de vijfde. Flash hield vorige maand nog de derde plaats vast. Het podium wisselt niet alleen aan de top van eigenaar — het is overal onstabiel. En instabiliteit gaat, naar mijn ervaring, vooraf aan doorbraken.
Heersende Hoogten
Gemini 3 Pro blijft het model waar ik naar grijp als ik nog niet weet wat ik nodig heb. Wat het op nummer één houdt, is bereik: vraag het om Hemingway-stijl en het levert spaarzame, gespierde proza. Vraag om experimentele postmoderne fictie en het verandert van register zonder coherentie te verliezen. Victoriaanse briefroman, hardboiled noir, magisch realisme, kinderliteratuur — Gemini behandelt deze overgangen op een manier die echt begrip van vorm suggereert, geen oppervlakkige nabootsing. Google plaatst zes modellen in de top zestig, met Gemini 3 Flash op vijf en Gemini 2.5 Pro op zes die een sterk trio aan de top completeren.
Claude is een heel ander dier. Als Gemini bereik is, is Claude diepte. De modellen van Anthropic hebben altijd uitgeblonken in de subtiliteiten die het moeilijkst aan een machine te leren zijn: wanneer stilte een scène te laten dragen, wanneer een zin moet breken in plaats van door te gaan, wanneer wat een personage niet zegt meer onthult dan wat ze wel zeggen. Opus 4.6 duwt dit verder. In mijn tests produceerde het dialoog die echt doorleefd aanvoelde. Personages leverden geen regels af — ze dachten, aarzelden, kozen woorden zoals echte mensen doen wanneer er iets belangrijks op het spel staat. Anthropic heeft nu dertien modellen in de top zestig, meer dan enige andere organisatie, met vijf geplaatst in de top elf. Wat hun aanpak voor het trainen van creatieve capaciteiten ook is, het werkt over hun hele productlijn.
Hier is een observatie die niet genoeg aandacht krijgt: uitgebreid redeneren — de "denken" (thinking) modus — verbetert creatief schrijven niet betrouwbaar. Het patroon is inconsistent en diep onthullend.
Voor Claude Opus-modellen hebben denkende varianten de neiging om iets hoger te scoren: Opus 4.5 Thinking op drie versus standaard op vier, Opus 4.1 Thinking op negen versus standaard op elf. Grok 4.1 Thinking presteert beter dan zijn standaardvariant met drie posities. Maar schakel over naar andere architecturen en het patroon keert om — soms dramatisch. DeepSeek v3.2-exp standaard zit op achtentwintig terwijl zijn denkende variant naar tweeënveertig valt. DeepSeek v3.1-terminus standaard staat op tweeëntwintig; zijn denkende tegenhanger zakt naar achtenvijftig — een gat van zesendertig posities. GPT-5.2 standaard verslaat GPT-5.2-high.
Wat dit me vertelt is belangrijk: creatief schrijven is niet primair een redeneerprobleem. Het is een esthetisch probleem. Voor modellen die al sterke literaire instincten bezitten, kan uitgebreid denken die instincten verfijnen — zoals een zorgvuldige redacteur die een solide eerste concept beoordeelt. Maar voor modellen waarvan de creatieve kracht meer instinctief en patroongestuurd is, polijst het forceren van overleg eigenlijk de ruwe randjes weg die proza levend doen aanvoelen. Soms vangt de eerste reactie iets dat extra berekening gladstrijkt tot middelmatigheid. Als je modellen met denkvermogen gebruikt voor creatief werk, test dan beide modi. De aanname dat meer redeneren gelijk staat aan betere output houdt hier geen stand, en begrijpen wanneer je het denken moet uitschakelen kan waardevoller zijn dan weten wanneer je het moet inschakelen.
Het Opkomend Tij
Onder het topniveau is het verhaal er een van proliferatie en diversiteit — en het is misschien wel belangrijker dan de race om nummer één.
DeepSeek plaatst tien modellen in de top zestig, waardoor het de op twee na meest vertegenwoordigde organisatie is na Anthropic en OpenAI. Hun v3.1 en v3.2 varianten variëren van tweeëntwintig tot achtenvijftig, en bestrijken een reeks niveaus van creatieve bekwaamheid. Als een open-gewicht project vertegenwoordigt DeepSeek iets fundamenteel anders dan de propriëtaire leiders: deze modellen kunnen worden gedownload, lokaal gehost en gefine-tuned voor specifieke creatieve taken. Als je een AI-schrijftool bouwt of creatieve mogelijkheden integreert in een productpijplijn, biedt DeepSeek flexibiliteit die API-only modellen niet kunnen evenaren.
Het bredere plaatje is nog opvallender. Tussen DeepSeek, Baidu, Moonshot, Alibaba, Z.ai en Tencent zijn Chinese AI-labs nu goed voor tweeëntwintig van de zestig gerangschikte modellen — meer dan een derde van de hele ranglijst. Moonshot's Kimi K2.5 debuteerde met zijn denkende variant op eenentwintig, wat het bedrijf op drie plaatsingen brengt. Baidu heeft drie posities met zijn ERNIE 5.0 line-up. Alibaba's Qwen3 heeft drie varianten gerangschikt. Z.ai's GLM-4.7 zit op zevenentwintig. Dit is geen convergentie — het is echte diversiteit. Verschillende trainingsdata, verschillende culturele contexten en verschillende literaire tradities produceren modellen met verschillende creatieve gevoeligheden. Ik heb ERNIE metaforen zien maken die niet bij westers getrainde modellen zouden opkomen, en GLM narratief tempo zien hanteren op manieren die fris aanvoelen, precies omdat het literaire DNA anders is. Het wereldwijde creatieve AI-ecosysteem is er rijker door.
OpenAI heeft elf modellen, hoewel hun creatieve verhaal een interessante verhaallijn heeft. GPT-4.5-preview op twaalf zit voor zowel GPT-5.1-high op veertien als GPT-5.1 standaard op drieëntwintig. Soms presteert een model dat geoptimaliseerd is voor nuance beter dan zijn technisch superieure opvolger bij taken die subtiliteit waarderen boven ruwe capaciteit. ChatGPT-4o-latest op zeventien versterkt het punt: voor conversatie geoptimaliseerde modellen hebben een inherent voordeel bij creatief schrijven omdat verhalen vertellen fundamenteel conversationeel is. Je berekent geen antwoord — je houdt een stem in stand.
Grok heeft een echte creatieve identiteit gevormd met zeven modellen in de ranglijst. Waar Claude uitblinkt in emotionele intelligentie, brengt Grok emotionele eerlijkheid. De humor is scherper, de metaforen gedurfder, de personages minder gepolijst en levendiger. Wanneer ik schrijven wil dat risico's neemt — fictie die een lezer op een productieve manier ongemakkelijk kan maken — is Grok waar ik begin. Het is het model dat het minst bang is voor zijn eigen stem, en bij creatief schrijven telt onverschrokkenheid. Mistral's medium-2508 op zesenvijftig vertegenwoordigt Europa's aanwezigheid op het bord. Tencent's Hunyuan op drieënvijftig voegt nog een stem uit China toe. Het veld is nog nooit zo breed geweest.
Waar Dit Alles Heen Gaat
Ik zal je vertellen wat ik denk dat er nu gebeurt, omdat de trends in deze data naar iets specifieks wijzen.
Het gat blijft samendrukken. De spreiding tussen de eerste en zestigste plaats is ongeveer 7,4 procent — krap naar historische maatstaven, en versmallend met elke update. We naderen een drempel waar de betekenisvolle verschillen tussen modellen verschuiven van ruwe kwaliteit naar creatieve persoonlijkheid. De vraag is niet langer "welk model schrijft het best" en wordt "de stem van welk model past bij dit specifieke project". Dat is een fundamentele verandering in hoe schrijvers en creatieve teams over AI-selectie moeten denken.
Gespecialiseerde creatieve modellen zijn onvermijdelijk. De algemene architectuur heeft de kwaliteit van creatief schrijven opmerkelijk ver geduwd, maar de volgende echte sprong zal komen van modellen die expliciet zijn afgestemd op narratieve structuur, consistentie van personages, authenticiteit van dialoog of poëtische vorm. Ik verwacht dat ten minste één groot laboratorium tegen de tweede helft van dit jaar een creatief-specialistisch model zal uitbrengen — een dat zich volledig inzet voor literaire bekwaamheid in plaats van te proberen tegelijkertijd wiskunde op te lossen, code te schrijven en verhalen te vertellen. Wanneer dat gebeurt, zal het de top van deze ranglijst van de ene op de andere dag resetten.
Open-gewicht modellen zullen het resterende gat dichten. De aanwezigheid van tien modellen van DeepSeek is de leidende indicator. Naarmate open alternatieven pariteit benaderen met propriëtaire systemen in creatieve benchmarks, verschuift de economie van AI-ondersteund schrijven dramatisch. Schrijvers, studio's en uitgevers krijgen toegang tot creatieve AI van topniveau zonder kosten per token, wat adoptiecurves en de fundamentele relatie tussen menselijke schrijvers en AI-tools verandert.
De echte grens is orkestratie, geen isolatie. Het meest geavanceerde creatieve werk dat ik onlangs heb gezien, gebruikt niet één model — het gebruikt er drie of vier in volgorde. Gemini voor initiële ideevorming en stilistische verkenning. Claude voor emotionele verfijning en dialoogpolijsting. DeepSeek of Qwen voor alternatieve culturele perspectieven. Grok wanneer het concept scherpte nodig heeft. De toekomst gaat niet over het kronen van één model tot koning. Het gaat over het leren dirigeren van een ensemble, waarbij de creatieve persoonlijkheid van elk model wordt afgestemd op het juiste moment in het schrijfproces. De schrijvers die dit als eerste doorhebben, zullen werk produceren dat anders aanvoelt dan alles wat een enkel model — of een enkel mens — alleen zou kunnen bereiken.
Je Creatieve Partner Kiezen
Na jaren naast deze modellen geschreven te hebben, is hier wat ik heb geleerd over het matchen van de juiste tool met de juiste taak:
Veelzijdigheid
Gemini 3 Pro past zich aan elk genre, elke vorm, elke toon aan. Wanneer de briefing ongedefinieerd is of het project bereik vereist, begin hier.
Emotionele Diepte
Claude Opus 4.6 schrijft met terughoudendheid en echt gevoel. Voor dialoog, karakterwerk en proza waar wat onzegd blijft het meest telt.
Snelheid & Kwaliteit
Gemini 3 Flash bewijst dat snel niet slechter betekent. Voor iteratief opstellen, projecten met hoog volume en snelle prototyping van narratieve ideeën.
Persoonlijkheid
Grok 4.1 neemt creatieve risico's die andere modellen niet nemen. Voor fictie die scherpte, humor en personages nodig heeft die levend aanvoelen in plaats van geassembleerd.
Er is geen enkele beste creatieve AI. Er zijn evoluerende stemmen met verschillende sterke punten, en de echte kracht ligt in het weten welke stem welk moment dient in het verhaal dat je probeert te vertellen.
Gegevensbron: Ranglijsten van Arena AI Creatief Schrijven Ranglijst, 6 februari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!