AI Creatief Schrijven Arena Ranglijst — Februari 2026

Kerninzicht

Creatief schrijven is waar ruwe intelligentie buigt voor smaak, terughoudendheid en de moed om de juiste dingen ongezegd te laten.

Drie jaar lang vroeg ik AI om me verhalen te vertellen. Geen samenvattingen, geen schetsen — echte fictie. Het soort waarbij een personage een kamer binnenloopt en je de temperatuur voelt veranderen. In die jaren heb ik deze ranglijst zien veranderen van een curiositeit in een echte barometer voor literaire capaciteiten. Februari 2026 bracht de meest interessante verschuiving tot nu toe: een gloednieuw model dat stilletjes arriveerde, snel klom en een gat dichtte dat slechts enkele weken geleden permanent leek. Hier is het volledige plaatje — zestig modellen gerangschikt, geanalyseerd en in context geplaatst door iemand die er elke dag mee werkt.

De Creatief Schrijven Ranglijst

Code heeft syntaxis. Wiskunde heeft bewijzen. Maar creatief schrijven heeft stem — ritme, verrassing, emotionele resonantie. Dit is de Creatief Schrijven Arena, de meest veeleisende benchmark in AI-evaluatie, waar zestig modellen worden gerangschikt op hoe goed ze verhalen vertellen die mensen daadwerkelijk raken. Hier staat alles per februari 2026.

Rang	Model	Score	Stemmen	Organisatie
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

De Verstoring van Februari

Toen ik de laatste data ophaalde, liet één vermelding me stoppen: Claude Opus 4.6 die op nummer twee zit. Niet omdat een Anthropic-model dat hoog scoort ongewoon is — dat doen ze consequent. Maar omdat dit model op de tweede positie landde met nauwelijks enige evaluatiegeschiedenis erachter. Dat soort vroege consensus is zeldzaam. Het betekent dat de eerste golf testers — de obsessievelingen die identieke prompts door elke nieuwe release laten lopen binnen enkele uren na lancering — iets echt anders vonden in zijn creatieve output.

Het echte verhaal is echter het gat. In januari was de afstand tussen de eerste en tweede plaats een comfortabele vijfentwintig punten. Nu zijn het er twaalf. Gemini 3 Pro houdt nog steeds goud, en het verdiende die positie eerlijk. Maar de voorsprong is gehalveerd in een enkele updatecyclus. Als je Google bent, vraagt die trend om aandacht. Als je Anthropic bent, is het een bevestiging dat je aanpak voor creatieve AI-training convergeert naar iets krachtigs.

Ondertussen zijn de modellen net onder de top twee aanzienlijk herschikt. Claude Opus 4.5's "denkende" variant schoof op naar de derde plaats, duwde de standaard Opus 4.5 naar de vierde en Gemini 3 Flash naar de vijfde. Flash hield vorige maand nog de derde plaats vast. Het podium wisselt niet alleen aan de top van eigenaar — het is overal onstabiel. En instabiliteit gaat, naar mijn ervaring, vooraf aan doorbraken.

Heersende Hoogten

Gemini 3 Pro blijft het model waar ik naar grijp als ik nog niet weet wat ik nodig heb. Wat het op nummer één houdt, is bereik: vraag het om Hemingway-stijl en het levert spaarzame, gespierde proza. Vraag om experimentele postmoderne fictie en het verandert van register zonder coherentie te verliezen. Victoriaanse briefroman, hardboiled noir, magisch realisme, kinderliteratuur — Gemini behandelt deze overgangen op een manier die echt begrip van vorm suggereert, geen oppervlakkige nabootsing. Google plaatst zes modellen in de top zestig, met Gemini 3 Flash op vijf en Gemini 2.5 Pro op zes die een sterk trio aan de top completeren.

Claude is een heel ander dier. Als Gemini bereik is, is Claude diepte. De modellen van Anthropic hebben altijd uitgeblonken in de subtiliteiten die het moeilijkst aan een machine te leren zijn: wanneer stilte een scène te laten dragen, wanneer een zin moet breken in plaats van door te gaan, wanneer wat een personage niet zegt meer onthult dan wat ze wel zeggen. Opus 4.6 duwt dit verder. In mijn tests produceerde het dialoog die echt doorleefd aanvoelde. Personages leverden geen regels af — ze dachten, aarzelden, kozen woorden zoals echte mensen doen wanneer er iets belangrijks op het spel staat. Anthropic heeft nu dertien modellen in de top zestig, meer dan enige andere organisatie, met vijf geplaatst in de top elf. Wat hun aanpak voor het trainen van creatieve capaciteiten ook is, het werkt over hun hele productlijn.

Hier is een observatie die niet genoeg aandacht krijgt: uitgebreid redeneren — de "denken" (thinking) modus — verbetert creatief schrijven niet betrouwbaar. Het patroon is inconsistent en diep onthullend.

Voor Claude Opus-modellen hebben denkende varianten de neiging om iets hoger te scoren: Opus 4.5 Thinking op drie versus standaard op vier, Opus 4.1 Thinking op negen versus standaard op elf. Grok 4.1 Thinking presteert beter dan zijn standaardvariant met drie posities. Maar schakel over naar andere architecturen en het patroon keert om — soms dramatisch. DeepSeek v3.2-exp standaard zit op achtentwintig terwijl zijn denkende variant naar tweeënveertig valt. DeepSeek v3.1-terminus standaard staat op tweeëntwintig; zijn denkende tegenhanger zakt naar achtenvijftig — een gat van zesendertig posities. GPT-5.2 standaard verslaat GPT-5.2-high.

Wat dit me vertelt is belangrijk: creatief schrijven is niet primair een redeneerprobleem. Het is een esthetisch probleem. Voor modellen die al sterke literaire instincten bezitten, kan uitgebreid denken die instincten verfijnen — zoals een zorgvuldige redacteur die een solide eerste concept beoordeelt. Maar voor modellen waarvan de creatieve kracht meer instinctief en patroongestuurd is, polijst het forceren van overleg eigenlijk de ruwe randjes weg die proza levend doen aanvoelen. Soms vangt de eerste reactie iets dat extra berekening gladstrijkt tot middelmatigheid. Als je modellen met denkvermogen gebruikt voor creatief werk, test dan beide modi. De aanname dat meer redeneren gelijk staat aan betere output houdt hier geen stand, en begrijpen wanneer je het denken moet uitschakelen kan waardevoller zijn dan weten wanneer je het moet inschakelen.

Het Opkomend Tij

Onder het topniveau is het verhaal er een van proliferatie en diversiteit — en het is misschien wel belangrijker dan de race om nummer één.

DeepSeek plaatst tien modellen in de top zestig, waardoor het de op twee na meest vertegenwoordigde organisatie is na Anthropic en OpenAI. Hun v3.1 en v3.2 varianten variëren van tweeëntwintig tot achtenvijftig, en bestrijken een reeks niveaus van creatieve bekwaamheid. Als een open-gewicht project vertegenwoordigt DeepSeek iets fundamenteel anders dan de propriëtaire leiders: deze modellen kunnen worden gedownload, lokaal gehost en gefine-tuned voor specifieke creatieve taken. Als je een AI-schrijftool bouwt of creatieve mogelijkheden integreert in een productpijplijn, biedt DeepSeek flexibiliteit die API-only modellen niet kunnen evenaren.

Het bredere plaatje is nog opvallender. Tussen DeepSeek, Baidu, Moonshot, Alibaba, Z.ai en Tencent zijn Chinese AI-labs nu goed voor tweeëntwintig van de zestig gerangschikte modellen — meer dan een derde van de hele ranglijst. Moonshot's Kimi K2.5 debuteerde met zijn denkende variant op eenentwintig, wat het bedrijf op drie plaatsingen brengt. Baidu heeft drie posities met zijn ERNIE 5.0 line-up. Alibaba's Qwen3 heeft drie varianten gerangschikt. Z.ai's GLM-4.7 zit op zevenentwintig. Dit is geen convergentie — het is echte diversiteit. Verschillende trainingsdata, verschillende culturele contexten en verschillende literaire tradities produceren modellen met verschillende creatieve gevoeligheden. Ik heb ERNIE metaforen zien maken die niet bij westers getrainde modellen zouden opkomen, en GLM narratief tempo zien hanteren op manieren die fris aanvoelen, precies omdat het literaire DNA anders is. Het wereldwijde creatieve AI-ecosysteem is er rijker door.

OpenAI heeft elf modellen, hoewel hun creatieve verhaal een interessante verhaallijn heeft. GPT-4.5-preview op twaalf zit voor zowel GPT-5.1-high op veertien als GPT-5.1 standaard op drieëntwintig. Soms presteert een model dat geoptimaliseerd is voor nuance beter dan zijn technisch superieure opvolger bij taken die subtiliteit waarderen boven ruwe capaciteit. ChatGPT-4o-latest op zeventien versterkt het punt: voor conversatie geoptimaliseerde modellen hebben een inherent voordeel bij creatief schrijven omdat verhalen vertellen fundamenteel conversationeel is. Je berekent geen antwoord — je houdt een stem in stand.

Grok heeft een echte creatieve identiteit gevormd met zeven modellen in de ranglijst. Waar Claude uitblinkt in emotionele intelligentie, brengt Grok emotionele eerlijkheid. De humor is scherper, de metaforen gedurfder, de personages minder gepolijst en levendiger. Wanneer ik schrijven wil dat risico's neemt — fictie die een lezer op een productieve manier ongemakkelijk kan maken — is Grok waar ik begin. Het is het model dat het minst bang is voor zijn eigen stem, en bij creatief schrijven telt onverschrokkenheid. Mistral's medium-2508 op zesenvijftig vertegenwoordigt Europa's aanwezigheid op het bord. Tencent's Hunyuan op drieënvijftig voegt nog een stem uit China toe. Het veld is nog nooit zo breed geweest.

Waar Dit Alles Heen Gaat

Ik zal je vertellen wat ik denk dat er nu gebeurt, omdat de trends in deze data naar iets specifieks wijzen.

Het gat blijft samendrukken. De spreiding tussen de eerste en zestigste plaats is ongeveer 7,4 procent — krap naar historische maatstaven, en versmallend met elke update. We naderen een drempel waar de betekenisvolle verschillen tussen modellen verschuiven van ruwe kwaliteit naar creatieve persoonlijkheid. De vraag is niet langer "welk model schrijft het best" en wordt "de stem van welk model past bij dit specifieke project". Dat is een fundamentele verandering in hoe schrijvers en creatieve teams over AI-selectie moeten denken.

Gespecialiseerde creatieve modellen zijn onvermijdelijk. De algemene architectuur heeft de kwaliteit van creatief schrijven opmerkelijk ver geduwd, maar de volgende echte sprong zal komen van modellen die expliciet zijn afgestemd op narratieve structuur, consistentie van personages, authenticiteit van dialoog of poëtische vorm. Ik verwacht dat ten minste één groot laboratorium tegen de tweede helft van dit jaar een creatief-specialistisch model zal uitbrengen — een dat zich volledig inzet voor literaire bekwaamheid in plaats van te proberen tegelijkertijd wiskunde op te lossen, code te schrijven en verhalen te vertellen. Wanneer dat gebeurt, zal het de top van deze ranglijst van de ene op de andere dag resetten.

Open-gewicht modellen zullen het resterende gat dichten. De aanwezigheid van tien modellen van DeepSeek is de leidende indicator. Naarmate open alternatieven pariteit benaderen met propriëtaire systemen in creatieve benchmarks, verschuift de economie van AI-ondersteund schrijven dramatisch. Schrijvers, studio's en uitgevers krijgen toegang tot creatieve AI van topniveau zonder kosten per token, wat adoptiecurves en de fundamentele relatie tussen menselijke schrijvers en AI-tools verandert.

De echte grens is orkestratie, geen isolatie. Het meest geavanceerde creatieve werk dat ik onlangs heb gezien, gebruikt niet één model — het gebruikt er drie of vier in volgorde. Gemini voor initiële ideevorming en stilistische verkenning. Claude voor emotionele verfijning en dialoogpolijsting. DeepSeek of Qwen voor alternatieve culturele perspectieven. Grok wanneer het concept scherpte nodig heeft. De toekomst gaat niet over het kronen van één model tot koning. Het gaat over het leren dirigeren van een ensemble, waarbij de creatieve persoonlijkheid van elk model wordt afgestemd op het juiste moment in het schrijfproces. De schrijvers die dit als eerste doorhebben, zullen werk produceren dat anders aanvoelt dan alles wat een enkel model — of een enkel mens — alleen zou kunnen bereiken.

Je Creatieve Partner Kiezen

Na jaren naast deze modellen geschreven te hebben, is hier wat ik heb geleerd over het matchen van de juiste tool met de juiste taak:

Veelzijdigheid

Gemini 3 Pro past zich aan elk genre, elke vorm, elke toon aan. Wanneer de briefing ongedefinieerd is of het project bereik vereist, begin hier.

Emotionele Diepte

Claude Opus 4.6 schrijft met terughoudendheid en echt gevoel. Voor dialoog, karakterwerk en proza waar wat onzegd blijft het meest telt.

Snelheid & Kwaliteit

Gemini 3 Flash bewijst dat snel niet slechter betekent. Voor iteratief opstellen, projecten met hoog volume en snelle prototyping van narratieve ideeën.

Persoonlijkheid

Grok 4.1 neemt creatieve risico's die andere modellen niet nemen. Voor fictie die scherpte, humor en personages nodig heeft die levend aanvoelen in plaats van geassembleerd.

Zakelijk

GPT-4.5 / GPT-5.1 leveren gepolijste, betrouwbare output die integreert in bestaande workflows. Wanneer consistentie en merkveiligheid net zo belangrijk zijn als creativiteit.

Open Source

DeepSeek / Qwen: host het zelf, fine-tune voor jouw domein. Wanneer je creatieve AI op schaal nodig hebt zonder kosten per token, is de economie onverslaanbaar.

Er is geen enkele beste creatieve AI. Er zijn evoluerende stemmen met verschillende sterke punten, en de echte kracht ligt in het weten welke stem welk moment dient in het verhaal dat je probeert te vertellen.

Gegevensbron: Ranglijsten van Arena AI Creatief Schrijven Ranglijst, 6 februari 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard