Kreativ skrivning er der, hvor rå intelligens bøjer sig for smag, tilbageholdenhed og modet til at lade de rigtige ting være usagte.
Tre år med at bede AI om at fortælle mig historier. Ikke resuméer, ikke skitser — men rigtig fiktion. Den slags, hvor en karakter træder ind i et rum, og du mærker temperaturen ændre sig. Gennem disse år har jeg set denne rangliste forvandle sig fra en kuriositet til et ægte barometer for litterær evne. Februar 2026 bragte det hidtil mest interessante skift: en helt ny model, der ankom stille, klatrede hurtigt og indsnævrede en kløft, der virkede permanent for bare uger siden. Her er det fulde billede — tres modeller rangeret, analyseret og sat i kontekst af en, der arbejder med dem hver dag.
Ranglisten for Kreativ Skrivning
Kode har syntaks. Matematik har beviser. Men kreativ skrivning har stemme — rytme, overraskelse, følelsesmæssig resonans. Dette er Creative Writing Arena, det mest krævende benchmark inden for AI-evaluering, hvor tres modeller rangeres efter, hvor godt de fortæller historier, der faktisk rører folk. Her er, hvordan alt står i februar 2026.
| Rang | Model | Score | Stemmer | Organisation |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Februar-forstyrrelsen
Da jeg hentede de seneste data, stoppede en post mig: Claude Opus 4.6 sidder på nummer to. Ikke fordi en Anthropic-model rangerer højt er usædvanligt — det har de gjort konsekvent. Men fordi denne model landede på andenpladsen med knap nogen evalueringshistorik bag sig. Den slags tidlig konsensus er sjælden. Det betyder, at den første bølge af testere — de besatte, der kører identiske prompts gennem hver ny udgivelse inden for timer efter lanceringen — fandt noget ægte anderledes i dens kreative output.
Den virkelige historie er dog kløften. I januar var afstanden mellem første- og andenpladsen komfortable femogtyve point. Nu er den tolv. Gemini 3 Pro har stadig guld, og den har fortjent den position ærligt. Men forspringet er halveret i en enkelt opdateringscyklus. Hvis du er Google, kræver den tendens opmærksomhed. Hvis du er Anthropic, er det en bekræftelse på, at din tilgang til kreativ AI-træning konvergerer mod noget kraftfuldt.
I mellemtiden er modellerne lige under de to øverste blevet betydeligt blandet. Claude Opus 4.5's "tænkende" variant rykkede op på tredjepladsen og skubbede standard Opus 4.5 ned på fjerdepladsen og Gemini 3 Flash ned på femtepladsen. Flash holdt tredjepladsen så sent som i sidste måned. Podiet skifter ikke kun hænder på toppen — det er ustabilt overalt. Og ustabilitet, er min erfaring, går forud for gennembrud.
Dominerende Højder
Gemini 3 Pro forbliver den model, jeg rækker efter, når jeg ikke ved, hvad jeg har brug for endnu. Det, der holder den på nummer et, er rækkevidde: bed den om Hemingway-stil, og den leverer sparsom, muskuløs prosa. Bed om eksperimentel postmoderne fiktion, og den skifter register uden at miste sammenhæng. Victoriansk brevroman, hårdkogt noir, magisk realisme, børnelitteratur — Gemini håndterer disse overgange på en måde, der antyder en ægte forståelse af form, ikke overfladisk efterligning. Google placerer seks modeller i top tres, med Gemini 3 Flash på femtepladsen og Gemini 2.5 Pro på sjettepladsen, der udfylder en stærk trio i toppen.
Claude er et helt andet dyr. Hvis Gemini er rækkevidde, er Claude dybde. Anthropics modeller har altid udmærket sig ved de finesser, der er sværest at lære en maskine: hvornår man skal lade stilhed bære en scene, hvornår en sætning skal brydes i stedet for at fortsætte, hvornår det, en karakter ikke siger, afslører mere end det, de siger. Opus 4.6 skubber dette videre. I mine tests producerede den dialog, der føltes ægte beboet. Karakterer leverede ikke replikker — de tænkte, tøvede, valgte ord, som rigtige mennesker gør, når noget vigtigt er på spil. Anthropic har nu tretten modeller i top tres, flere end nogen anden organisation, med fem placeret i top elleve. Uanset hvad deres tilgang til træning af kreativ evne er, virker det på tværs af hele deres produktlinje.
Her er en observation, der ikke får nok opmærksomhed: udvidet ræsonnement — "tænkning" (thinking) tilstanden — forbedrer ikke pålideligt kreativ skrivning. Mønstret er inkonsekvent og dybt afslørende.
For Claude Opus-modeller har tænkende varianter tendens til at rangere lidt højere: Opus 4.5 Thinking på tredjepladsen mod standard på fjerdepladsen, Opus 4.1 Thinking på niendepladsen mod standard på ellevtepladsen. Grok 4.1 Thinking overgår sin standardvariant med tre positioner. Men skift til andre arkitekturer, og mønstret vender — nogle gange dramatisk. DeepSeek v3.2-exp standard sidder på otteogtyvendepladsen, mens dens tænkende variant falder til toogfyrretyvende. DeepSeek v3.1-terminus standard er på toogtyvendepladsen; dens tænkende modpart falder til otteoghalvtredsindstyvende — et gap på seksogtredive positioner. GPT-5.2 standard slår GPT-5.2-high.
Hvad dette fortæller mig er vigtigt: kreativ skrivning er ikke primært et ræsonnementsproblem. Det er et æstetisk problem. For modeller, der allerede besidder stærke litterære instinkter, kan udvidet tænkning forfine disse instinkter — som en omhyggelig redaktør, der gennemgår et solidt første udkast. Men for modeller, hvor den kreative styrke er mere instinktiv og mønsterdrevet, polerer tvungen overvejelse faktisk de ru kanter væk, der får prosa til at føles levende. Nogle gange fanger det første svar noget, som yderligere beregning udjævner til middelmådighed. Hvis du bruger modeller med tænkeevne til kreativt arbejde, så test begge tilstande. Antagelsen om, at mere ræsonnement er lig med bedre output, holder ikke her, og forståelse af, hvornår man skal slukke for tænkning, kan være mere værdifuldt end at vide, hvornår man skal tænde for det.
Det Stigende Tidevand
Under det øverste niveau er historien om spredning og mangfoldighed — og det er velsagtens vigtigere end kapløbet om førstepladsen.
DeepSeek placerer ti modeller i top tres, hvilket gør det til den tredje mest repræsenterede organisation efter Anthropic og OpenAI. Deres v3.1 og v3.2 varianter spænder fra toogtyve til otteoghalvtreds og dækker en række niveauer af kreativ evne. Som et projekt med åben vægt (open-weight) repræsenterer DeepSeek noget fundamentalt anderledes end de proprietære ledere: disse modeller kan downloades, hostes lokalt og finjusteres (fine-tuned) til specifikke kreative opgaver. Hvis du bygger et AI-skriveværktøj eller integrerer kreative evner i en produktpipeline, tilbyder DeepSeek fleksibilitet, som modeller kun med API ikke kan matche.
Det bredere billede er endnu mere slående. Mellem DeepSeek, Baidu, Moonshot, Alibaba, Z.ai og Tencent tegner kinesiske AI-laboratorier sig nu for toogtyve ud af tres rangerede modeller — over en tredjedel af hele ranglisten. Moonshot's Kimi K2.5 debuterede med sin tænkende variant på enogtyvendepladsen og bragte virksomheden op på tre placeringer. Baidu har tre positioner med sin ERNIE 5.0-linje. Alibaba's Qwen3 har tre varianter rangeret. Z.ai's GLM-4.7 sidder på syvogtyvendepladsen. Dette er ikke konvergens — det er ægte mangfoldighed. Forskellige træningsdata, forskellige kulturelle kontekster og forskellige litterære traditioner producerer modeller med forskellige kreative sensibiliteter. Jeg har set ERNIE skabe metaforer, der ikke ville falde vestligt trænede modeller ind, og GLM håndtere narrativt tempo på måder, der føles friske netop fordi det litterære DNA er anderledes. Det globale kreative AI-økosystem er rigere for det.
OpenAI har elleve modeller, selvom deres kreative historie har et interessant sideplot. GPT-4.5-preview på tolvtepladsen ligger foran både GPT-5.1-high på fjortendepladsen og GPT-5.1 standard på treogtyvendepladsen. Nogle gange overgår en model optimeret til nuancer sin teknisk overlegne efterfølger på opgaver, der værdsætter subtilitet over rå evne. ChatGPT-4o-latest på syttendepladsen forstærker pointen: modeller optimeret til samtale har en iboende fordel i kreativ skrivning, fordi historiefortælling fundamentalt set er konversationel. Du beregner ikke et svar — du opretholder en stemme.
Grok har skabt en ægte kreativ identitet med syv modeller rangeret. Hvor Claude udmærker sig ved emotionel intelligens, bringer Grok emotionel ærlighed. Humoren er skarpere, metaforerne dristigere, karaktererne mindre polerede og mere levende. Når jeg vil have skrivning, der tager risici — fiktion, der måske kan gøre en læser utilpas på en produktiv måde — er Grok der, hvor jeg starter. Det er modellen, der er mindst bange for sin egen stemme, og i kreativ skrivning tæller frygtløshed. Mistral's medium-2508 på seksoghalvtredsindstyvendepladsen repræsenterer Europas tilstedeværelse på tavlen. Tencent's Hunyuan på treoghalvtredsindstyvendepladsen tilføjer endnu en stemme fra Kina. Feltet har aldrig været bredere.
Hvor Alt Dette Fører Hen
Jeg vil fortælle dig, hvad jeg tror der sker næste gang, fordi tendenserne i disse data peger et bestemt sted hen.
Kløften fortsætter med at blive komprimeret. Spredningen mellem første og tresindstyvende plads er omkring 7,4 procent — tæt efter historiske standarder, og indsnævres med hver opdatering. Vi nærmer os en tærskel, hvor de meningsfulde forskelle mellem modeller skifter fra rå kvalitet til kreativ personlighed. Spørgsmålet holder op med at være "hvilken model skriver bedst" og bliver "hvilken models stemme passer til dette specifikke projekt". Det er en fundamental ændring i, hvordan forfattere og kreative teams bør tænke om AI-valg.
Specialiserede kreative modeller er uundgåelige. Generelle formålsarkitekturer har skubbet kvaliteten af kreativ skrivning bemærkelsesværdigt langt, men det næste rigtige spring vil komme fra modeller, der er eksplicit indstillet til narrativ struktur, karakterkonsistens, dialogautenticitet eller poetisk form. Jeg forventer, at mindst et stort laboratorium sender en kreativ-specialistmodel inden andet halvår i år — en der forpligter sig helt til litterær evne i stedet for at forsøge at løse matematik, skrive kode og fortælle historier samtidigt. Når det sker, vil det nulstille toppen af denne rangliste over natten.
Modeller med åben vægt vil lukke den resterende kløft. DeepSeeks tilstedeværelse med ti modeller er den førende indikator. Efterhånden som åbne alternativer nærmer sig paritet med proprietære systemer i kreative benchmarks, ændres økonomien ved AI-assisteret skrivning dramatisk. Forfattere, studier og udgivere får adgang til kreativ AI i topklasse uden pris pr. token, hvilket ændrer adoptionskurver og det grundlæggende forhold mellem menneskelige forfattere og AI-værktøjer.
Den virkelige grænse er orkestrering, ikke isolation. Det mest sofistikerede kreative arbejde, jeg har set for nylig, bruger ikke en enkelt model — det bruger tre eller fire i rækkefølge. Gemini til indledende idégenerering og stilistisk udforskning. Claude til emotionel forfining og dialogpolering. DeepSeek eller Qwen til alternative kulturelle perspektiver. Grok når udkastet har brug for kant. Fremtiden handler ikke om at krone én model som konge. Det handler om at lære at dirigere et ensemble, matche hver models kreative personlighed til det rette øjeblik i skriveprocessen. De forfattere, der finder ud af dette først, vil producere arbejde, der føles anderledes end noget, en enkelt model — eller et enkelt menneske — kunne opnå alene.
Valg af Din Kreative Partner
Efter år med at skrive sammen med disse modeller, er her hvad jeg har lært om at matche det rigtige værktøj til den rigtige opgave:
Alsidighed
Gemini 3 Pro tilpasser sig enhver genre, enhver form, enhver tone. Når briefingen er udefineret eller projektet kræver rækkevidde, start her.
Følelsesmæssig Dybde
Claude Opus 4.6 skriver med tilbageholdenhed og ægte følelse. Til dialog, karakterarbejde og prosa, hvor det, der er usagt, betyder mest.
Hastighed & Kvalitet
Gemini 3 Flash beviser, at hurtig ikke betyder værre. Til iterativ udkastning, højvolumenprojekter og hurtig prototyping af narrative ideer.
Personlighed
Grok 4.1 tager kreative risici, som andre modeller ikke vil. Til fiktion, der har brug for kant, humor og karakterer, der føles levende frem for samlede.
Der er ingen enkelt bedste kreativ AI. Der er udviklende stemmer med forskellige styrker, og den virkelige magt ligger i at vide, hvilken stemme der tjener hvilket øjeblik i den historie, du forsøger at fortælle.
Datakilde: Ranglister fra Arena AI Kreativ Skrivning Rangliste, 6. februar 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!