Kreativt skrivande är där rå intelligens bugar sig för smak, återhållsamhet och modet att lämna de rätta sakerna osagda.
Tre år av att be AI berätta historier för mig. Inte sammanfattningar, inte dispositioner – utan riktig fiktion. Den sorten där en karaktär går in i ett rum och du känner temperaturen förändras. Under dessa år har jag sett denna topplista förvandlas från en kuriositet till en genuin barometer för litterär förmåga. Februari 2026 medförde den mest intressanta förändringen hittills: en helt ny modell som anlände tyst, klättrade snabbt och minskade ett gap som verkade permanent för bara några veckor sedan. Här är hela bilden – sextio modeller rankade, analyserade och satta i sitt sammanhang av någon som arbetar med dem varje dag.
Topplistan för Kreativt Skrivande
Kod har syntax. Matematik har bevis. Men kreativt skrivande har röst – rytm, överraskning, emotionell resonans. Detta är Creative Writing Arena, det mest krävande riktmärket inom AI-utvärdering, där sextio modeller rankas efter hur väl de berättar historier som faktiskt berör människor. Här är hur allt ligger till i februari 2026.
| Plats | Modell | Poäng | Röster | Organisation |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Februari-omvälvningen
När jag hämtade de senaste uppgifterna fick en post mig att stanna upp: Claude Opus 4.6 satt på nummer två. Inte för att det är ovanligt att en Anthropic-modell rankas högt – det har de gjort konsekvent. Utan för att denna modell landade på andra plats med knappt någon utvärderingshistorik bakom sig. Den typen av tidig konsensus är sällsynt. Det betyder att den första vågen av testare – de besatta som kör identiska prompter genom varje ny version inom timmar efter lansering – hittade något genuint annorlunda i dess kreativa produktion.
Den verkliga historien är dock gapet. I januari var avståndet mellan första och andra plats bekväma tjugofem poäng. Nu är det tolv. Gemini 3 Pro håller fortfarande guldet, och den förtjänade den positionen ärligt. Men ledningen har halverats i en enda uppdateringscykel. Om du är Google kräver den trenden uppmärksamhet. Om du är Anthropic är det en bekräftelse på att ditt tillvägagångssätt för kreativ AI-träning konvergerar mot något kraftfullt.
Samtidigt har modellerna strax under de två främsta blandats om rejält. Claude Opus 4.5:s "tänkande" variant flyttade upp till tredje plats, vilket knuffade ner standard Opus 4.5 till fjärde och Gemini 3 Flash till femte. Flash höll tredje platsen så sent som förra månaden. Podiet byter inte bara händer på toppen – det är instabilt rakt igenom. Och instabilitet, enligt min erfarenhet, föregår genombrott.
Dominerande Höjder
Gemini 3 Pro förblir den modell jag sträcker mig efter när jag inte vet vad jag behöver än. Det som håller den på nummer ett är räckvidd: be den om Hemingway-stil och den levererar sparsam, muskulös prosa. Be om experimentell postmodern fiktion och den skiftar register utan att förlora sammanhanget. Viktoriansk brevroman, hårdkokt noir, magisk realism, barnlitteratur – Gemini hanterar dessa övergångar på ett sätt som antyder en genuin förståelse för form, inte ytlig imitation. Google placerar sex modeller bland de sextio främsta, med Gemini 3 Flash på femte och Gemini 2.5 Pro på sjätte plats som fyller ut en stark trio i toppen.
Claude är ett helt annat djur. Om Gemini är räckvidd, är Claude djup. Anthropics modeller har alltid utmärkt sig i de subtiliteter som är svårast att lära en maskin: när man ska låta tystnaden bära en scen, när en mening ska brytas istället för att fortsätta, när det en karaktär inte säger avslöjar mer än vad de gör. Opus 4.6 driver detta längre. I mina tester producerade den dialog som kändes genuint bebodd. Karaktärerna levererade inte repliker – de tänkte, tvekade, valde ord på det sätt som riktiga människor gör när något viktigt står på spel. Anthropic har nu tretton modeller bland de sextio främsta, fler än någon annan organisation, med fem placerade bland de elva främsta. Oavsett deras tillvägagångssätt för att träna kreativ förmåga, fungerar det över hela deras produktlinje.
Här är en observation som inte får tillräckligt med uppmärksamhet: utökat resonemang – "tänkande" (thinking) läget – förbättrar inte pålitligt kreativt skrivande. Mönstret är inkonsekvent och djupt avslöjande.
För Claude Opus-modeller tenderar tänkande varianter att rankas något högre: Opus 4.5 Thinking på tredje plats mot standard på fjärde, Opus 4.1 Thinking på nionde mot standard på elfte. Grok 4.1 Thinking överträffar sin standardvariant med tre positioner. Men byt till andra arkitekturer och mönstret vänder – ibland dramatiskt. DeepSeek v3.2-exp standard sitter på tjugoåttonde plats medan dess tänkande variant faller till fyrtioandra. DeepSeek v3.1-terminus standard är på tjugoandra; dess tänkande motsvarighet faller till femtioåttonde – ett gap på trettiosex positioner. GPT-5.2 standard slår GPT-5.2-high.
Vad detta säger mig är viktigt: kreativt skrivande är inte primärt ett resonemangsproblem. Det är ett estetiskt problem. För modeller som redan har starka litterära instinkter kan utökat tänkande förfina dessa instinkter – som en noggrann redaktör som granskar ett gediget första utkast. Men för modeller vars kreativa styrka är mer instinktiv och mönsterdriven, polerar påtvingad överläggning faktiskt bort de grova kanterna som får prosa att kännas levande. Ibland fångar det första svaret något som ytterligare beräkning jämnar ut till medelmåttighet. Om du använder modeller med tankeförmåga för kreativt arbete, testa båda lägena. Antagandet att mer resonemang är lika med bättre output håller inte här, och att förstå när man ska stänga av tänkandet kan vara mer värdefullt än att veta när man ska slå på det.
Det Stigande Tidvattnet
Under toppnivån är historien en av spridning och mångfald – och det är utan tvekan viktigare än loppet om nummer ett.
DeepSeek placerar tio modeller bland de sextio främsta, vilket gör det till den tredje mest representerade organisationen efter Anthropic och OpenAI. Deras v3.1 och v3.2 varianter sträcker sig från tjugoandra till femtioåttonde plats och täcker ett spektrum av kreativa förmågor. Som ett projekt med öppen vikt (open-weight) representerar DeepSeek något fundamentalt annorlunda än de proprietära ledarna: dessa modeller kan laddas ner, hostas lokalt och finjusteras (fine-tuned) för specifika kreativa uppgifter. Om du bygger ett AI-skrivverktyg eller integrerar kreativa förmågor i en produktpipeline, erbjuder DeepSeek flexibilitet som modeller som endast har API inte kan matcha.
Den bredare bilden är ännu mer slående. Mellan DeepSeek, Baidu, Moonshot, Alibaba, Z.ai och Tencent står kinesiska AI-labb nu för tjugotvå av sextio rankade modeller – över en tredjedel av hela topplistan. Moonshots Kimi K2.5 debuterade med sin tänkande variant på tjugoförsta plats, vilket förde företaget till tre placeringar. Baidu har tre positioner med sin ERNIE 5.0-serie. Alibabas Qwen3 har tre varianter rankade. Z.ais GLM-4.7 sitter på tjugosjunde plats. Detta är inte konvergens – det är genuin mångfald. Olika träningsdata, olika kulturella sammanhang och olika litterära traditioner producerar modeller med distinkta kreativa känsligheter. Jag har sett ERNIE skapa metaforer som inte skulle falla västtränade modeller in, och GLM hantera narrativt tempo på sätt som känns fräscha just för att det litterära DNA:t är annorlunda. Det globala kreativa AI-ekosystemet är rikare för det.
OpenAI har elva modeller, även om deras kreativa historia har en intressant sidohandling. GPT-4.5-preview på tolfte plats ligger före både GPT-5.1-high på fjortonde och GPT-5.1 standard på tjugotredje. Ibland överträffar en modell optimerad för nyanser sin tekniskt överlägsna efterträdare på uppgifter som värdesätter subtilitet framför rå kapacitet. ChatGPT-4o-latest på sjuttonde plats förstärker poängen: konversationsoptimerade modeller har en inneboende fördel i kreativt skrivande eftersom berättande i grunden är konversationellt. Du beräknar inte ett svar – du upprätthåller en röst.
Grok har skapat en genuin kreativ identitet med sju modeller rankade. Där Claude utmärker sig i emotionell intelligens, bidrar Grok med emotionell ärlighet. Humorn är vassare, metaforerna djärvare, karaktärerna mindre polerade och mer levande. När jag vill ha skrivande som tar risker – fiktion som kan göra en läsare obekväm på ett produktivt sätt – är Grok där jag börjar. Det är modellen som är minst rädd för sin egen röst, och i kreativt skrivande räknas oräddhet. Mistrals medium-2508 på femtiosjätte plats representerar Europas närvaro på brädet. Tencents Hunyuan på femtiotredje lägger till ytterligare en röst från Kina. Fältet har aldrig varit bredare.
Vart Allt Detta Leder
Jag ska berätta vad jag tror händer härnäst, eftersom trenderna i dessa data pekar någonstans specifikt.
Gapet fortsätter att komprimeras. Spridningen mellan första och sextionde plats är ungefär 7,4 procent – snävt med historiska mått mätt, och krymper med varje uppdatering. Vi närmar oss en tröskel där de meningsfulla skillnaderna mellan modeller skiftar från rå kvalitet till kreativ personlighet. Frågan slutar vara "vilken modell skriver bäst" och blir "vilken modells röst passar detta specifika projekt". Det är en fundamental förändring i hur författare och kreativa team bör tänka kring AI-val.
Specialiserade kreativa modeller är oundvikliga. Arkitekturen för allmänna ändamål har drivit kvaliteten på kreativt skrivande anmärkningsvärt långt, men nästa verkliga språng kommer att komma från modeller som uttryckligen är inställda för narrativ struktur, karaktärskonsekvens, dialogautenticitet eller poetisk form. Jag förväntar mig att minst ett stort labb kommer att leverera en kreativ-specialistmodell under andra halvan av detta år – en som helt ägnar sig åt litterär förmåga istället för att försöka lösa matte, skriva kod och berätta historier samtidigt. När det händer kommer det att återställa toppen av denna topplista över en natt.
Modeller med öppen vikt kommer att stänga det återstående gapet. DeepSeeks närvaro med tio modeller är den ledande indikatorn. När öppna alternativ närmar sig paritet med proprietära system i kreativa riktmärken, förändras ekonomin för AI-assisterat skrivande dramatiskt. Författare, studior och förläggare får tillgång till kreativ AI i toppklass utan prissättning per token, vilket förändrar adoptionskurvor och den grundläggande relationen mellan mänskliga författare och AI-verktyg.
Den verkliga gränsen är orkestrering, inte isolering. Det mest sofistikerade kreativa arbetet jag har sett nyligen använder inte en enda modell – det använder tre eller fyra i sekvens. Gemini för initial idé och stilistisk utforskning. Claude för emotionell förfining och dialogputsning. DeepSeek eller Qwen för alternativa kulturella perspektiv. Grok när utkastet behöver skärpa. Framtiden handlar inte om att kröna en modell till kung. Det handlar om att lära sig dirigera en ensemble, matcha varje modells kreativa personlighet till rätt ögonblick i skrivprocessen. De författare som räknar ut detta först kommer att producera verk som känns annorlunda än något som en enda modell – eller en enda människa – skulle kunna åstadkomma ensam.
Att Välja Din Kreativa Partner
Efter år av skrivande vid sidan av dessa modeller, här är vad jag har lärt mig om att matcha rätt verktyg till rätt uppgift:
Mångsidighet
Gemini 3 Pro anpassar sig till vilken genre som helst, vilken form som helst, vilken ton som helst. När briefen är odefinierad eller projektet kräver räckvidd, börja här.
Emotionellt Djup
Claude Opus 4.6 skriver med återhållsamhet och genuin känsla. För dialog, karaktärsarbete och prosa där det som lämnas osagt betyder mest.
Hastighet & Kvalitet
Gemini 3 Flash bevisar att snabb inte betyder sämre. För iterativt utkastande, projekt med hög volym och snabb prototypframställning av narrativa idéer.
Personlighet
Grok 4.1 tar kreativa risker som andra modeller inte gör. För fiktion som behöver skärpa, humor och karaktärer som känns levande snarare än monterade.
Det finns ingen enskild bästa kreativ AI. Det finns utvecklande röster med olika styrkor, och den verkliga makten ligger i att veta vilken röst som tjänar vilket ögonblick i historien du försöker berätta.
Datakälla: Rankningar från Arena AI Creative Writing Leaderboard, 6 februari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!