Bestenliste der KI-Kreativschreibarena — Februar 2026

Zentrale Erkenntnis

Kreatives Schreiben ist dort, wo sich rohe Intelligenz vor Geschmack, Zurückhaltung und dem Mut verneigt, die richtigen Dinge ungesagt zu lassen.

Drei Jahre lang habe ich die KI gebeten, mir Geschichten zu erzählen. Keine Zusammenfassungen, keine Gliederungen — echte Fiktion. Die Art, bei der eine Figur einen Raum betritt und man spürt, wie sich die Temperatur ändert. In diesen Jahren habe ich beobachtet, wie sich diese Bestenliste von einer Kuriosität zu einem echten Barometer für literarische Fähigkeiten entwickelt hat. Der Februar 2026 brachte die bisher interessanteste Verschiebung: ein brandneues Modell, das leise ankam, schnell aufstieg und eine Lücke verkleinerte, die noch vor Wochen dauerhaft schien. Hier ist das vollständige Bild — sechzig Modelle, bewertet, analysiert und in Kontext gesetzt von jemandem, der jeden Tag mit ihnen arbeitet.

Die Bestenliste für Kreatives Schreiben

Code hat Syntax. Mathematik hat Beweise. Aber kreatives Schreiben hat Stimme — Rhythmus, Überraschung, emotionale Resonanz. Dies ist die Creative Writing Arena, der anspruchsvollste Benchmark in der KI-Bewertung, wo sechzig Modelle danach bewertet werden, wie gut sie Geschichten erzählen, die Menschen tatsächlich bewegen. So steht es im Februar 2026.

Rang	Modell	Punktzahl	Stimmen	Organisation
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Der Umbruch im Februar

Als ich die neuesten Daten abrief, ließ mich ein Eintrag innehalten: Claude Opus 4.6 sitzt auf Platz zwei. Nicht weil es ungewöhnlich wäre, dass ein Anthropic-Modell hoch platziert ist — das tun sie konsequent. Sondern weil dieses Modell auf der zweiten Position landete, mit kaum einer Bewertungshistorie hinter sich. Diese Art von frühem Konsens ist selten. Es bedeutet, dass die erste Welle von Testern — die Besessenen, die identische Prompts durch jede neue Version innerhalb von Stunden nach dem Start laufen lassen — etwas wirklich anderes in seinem kreativen Output gefunden haben.

Die wahre Geschichte ist jedoch der Abstand. Im Januar betrug der Abstand zwischen dem ersten und dem zweiten Platz komfortable fünfundzwanzig Punkte. Jetzt sind es zwölf. Gemini 3 Pro hält immer noch Gold, und es hat sich diese Position ehrlich verdient. Aber der Vorsprung hat sich in einem einzigen Update-Zyklus halbiert. Wenn Sie Google sind, verlangt dieser Trend Aufmerksamkeit. Wenn Sie Anthropic sind, ist es die Bestätigung, dass Ihr Ansatz für das Training kreativer KI auf etwas Mächtiges konvergiert.

In der Zwischenzeit haben sich die Modelle direkt unter den ersten beiden erheblich neu gemischt. Die "Thinking"-Variante von Claude Opus 4.5 rückte auf den dritten Platz vor und drängte den Standard Opus 4.5 auf den vierten und Gemini 3 Flash auf den fünften Platz. Flash hielt letzten Monat noch den dritten Platz. Das Podium wechselt nicht nur an der Spitze die Hände — es ist durchweg instabil. Und Instabilität geht meiner Erfahrung nach Durchbrüchen voraus.

Dominierende Höhen

Gemini 3 Pro bleibt das Modell, nach dem ich greife, wenn ich noch nicht weiß, was ich brauche. Was es auf Platz eins hält, ist die Bandbreite: Bitten Sie es um Hemingway, und es liefert karge, muskulöse Prosa. Bitten Sie um experimentelle postmoderne Fiktion, und es wechselt das Register, ohne die Kohärenz zu verlieren. Viktorianischer Briefroman, hartgesottener Noir, magischer Realismus, Kinderliteratur — Gemini handhabt diese Übergänge auf eine Weise, die ein echtes Verständnis der Form suggeriert, nicht nur oberflächliche Nachahmung. Google platziert sechs Modelle in den Top 60, wobei Gemini 3 Flash auf Platz fünf und Gemini 2.5 Pro auf Platz sechs ein starkes Trio an der Spitze vervollständigen.

Claude ist ein völlig anderes Tier. Wenn Gemini Bandbreite ist, ist Claude Tiefe. Anthropics Modelle haben sich schon immer bei den Feinheiten hervorgetan, die einer Maschine am schwersten beizubringen sind: wann man Stille eine Szene tragen lässt, wann ein Satz abbrechen sollte statt weiterzugehen, wann das, was eine Figur nicht sagt, mehr verrät als das, was sie sagt. Opus 4.6 treibt dies weiter. In meinen Tests produzierte es Dialoge, die sich wirklich bewohnt anfühlten. Die Figuren lieferten keine Zeilen ab — sie dachten nach, zögerten, wählten Worte so, wie es echte Menschen tun, wenn etwas Wichtiges auf dem Spiel steht. Anthropic hat jetzt dreizehn Modelle in den Top 60, mehr als jede andere Organisation, wobei fünf in den Top 11 platziert sind. Was auch immer ihr Ansatz zum Training kreativer Fähigkeiten ist, er funktioniert über ihre gesamte Produktlinie hinweg.

Hier ist eine Beobachtung, die nicht genug Aufmerksamkeit erhält: Erweitertes logisches Denken — der "Thinking"-Modus — verbessert das kreative Schreiben nicht zuverlässig. Das Muster ist inkonsistent und zutiefst aufschlussreich.

Bei Claude Opus-Modellen tendieren die Thinking-Varianten dazu, etwas höher zu ranken: Opus 4.5 Thinking auf drei gegenüber Standard auf vier, Opus 4.1 Thinking auf neun gegenüber Standard auf elf. Grok 4.1 Thinking übertrifft seine Standardvariante um drei Positionen. Aber wechseln Sie zu anderen Architekturen, und das Muster kehrt sich um — manchmal dramatisch. DeepSeek v3.2-exp Standard sitzt auf Platz achtundzwanzig, während seine Thinking-Variante auf Platz zweiundvierzig fällt. DeepSeek v3.1-terminus Standard ist auf Platz zweiundzwanzig; sein Thinking-Gegenstück fällt auf Platz achtundfünfzig — eine Lücke von sechsunddreißig Positionen. GPT-5.2 Standard schlägt GPT-5.2-high.

Was mir das sagt, ist wichtig: Kreatives Schreiben ist nicht primär ein Problem des logischen Denkens. Es ist ein ästhetisches. Für Modelle, die bereits starke literarische Instinkte besitzen, kann erweitertes Denken diese Instinkte verfeinern — wie ein sorgfältiger Lektor, der einen soliden ersten Entwurf überprüft. Aber für Modelle, deren kreative Stärke eher instinktiv und mustergetrieben ist, poliert erzwungene Überlegung tatsächlich die rauen Kanten weg, die Prosa lebendig wirken lassen. Manchmal fängt die erste Antwort etwas ein, das zusätzliche Berechnung in Mittelmäßigkeit glättet. Wenn Sie Thinking-fähige Modelle für kreative Arbeit nutzen, testen Sie beide Modi. Die Annahme, dass mehr Denken gleich besserer Output ist, gilt hier nicht, und zu verstehen, wann man das Denken abschalten sollte, kann wertvoller sein als zu wissen, wann man es einschalten sollte.

Die steigende Flut

Unterhalb der obersten Ebene ist die Geschichte eine von Verbreitung und Vielfalt — und sie ist wohl wichtiger als das Rennen um Platz eins.

DeepSeek platziert zehn Modelle in den Top 60 und ist damit nach Anthropic und OpenAI die am dritthäufigsten vertretene Organisation. Ihre v3.1 und v3.2 Varianten reichen von Platz zweiundzwanzig bis achtundfünfzig und decken eine Reihe von kreativen Leistungsstufen ab. Als Open-Weight-Projekt repräsentiert DeepSeek etwas grundlegend anderes als die proprietären Marktführer: Diese Modelle können heruntergeladen, lokal gehostet und für spezifische kreative Aufgaben feinabgestimmt (fine-tuned) werden. Wenn Sie ein KI-Schreibwerkzeug bauen oder kreative Fähigkeiten in eine Produktpipeline integrieren, bietet DeepSeek Flexibilität, die API-only Modelle nicht erreichen können.

Das breitere Bild ist noch bemerkenswerter. Zwischen DeepSeek, Baidu, Moonshot, Alibaba, Z.ai und Tencent stellen chinesische KI-Labore nun zweiundzwanzig der sechzig gerankten Modelle — mehr als ein Drittel der gesamten Bestenliste. Moonshots Kimi K2.5 debütierte mit seiner Thinking-Variante auf Platz einundzwanzig und brachte das Unternehmen auf drei Platzierungen. Baidu hält drei Positionen mit seiner ERNIE 5.0 Reihe. Alibabas Qwen3 hat drei Varianten im Ranking. Z.ais GLM-4.7 sitzt auf Platz siebenundzwanzig. Das ist keine Konvergenz — es ist echte Vielfalt. Unterschiedliche Trainingsdaten, unterschiedliche kulturelle Kontexte und unterschiedliche literarische Traditionen produzieren Modelle mit unterschiedlichen kreativen Sensibilitäten. Ich habe gesehen, wie ERNIE Metaphern erschuf, die westlich trainierten Modellen nicht eingefallen wären, und wie GLM narratives Tempo auf Weisen handhabte, die sich frisch anfühlten, gerade weil die literarische DNA anders ist. Das globale kreative KI-Ökosystem ist dadurch reicher.

OpenAI hält elf Modelle, obwohl ihre kreative Geschichte einen interessanten Nebenstrang hat. GPT-4.5-preview auf Platz zwölf liegt sowohl vor GPT-5.1-high auf vierzehn als auch vor GPT-5.1 Standard auf dreiundzwanzig. Manchmal übertrifft ein auf Nuancen optimiertes Modell seinen technisch überlegenen Nachfolger bei Aufgaben, die Subtilität über rohe Leistungsfähigkeit stellen. ChatGPT-4o-latest auf Platz siebzehn verstärkt diesen Punkt: Für Konversation optimierte Modelle haben einen inhärenten Vorteil beim kreativen Schreiben, weil Geschichtenerzählen grundlegend konversationell ist. Sie berechnen keine Antwort — Sie erhalten eine Stimme aufrecht.

Grok hat sich mit sieben gerankten Modellen eine echte kreative Identität geschaffen. Wo Claude bei emotionaler Intelligenz glänzt, bringt Grok emotionale Ehrlichkeit. Der Humor ist schärfer, die Metaphern kühner, die Charaktere weniger poliert und lebendiger. Wenn ich Schreiben will, das Risiken eingeht — Fiktion, die einen Leser auf produktive Weise unbehaglich machen könnte — ist Grok mein Startpunkt. Es ist das Modell, das am wenigsten Angst vor seiner eigenen Stimme hat, und beim kreativen Schreiben zählt Furchtlosigkeit. Mistrals medium-2508 auf Platz sechsundfünfzig repräsentiert Europas Präsenz auf der Tafel. Tencents Hunyuan auf dreiundfünfzig fügt eine weitere Stimme aus China hinzu. Das Feld war nie breiter.

Wohin das alles führt

Ich sage Ihnen, was ich denke, was als nächstes passiert, denn die Trends in diesen Daten deuten auf etwas Bestimmtes hin.

Der Abstand komprimiert sich weiter. Die Spreizung zwischen dem ersten und sechzigsten Platz beträgt etwa 7,4 Prozent — eng nach historischen Standards, und sie verringert sich mit jedem Update. Wir nähern uns einer Schwelle, an der sich die bedeutenden Unterschiede zwischen Modellen von roher Qualität zu kreativer Persönlichkeit verschieben. Die Frage ist nicht mehr "welches Modell schreibt am besten", sondern "welche Modellstimme passt zu diesem speziellen Projekt". Das ist eine fundamentale Änderung darin, wie Autoren und Kreativteams über KI-Auswahl denken sollten.

Spezialisierte Kreativmodelle sind unvermeidlich. Die Allzweckarchitektur hat die Qualität des kreativen Schreibens bemerkenswert weit vorangetrieben, aber der nächste echte Sprung wird von Modellen kommen, die explizit auf narrative Struktur, Charakterkonsistenz, Dialogauthentizität oder poetische Form abgestimmt sind. Ich erwarte, dass mindestens ein großes Labor bis zur zweiten Hälfte dieses Jahres ein Kreativ-Spezialistenmodell herausbringt — eines, das sich ganz der literarischen Fähigkeit verschreibt, anstatt zu versuchen, gleichzeitig Mathe zu lösen, Code zu schreiben und Geschichten zu erzählen. Wenn das passiert, wird es die Spitze dieser Bestenliste über Nacht zurücksetzen.

Open-Weight-Modelle werden die verbleibende Lücke schließen. Die Präsenz von zehn DeepSeek-Modellen ist der führende Indikator. Da offene Alternativen sich der Parität mit proprietären Systemen in kreativen Benchmarks nähern, ändert sich die Ökonomie des KI-gestützten Schreibens dramatisch. Autoren, Studios und Verlage erhalten Zugang zu erstklassiger kreativer KI ohne Pro-Token-Preise, was die Adoptionskurven und die fundamentale Beziehung zwischen menschlichen Autoren und KI-Tools verändert.

Die wahre Grenze ist Orchestrierung, nicht Isolation. Die raffinierteste kreative Arbeit, die ich kürzlich gesehen habe, nutzt nicht ein einzelnes Modell — sie nutzt drei oder vier in Sequenz. Gemini für anfängliche Ideenfindung und stilistische Erkundung. Claude für emotionale Verfeinerung und Dialogschliff. DeepSeek oder Qwen für alternative kulturelle Perspektiven. Grok, wenn der Entwurf Kante braucht. Die Zukunft liegt nicht darin, ein Modell zum König zu krönen. Es geht darum, zu lernen, ein Ensemble zu dirigieren und die kreative Persönlichkeit jedes Modells mit dem richtigen Moment im Schreibprozess abzustimmen. Die Autoren, die das zuerst herausfinden, werden Werke produzieren, die sich anders anfühlen als alles, was ein einzelnes Modell — oder ein einzelner Mensch — allein erreichen könnte.

Wahl Ihres kreativen Partners

Nach Jahren des Schreibens an der Seite dieser Modelle habe ich Folgendes über das Zusammenbringen des richtigen Werkzeugs mit der richtigen Aufgabe gelernt:

Vielseitigkeit

Gemini 3 Pro passt sich jedem Genre, jeder Form, jedem Ton an. Wenn das Briefing undefiniert ist oder das Projekt Bandbreite verlangt, fangen Sie hier an.

Emotionale Tiefe

Claude Opus 4.6 schreibt mit Zurückhaltung und echtem Gefühl. Für Dialoge, Charakterarbeit und Prosa, wo das Ungesagte am meisten zählt.

Geschwindigkeit & Qualität

Gemini 3 Flash beweist, dass schnell nicht schlechter bedeutet. Für iteratives Entwerfen, Projekte mit hohem Volumen und schnelles Prototyping narrativer Ideen.

Persönlichkeit

Grok 4.1 geht kreative Risiken ein, die andere Modelle nicht eingehen. Für Fiktion, die Kante, Humor und Figuren braucht, die sich lebendig statt montiert anfühlen.

Enterprise

GPT-4.5 / GPT-5.1 liefern polierten, zuverlässigen Output, der sich in bestehende Workflows integriert. Wenn Konsistenz und Markensicherheit genauso wichtig sind wie Kreativität.

Open Source

DeepSeek / Qwen: Hosten Sie es selbst, stimmen Sie es für Ihre Domain ab. Wenn Sie kreative KI im großen Maßstab ohne Pro-Token-Kosten benötigen, ist die Wirtschaftlichkeit unschlagbar.

Es gibt keine einzelne beste kreative KI. Es gibt sich entwickelnde Stimmen mit unterschiedlichen Stärken, und die wahre Macht liegt darin zu wissen, welche Stimme welchem Moment in der Geschichte dient, die Sie erzählen wollen.

Datenquelle: Rankings der Arena AI Creative Writing Leaderboard, 6. Februar 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard