Kreatives Schreiben ist dort, wo sich rohe Intelligenz vor Geschmack, Zurückhaltung und dem Mut verneigt, die richtigen Dinge ungesagt zu lassen.
Drei Jahre lang habe ich die KI gebeten, mir Geschichten zu erzählen. Keine Zusammenfassungen, keine Gliederungen — echte Fiktion. Die Art, bei der eine Figur einen Raum betritt und man spürt, wie sich die Temperatur ändert. In diesen Jahren habe ich beobachtet, wie sich diese Bestenliste von einer Kuriosität zu einem echten Barometer für literarische Fähigkeiten entwickelt hat. Der Februar 2026 brachte die bisher interessanteste Verschiebung: ein brandneues Modell, das leise ankam, schnell aufstieg und eine Lücke verkleinerte, die noch vor Wochen dauerhaft schien. Hier ist das vollständige Bild — sechzig Modelle, bewertet, analysiert und in Kontext gesetzt von jemandem, der jeden Tag mit ihnen arbeitet.
Die Bestenliste für Kreatives Schreiben
Code hat Syntax. Mathematik hat Beweise. Aber kreatives Schreiben hat Stimme — Rhythmus, Überraschung, emotionale Resonanz. Dies ist die Creative Writing Arena, der anspruchsvollste Benchmark in der KI-Bewertung, wo sechzig Modelle danach bewertet werden, wie gut sie Geschichten erzählen, die Menschen tatsächlich bewegen. So steht es im Februar 2026.
| Rang | Modell | Punktzahl | Stimmen | Organisation |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Der Umbruch im Februar
Als ich die neuesten Daten abrief, ließ mich ein Eintrag innehalten: Claude Opus 4.6 sitzt auf Platz zwei. Nicht weil es ungewöhnlich wäre, dass ein Anthropic-Modell hoch platziert ist — das tun sie konsequent. Sondern weil dieses Modell auf der zweiten Position landete, mit kaum einer Bewertungshistorie hinter sich. Diese Art von frühem Konsens ist selten. Es bedeutet, dass die erste Welle von Testern — die Besessenen, die identische Prompts durch jede neue Version innerhalb von Stunden nach dem Start laufen lassen — etwas wirklich anderes in seinem kreativen Output gefunden haben.
Die wahre Geschichte ist jedoch der Abstand. Im Januar betrug der Abstand zwischen dem ersten und dem zweiten Platz komfortable fünfundzwanzig Punkte. Jetzt sind es zwölf. Gemini 3 Pro hält immer noch Gold, und es hat sich diese Position ehrlich verdient. Aber der Vorsprung hat sich in einem einzigen Update-Zyklus halbiert. Wenn Sie Google sind, verlangt dieser Trend Aufmerksamkeit. Wenn Sie Anthropic sind, ist es die Bestätigung, dass Ihr Ansatz für das Training kreativer KI auf etwas Mächtiges konvergiert.
In der Zwischenzeit haben sich die Modelle direkt unter den ersten beiden erheblich neu gemischt. Die "Thinking"-Variante von Claude Opus 4.5 rückte auf den dritten Platz vor und drängte den Standard Opus 4.5 auf den vierten und Gemini 3 Flash auf den fünften Platz. Flash hielt letzten Monat noch den dritten Platz. Das Podium wechselt nicht nur an der Spitze die Hände — es ist durchweg instabil. Und Instabilität geht meiner Erfahrung nach Durchbrüchen voraus.
Dominierende Höhen
Gemini 3 Pro bleibt das Modell, nach dem ich greife, wenn ich noch nicht weiß, was ich brauche. Was es auf Platz eins hält, ist die Bandbreite: Bitten Sie es um Hemingway, und es liefert karge, muskulöse Prosa. Bitten Sie um experimentelle postmoderne Fiktion, und es wechselt das Register, ohne die Kohärenz zu verlieren. Viktorianischer Briefroman, hartgesottener Noir, magischer Realismus, Kinderliteratur — Gemini handhabt diese Übergänge auf eine Weise, die ein echtes Verständnis der Form suggeriert, nicht nur oberflächliche Nachahmung. Google platziert sechs Modelle in den Top 60, wobei Gemini 3 Flash auf Platz fünf und Gemini 2.5 Pro auf Platz sechs ein starkes Trio an der Spitze vervollständigen.
Claude ist ein völlig anderes Tier. Wenn Gemini Bandbreite ist, ist Claude Tiefe. Anthropics Modelle haben sich schon immer bei den Feinheiten hervorgetan, die einer Maschine am schwersten beizubringen sind: wann man Stille eine Szene tragen lässt, wann ein Satz abbrechen sollte statt weiterzugehen, wann das, was eine Figur nicht sagt, mehr verrät als das, was sie sagt. Opus 4.6 treibt dies weiter. In meinen Tests produzierte es Dialoge, die sich wirklich bewohnt anfühlten. Die Figuren lieferten keine Zeilen ab — sie dachten nach, zögerten, wählten Worte so, wie es echte Menschen tun, wenn etwas Wichtiges auf dem Spiel steht. Anthropic hat jetzt dreizehn Modelle in den Top 60, mehr als jede andere Organisation, wobei fünf in den Top 11 platziert sind. Was auch immer ihr Ansatz zum Training kreativer Fähigkeiten ist, er funktioniert über ihre gesamte Produktlinie hinweg.
Hier ist eine Beobachtung, die nicht genug Aufmerksamkeit erhält: Erweitertes logisches Denken — der "Thinking"-Modus — verbessert das kreative Schreiben nicht zuverlässig. Das Muster ist inkonsistent und zutiefst aufschlussreich.
Bei Claude Opus-Modellen tendieren die Thinking-Varianten dazu, etwas höher zu ranken: Opus 4.5 Thinking auf drei gegenüber Standard auf vier, Opus 4.1 Thinking auf neun gegenüber Standard auf elf. Grok 4.1 Thinking übertrifft seine Standardvariante um drei Positionen. Aber wechseln Sie zu anderen Architekturen, und das Muster kehrt sich um — manchmal dramatisch. DeepSeek v3.2-exp Standard sitzt auf Platz achtundzwanzig, während seine Thinking-Variante auf Platz zweiundvierzig fällt. DeepSeek v3.1-terminus Standard ist auf Platz zweiundzwanzig; sein Thinking-Gegenstück fällt auf Platz achtundfünfzig — eine Lücke von sechsunddreißig Positionen. GPT-5.2 Standard schlägt GPT-5.2-high.
Was mir das sagt, ist wichtig: Kreatives Schreiben ist nicht primär ein Problem des logischen Denkens. Es ist ein ästhetisches. Für Modelle, die bereits starke literarische Instinkte besitzen, kann erweitertes Denken diese Instinkte verfeinern — wie ein sorgfältiger Lektor, der einen soliden ersten Entwurf überprüft. Aber für Modelle, deren kreative Stärke eher instinktiv und mustergetrieben ist, poliert erzwungene Überlegung tatsächlich die rauen Kanten weg, die Prosa lebendig wirken lassen. Manchmal fängt die erste Antwort etwas ein, das zusätzliche Berechnung in Mittelmäßigkeit glättet. Wenn Sie Thinking-fähige Modelle für kreative Arbeit nutzen, testen Sie beide Modi. Die Annahme, dass mehr Denken gleich besserer Output ist, gilt hier nicht, und zu verstehen, wann man das Denken abschalten sollte, kann wertvoller sein als zu wissen, wann man es einschalten sollte.
Die steigende Flut
Unterhalb der obersten Ebene ist die Geschichte eine von Verbreitung und Vielfalt — und sie ist wohl wichtiger als das Rennen um Platz eins.
DeepSeek platziert zehn Modelle in den Top 60 und ist damit nach Anthropic und OpenAI die am dritthäufigsten vertretene Organisation. Ihre v3.1 und v3.2 Varianten reichen von Platz zweiundzwanzig bis achtundfünfzig und decken eine Reihe von kreativen Leistungsstufen ab. Als Open-Weight-Projekt repräsentiert DeepSeek etwas grundlegend anderes als die proprietären Marktführer: Diese Modelle können heruntergeladen, lokal gehostet und für spezifische kreative Aufgaben feinabgestimmt (fine-tuned) werden. Wenn Sie ein KI-Schreibwerkzeug bauen oder kreative Fähigkeiten in eine Produktpipeline integrieren, bietet DeepSeek Flexibilität, die API-only Modelle nicht erreichen können.
Das breitere Bild ist noch bemerkenswerter. Zwischen DeepSeek, Baidu, Moonshot, Alibaba, Z.ai und Tencent stellen chinesische KI-Labore nun zweiundzwanzig der sechzig gerankten Modelle — mehr als ein Drittel der gesamten Bestenliste. Moonshots Kimi K2.5 debütierte mit seiner Thinking-Variante auf Platz einundzwanzig und brachte das Unternehmen auf drei Platzierungen. Baidu hält drei Positionen mit seiner ERNIE 5.0 Reihe. Alibabas Qwen3 hat drei Varianten im Ranking. Z.ais GLM-4.7 sitzt auf Platz siebenundzwanzig. Das ist keine Konvergenz — es ist echte Vielfalt. Unterschiedliche Trainingsdaten, unterschiedliche kulturelle Kontexte und unterschiedliche literarische Traditionen produzieren Modelle mit unterschiedlichen kreativen Sensibilitäten. Ich habe gesehen, wie ERNIE Metaphern erschuf, die westlich trainierten Modellen nicht eingefallen wären, und wie GLM narratives Tempo auf Weisen handhabte, die sich frisch anfühlten, gerade weil die literarische DNA anders ist. Das globale kreative KI-Ökosystem ist dadurch reicher.
OpenAI hält elf Modelle, obwohl ihre kreative Geschichte einen interessanten Nebenstrang hat. GPT-4.5-preview auf Platz zwölf liegt sowohl vor GPT-5.1-high auf vierzehn als auch vor GPT-5.1 Standard auf dreiundzwanzig. Manchmal übertrifft ein auf Nuancen optimiertes Modell seinen technisch überlegenen Nachfolger bei Aufgaben, die Subtilität über rohe Leistungsfähigkeit stellen. ChatGPT-4o-latest auf Platz siebzehn verstärkt diesen Punkt: Für Konversation optimierte Modelle haben einen inhärenten Vorteil beim kreativen Schreiben, weil Geschichtenerzählen grundlegend konversationell ist. Sie berechnen keine Antwort — Sie erhalten eine Stimme aufrecht.
Grok hat sich mit sieben gerankten Modellen eine echte kreative Identität geschaffen. Wo Claude bei emotionaler Intelligenz glänzt, bringt Grok emotionale Ehrlichkeit. Der Humor ist schärfer, die Metaphern kühner, die Charaktere weniger poliert und lebendiger. Wenn ich Schreiben will, das Risiken eingeht — Fiktion, die einen Leser auf produktive Weise unbehaglich machen könnte — ist Grok mein Startpunkt. Es ist das Modell, das am wenigsten Angst vor seiner eigenen Stimme hat, und beim kreativen Schreiben zählt Furchtlosigkeit. Mistrals medium-2508 auf Platz sechsundfünfzig repräsentiert Europas Präsenz auf der Tafel. Tencents Hunyuan auf dreiundfünfzig fügt eine weitere Stimme aus China hinzu. Das Feld war nie breiter.
Wohin das alles führt
Ich sage Ihnen, was ich denke, was als nächstes passiert, denn die Trends in diesen Daten deuten auf etwas Bestimmtes hin.
Der Abstand komprimiert sich weiter. Die Spreizung zwischen dem ersten und sechzigsten Platz beträgt etwa 7,4 Prozent — eng nach historischen Standards, und sie verringert sich mit jedem Update. Wir nähern uns einer Schwelle, an der sich die bedeutenden Unterschiede zwischen Modellen von roher Qualität zu kreativer Persönlichkeit verschieben. Die Frage ist nicht mehr "welches Modell schreibt am besten", sondern "welche Modellstimme passt zu diesem speziellen Projekt". Das ist eine fundamentale Änderung darin, wie Autoren und Kreativteams über KI-Auswahl denken sollten.
Spezialisierte Kreativmodelle sind unvermeidlich. Die Allzweckarchitektur hat die Qualität des kreativen Schreibens bemerkenswert weit vorangetrieben, aber der nächste echte Sprung wird von Modellen kommen, die explizit auf narrative Struktur, Charakterkonsistenz, Dialogauthentizität oder poetische Form abgestimmt sind. Ich erwarte, dass mindestens ein großes Labor bis zur zweiten Hälfte dieses Jahres ein Kreativ-Spezialistenmodell herausbringt — eines, das sich ganz der literarischen Fähigkeit verschreibt, anstatt zu versuchen, gleichzeitig Mathe zu lösen, Code zu schreiben und Geschichten zu erzählen. Wenn das passiert, wird es die Spitze dieser Bestenliste über Nacht zurücksetzen.
Open-Weight-Modelle werden die verbleibende Lücke schließen. Die Präsenz von zehn DeepSeek-Modellen ist der führende Indikator. Da offene Alternativen sich der Parität mit proprietären Systemen in kreativen Benchmarks nähern, ändert sich die Ökonomie des KI-gestützten Schreibens dramatisch. Autoren, Studios und Verlage erhalten Zugang zu erstklassiger kreativer KI ohne Pro-Token-Preise, was die Adoptionskurven und die fundamentale Beziehung zwischen menschlichen Autoren und KI-Tools verändert.
Die wahre Grenze ist Orchestrierung, nicht Isolation. Die raffinierteste kreative Arbeit, die ich kürzlich gesehen habe, nutzt nicht ein einzelnes Modell — sie nutzt drei oder vier in Sequenz. Gemini für anfängliche Ideenfindung und stilistische Erkundung. Claude für emotionale Verfeinerung und Dialogschliff. DeepSeek oder Qwen für alternative kulturelle Perspektiven. Grok, wenn der Entwurf Kante braucht. Die Zukunft liegt nicht darin, ein Modell zum König zu krönen. Es geht darum, zu lernen, ein Ensemble zu dirigieren und die kreative Persönlichkeit jedes Modells mit dem richtigen Moment im Schreibprozess abzustimmen. Die Autoren, die das zuerst herausfinden, werden Werke produzieren, die sich anders anfühlen als alles, was ein einzelnes Modell — oder ein einzelner Mensch — allein erreichen könnte.
Wahl Ihres kreativen Partners
Nach Jahren des Schreibens an der Seite dieser Modelle habe ich Folgendes über das Zusammenbringen des richtigen Werkzeugs mit der richtigen Aufgabe gelernt:
Vielseitigkeit
Gemini 3 Pro passt sich jedem Genre, jeder Form, jedem Ton an. Wenn das Briefing undefiniert ist oder das Projekt Bandbreite verlangt, fangen Sie hier an.
Emotionale Tiefe
Claude Opus 4.6 schreibt mit Zurückhaltung und echtem Gefühl. Für Dialoge, Charakterarbeit und Prosa, wo das Ungesagte am meisten zählt.
Geschwindigkeit & Qualität
Gemini 3 Flash beweist, dass schnell nicht schlechter bedeutet. Für iteratives Entwerfen, Projekte mit hohem Volumen und schnelles Prototyping narrativer Ideen.
Persönlichkeit
Grok 4.1 geht kreative Risiken ein, die andere Modelle nicht eingehen. Für Fiktion, die Kante, Humor und Figuren braucht, die sich lebendig statt montiert anfühlen.
Es gibt keine einzelne beste kreative KI. Es gibt sich entwickelnde Stimmen mit unterschiedlichen Stärken, und die wahre Macht liegt darin zu wissen, welche Stimme welchem Moment in der Geschichte dient, die Sie erzählen wollen.
Datenquelle: Rankings der Arena AI Creative Writing Leaderboard, 6. Februar 2026.
Diskussion
0 KommentareKommentar hinterlassen
Seien Sie der Erste, der seine Gedanken teilt!