Classement de l'Arène d'Écriture Créative par IA — Février 2026

Insight Central

L'écriture créative est l'endroit où l'intelligence brute s'incline devant le goût, la retenue et le courage de laisser les bonnes choses non dites.

Trois ans à demander à l'IA de me raconter des histoires. Pas des résumés, pas des plans — de la vraie fiction. Le genre où un personnage entre dans une pièce et vous sentez la température changer. Au cours de ces années, j'ai vu ce classement passer d'une curiosité à un véritable baromètre de la capacité littéraire. Février 2026 a apporté le changement le plus intéressant à ce jour : un tout nouveau modèle arrivé discrètement, qui a grimpé rapidement et a réduit un écart qui semblait permanent il y a quelques semaines à peine. Voici le tableau complet — soixante modèles classés, analysés et mis en contexte par quelqu'un qui travaille avec eux tous les jours.

Le Classement de l'Écriture Créative

Le code a une syntaxe. Les maths ont des preuves. Mais l'écriture créative a une voix — rythme, surprise, résonance émotionnelle. C'est l'Arène d'Écriture Créative, le benchmark le plus exigeant en évaluation d'IA, où soixante modèles sont classés selon la qualité avec laquelle ils racontent des histoires qui émeuvent réellement les gens. Voici où tout en est en février 2026.

Rang	Modèle	Score	Votes	Organisation
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

La Rupture de Février

Lorsque j'ai extrait les dernières données, une entrée m'a arrêté : Claude Opus 4.6 assis à la deuxième place. Non pas parce qu'un modèle Anthropic bien classé soit inhabituel — ils le font constamment. Mais parce que ce modèle a atterri en deuxième position avec presque aucun historique d'évaluation derrière lui. Ce genre de consensus précoce est rare. Cela signifie que la première vague de testeurs — les obsédés qui exécutent des prompts identiques sur chaque nouvelle version dans les heures suivant le lancement — a trouvé quelque chose de véritablement différent dans sa production créative.

La vraie histoire, cependant, c'est l'écart. En janvier, la distance entre la première et la deuxième place était de vingt-cinq points confortables. Maintenant, elle est de douze. Gemini 3 Pro détient toujours l'or, et a gagné cette position honnêtement. Mais l'avance a diminué de moitié en un seul cycle de mise à jour. Si vous êtes Google, cette tendance exige de l'attention. Si vous êtes Anthropic, c'est la confirmation que votre approche de l'entraînement de l'IA créative converge vers quelque chose de puissant.

Pendant ce temps, les modèles juste en dessous des deux premiers ont été considérablement remaniés. La variante "thinking" de Claude Opus 4.5 est montée à la troisième place, poussant l'Opus 4.5 standard à la quatrième et Gemini 3 Flash à la cinquième. Flash occupait la troisième place le mois dernier. Le podium ne change pas seulement de mains au sommet — il est instable partout. Et l'instabilité, d'après mon expérience, précède les percées.

Hauteurs Dominantes

Gemini 3 Pro reste le modèle vers lequel je me tourne quand je ne sais pas encore ce dont j'ai besoin. Ce qui le maintient au numéro un, c'est l'étendue : demandez-lui du style Hemingway et il livre une prose dépouillée et musclée. Demandez de la fiction postmoderne expérimentale et il change de registre sans perdre en cohérence. Épistolaire victorien, noir hardboiled, réalisme magique, littérature pour enfants — Gemini gère ces transitions d'une manière qui suggère une véritable compréhension de la forme, pas une mimique de surface. Google place six modèles dans le top soixante, avec Gemini 3 Flash en cinquième et Gemini 2.5 Pro en sixième position, complétant un trio solide au sommet.

Claude est un animal entièrement différent. Si Gemini est l'étendue, Claude est la profondeur. Les modèles d'Anthropic ont toujours excellé dans les subtilités les plus difficiles à enseigner à une machine : quand laisser le silence porter une scène, quand une phrase doit se briser au lieu de continuer, quand ce qu'un personnage ne dit pas révèle plus que ce qu'il dit. Opus 4.6 pousse cela plus loin. Lors de mes tests, il a produit des dialogues qui semblaient véritablement habités. Les personnages ne récitaient pas des répliques — ils pensaient, hésitaient, choisissaient leurs mots comme le font les vraies personnes lorsque quelque chose d'important est en jeu. Anthropic a maintenant treize modèles dans le top soixante, plus que toute autre organisation, avec cinq placés dans les onze premiers. Quelle que soit leur approche pour entraîner la capacité créative, elle fonctionne sur toute leur gamme de produits.

Voici une observation qui ne reçoit pas assez d'attention : le raisonnement étendu — le mode "thinking" — n'améliore pas de manière fiable l'écriture créative. Le schéma est incohérent et profondément révélateur.

Pour les modèles Claude Opus, les variantes "thinking" ont tendance à se classer légèrement plus haut : Opus 4.5 Thinking en troisième contre le standard en quatrième, Opus 4.1 Thinking en neuvième contre le standard en onzième. Grok 4.1 Thinking surpasse sa variante standard de trois positions. Mais passez à d'autres architectures et le schéma s'inverse — parfois de façon spectaculaire. DeepSeek v3.2-exp standard siège à la vingt-huitième place tandis que sa variante thinking tombe à la quarante-deuxième. DeepSeek v3.1-terminus standard est à la vingt-deuxième ; son homologue thinking chute à la cinquante-huitième — un écart de trente-six positions. GPT-5.2 standard bat GPT-5.2-high.

Ce que cela me dit est important : l'écriture créative n'est pas principalement un problème de raisonnement. C'est un problème esthétique. Pour les modèles qui possèdent déjà de forts instincts littéraires, la pensée étendue peut affiner ces instincts — comme un éditeur attentif révisant un premier brouillon solide. Mais pour les modèles dont la force créative est plus instinctive et axée sur les motifs, forcer la délibération polit en fait les aspérités qui rendent la prose vivante. Parfois, la première réponse capture quelque chose que le calcul supplémentaire lisse dans la médiocrité. Si vous utilisez des modèles capables de raisonnement pour un travail créatif, testez les deux modes. L'hypothèse selon laquelle plus de raisonnement égale une meilleure sortie ne tient pas ici, et comprendre quand désactiver la pensée peut être plus précieux que de savoir quand l'activer.

La Marée Montante

En dessous du niveau supérieur, l'histoire est celle de la prolifération et de la diversité — et c'est sans doute plus important que la course pour la première place.

DeepSeek place dix modèles dans le top soixante, devenant la troisième organisation la plus représentée après Anthropic et OpenAI. Leurs variantes v3.1 et v3.2 s'étendent de la vingt-deuxième à la cinquante-huitième place, couvrant une gamme de niveaux de capacité créative. En tant que projet à poids ouverts, DeepSeek représente quelque chose de fondamentalement différent des leaders propriétaires : ces modèles peuvent être téléchargés, hébergés localement et affinés (fine-tuned) pour des tâches créatives spécifiques. Si vous construisez un outil d'écriture par IA ou intégrez des capacités créatives dans un pipeline produit, DeepSeek offre une flexibilité que les modèles uniquement API ne peuvent égaler.

Le tableau plus large est encore plus frappant. Entre DeepSeek, Baidu, Moonshot, Alibaba, Z.ai et Tencent, les laboratoires d'IA chinois représentent désormais vingt-deux des soixante modèles classés — plus d'un tiers de tout le classement. Kimi K2.5 de Moonshot a fait ses débuts avec sa variante thinking à la vingt-et-unième place, portant l'entreprise à trois placements. Baidu détient trois positions avec sa gamme ERNIE 5.0. Qwen3 d'Alibaba a trois variantes classées. GLM-4.7 de Z.ai siège à la vingt-septième place. Ce n'est pas de la convergence — c'est une véritable diversité. Différentes données d'entraînement, différents contextes culturels et différentes traditions littéraires produisent des modèles avec des sensibilités créatives distinctes. J'ai vu ERNIE créer des métaphores qui ne viendraient pas à l'esprit de modèles entraînés en Occident, et GLM gérer le rythme narratif de manières qui semblent fraîches précisément parce que l'ADN littéraire est différent. L'écosystème mondial de l'IA créative en est plus riche.

OpenAI détient onze modèles, bien que leur histoire créative ait une intrigue secondaire intéressante. GPT-4.5-preview à la douzième place devance à la fois GPT-5.1-high à la quatorzième et GPT-5.1 standard à la vingt-troisième. Parfois, un modèle optimisé pour la nuance surpasse son successeur techniquement supérieur sur des tâches qui privilégient la subtilité par rapport à la capacité brute. ChatGPT-4o-latest à la dix-septième place renforce ce point : les modèles optimisés pour la conversation ont un avantage inhérent en écriture créative car raconter une histoire est fondamentalement conversationnel. Vous ne calculez pas une réponse — vous soutenez une voix.

Grok a sculpté une véritable identité créative avec sept modèles classés. Là où Claude excelle en intelligence émotionnelle, Grok apporte une honnêteté émotionnelle. L'humour est plus tranchant, les métaphores plus audacieuses, les personnages moins polis et plus vivants. Quand je veux une écriture qui prend des risques — une fiction qui pourrait mettre un lecteur mal à l'aise de manière productive — Grok est là où je commence. C'est le modèle qui a le moins peur de sa propre voix, et en écriture créative, l'intrépidité compte. Medium-2508 de Mistral à la cinquante-sixième place représente la présence de l'Europe sur le tableau. Hunyuan de Tencent à la cinquante-troisième ajoute une autre voix venue de Chine. Le champ n'a jamais été aussi large.

Où Tout Cela Mène

Je vais vous dire ce que je pense qu'il va se passer ensuite, car les tendances dans ces données pointent vers quelque chose de spécifique.

L'écart continue de se comprimer. La différence entre la première et la soixantième place est d'environ 7,4 pour cent — serré selon les normes historiques, et se réduisant à chaque mise à jour. Nous approchons d'un seuil où les différences significatives entre les modèles passent de la qualité brute à la personnalité créative. La question cesse d'être "quel modèle écrit le mieux" et devient "la voix de quel modèle correspond à ce projet particulier". C'est un changement fondamental dans la façon dont les écrivains et les équipes créatives devraient penser à la sélection de l'IA.

Des modèles créatifs spécialisés sont inévitables. L'architecture à usage général a poussé la qualité de l'écriture créative remarquablement loin, mais le prochain véritable bond viendra de modèles explicitement réglés pour la structure narrative, la cohérence des personnages, l'authenticité des dialogues ou la forme poétique. Je m'attends à ce qu'au moins un grand laboratoire lance un modèle spécialiste de la créativité d'ici le second semestre de cette année — un qui s'engage entièrement dans la capacité littéraire plutôt que d'essayer de résoudre des maths, écrire du code et raconter des histoires simultanément. Lorsque cela se produira, cela réinitialisera le sommet de ce classement du jour au lendemain.

Les modèles à poids ouverts combleront l'écart restant. La présence de dix modèles de DeepSeek est l'indicateur avancé. À mesure que les alternatives ouvertes approchent de la parité avec les systèmes propriétaires dans les benchmarks créatifs, l'économie de l'écriture assistée par IA change radicalement. Écrivains, studios et éditeurs gagnent accès à une IA créative de haut niveau sans tarification par token, changeant les courbes d'adoption et la relation fondamentale entre les écrivains humains et les outils d'IA.

La véritable frontière est l'orchestration, pas l'isolement. Le travail créatif le plus sophistiqué que j'ai vu récemment n'utilise pas un seul modèle — il en utilise trois ou quatre en séquence. Gemini pour l'idéation initiale et l'exploration stylistique. Claude pour le raffinement émotionnel et le polissage des dialogues. DeepSeek ou Qwen pour des perspectives culturelles alternatives. Grok quand le brouillon a besoin de tranchant. L'avenir ne consiste pas à couronner un modèle comme roi. Il s'agit d'apprendre à diriger un ensemble, en faisant correspondre la personnalité créative de chaque modèle au bon moment dans le processus d'écriture. Les écrivains qui comprendront cela en premier produiront des œuvres qui sembleront différentes de tout ce qu'un seul modèle — ou un seul humain — pourrait accomplir seul.

Choisir Votre Partenaire Créatif

Après des années à écrire aux côtés de ces modèles, voici ce que j'ai appris sur l'adéquation du bon outil à la bonne tâche :

Polyvalence

Gemini 3 Pro s'adapte à tout genre, toute forme, tout ton. Quand le brief est indéfini ou que le projet exige de l'étendue, commencez ici.

Profondeur Émotionnelle

Claude Opus 4.6 écrit avec retenue et un sentiment véritable. Pour les dialogues, le travail sur les personnages et la prose où ce qui n'est pas dit compte le plus.

Vitesse & Qualité

Gemini 3 Flash prouve que rapide ne signifie pas pire. Pour la rédaction itérative, les projets à grand volume et le prototypage rapide d'idées narratives.

Personnalité

Grok 4.1 prend des risques créatifs que d'autres modèles ne prennent pas. Pour la fiction qui a besoin de tranchant, d'humour et de personnages qui semblent vivants plutôt qu'assemblés.

Entreprise

GPT-4.5 / GPT-5.1 fournissent des sorties polies et fiables qui s'intègrent dans les flux de travail existants. Quand la cohérence et la sécurité de la marque comptent autant que la créativité.

Open Source

DeepSeek / Qwen : hébergez-le vous-même, affinez-le pour votre domaine. Quand vous avez besoin d'IA créative à grande échelle sans coûts par token, l'économie est imbattable.

Il n'y a pas de meilleure IA créative unique. Il y a des voix en évolution avec différentes forces, et le vrai pouvoir réside dans le fait de savoir quelle voix sert quel moment dans l'histoire que vous essayez de raconter.

Source des données : Classements de l'Arène d'Écriture Créative par IA, 6 Février 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard