L'écriture créative est l'endroit où l'intelligence brute s'incline devant le goût, la retenue et le courage de laisser les bonnes choses non dites.
Trois ans à demander à l'IA de me raconter des histoires. Pas des résumés, pas des plans — de la vraie fiction. Le genre où un personnage entre dans une pièce et vous sentez la température changer. Au cours de ces années, j'ai vu ce classement passer d'une curiosité à un véritable baromètre de la capacité littéraire. Février 2026 a apporté le changement le plus intéressant à ce jour : un tout nouveau modèle arrivé discrètement, qui a grimpé rapidement et a réduit un écart qui semblait permanent il y a quelques semaines à peine. Voici le tableau complet — soixante modèles classés, analysés et mis en contexte par quelqu'un qui travaille avec eux tous les jours.
Le Classement de l'Écriture Créative
Le code a une syntaxe. Les maths ont des preuves. Mais l'écriture créative a une voix — rythme, surprise, résonance émotionnelle. C'est l'Arène d'Écriture Créative, le benchmark le plus exigeant en évaluation d'IA, où soixante modèles sont classés selon la qualité avec laquelle ils racontent des histoires qui émeuvent réellement les gens. Voici où tout en est en février 2026.
| Rang | Modèle | Score | Votes | Organisation |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
La Rupture de Février
Lorsque j'ai extrait les dernières données, une entrée m'a arrêté : Claude Opus 4.6 assis à la deuxième place. Non pas parce qu'un modèle Anthropic bien classé soit inhabituel — ils le font constamment. Mais parce que ce modèle a atterri en deuxième position avec presque aucun historique d'évaluation derrière lui. Ce genre de consensus précoce est rare. Cela signifie que la première vague de testeurs — les obsédés qui exécutent des prompts identiques sur chaque nouvelle version dans les heures suivant le lancement — a trouvé quelque chose de véritablement différent dans sa production créative.
La vraie histoire, cependant, c'est l'écart. En janvier, la distance entre la première et la deuxième place était de vingt-cinq points confortables. Maintenant, elle est de douze. Gemini 3 Pro détient toujours l'or, et a gagné cette position honnêtement. Mais l'avance a diminué de moitié en un seul cycle de mise à jour. Si vous êtes Google, cette tendance exige de l'attention. Si vous êtes Anthropic, c'est la confirmation que votre approche de l'entraînement de l'IA créative converge vers quelque chose de puissant.
Pendant ce temps, les modèles juste en dessous des deux premiers ont été considérablement remaniés. La variante "thinking" de Claude Opus 4.5 est montée à la troisième place, poussant l'Opus 4.5 standard à la quatrième et Gemini 3 Flash à la cinquième. Flash occupait la troisième place le mois dernier. Le podium ne change pas seulement de mains au sommet — il est instable partout. Et l'instabilité, d'après mon expérience, précède les percées.
Hauteurs Dominantes
Gemini 3 Pro reste le modèle vers lequel je me tourne quand je ne sais pas encore ce dont j'ai besoin. Ce qui le maintient au numéro un, c'est l'étendue : demandez-lui du style Hemingway et il livre une prose dépouillée et musclée. Demandez de la fiction postmoderne expérimentale et il change de registre sans perdre en cohérence. Épistolaire victorien, noir hardboiled, réalisme magique, littérature pour enfants — Gemini gère ces transitions d'une manière qui suggère une véritable compréhension de la forme, pas une mimique de surface. Google place six modèles dans le top soixante, avec Gemini 3 Flash en cinquième et Gemini 2.5 Pro en sixième position, complétant un trio solide au sommet.
Claude est un animal entièrement différent. Si Gemini est l'étendue, Claude est la profondeur. Les modèles d'Anthropic ont toujours excellé dans les subtilités les plus difficiles à enseigner à une machine : quand laisser le silence porter une scène, quand une phrase doit se briser au lieu de continuer, quand ce qu'un personnage ne dit pas révèle plus que ce qu'il dit. Opus 4.6 pousse cela plus loin. Lors de mes tests, il a produit des dialogues qui semblaient véritablement habités. Les personnages ne récitaient pas des répliques — ils pensaient, hésitaient, choisissaient leurs mots comme le font les vraies personnes lorsque quelque chose d'important est en jeu. Anthropic a maintenant treize modèles dans le top soixante, plus que toute autre organisation, avec cinq placés dans les onze premiers. Quelle que soit leur approche pour entraîner la capacité créative, elle fonctionne sur toute leur gamme de produits.
Voici une observation qui ne reçoit pas assez d'attention : le raisonnement étendu — le mode "thinking" — n'améliore pas de manière fiable l'écriture créative. Le schéma est incohérent et profondément révélateur.
Pour les modèles Claude Opus, les variantes "thinking" ont tendance à se classer légèrement plus haut : Opus 4.5 Thinking en troisième contre le standard en quatrième, Opus 4.1 Thinking en neuvième contre le standard en onzième. Grok 4.1 Thinking surpasse sa variante standard de trois positions. Mais passez à d'autres architectures et le schéma s'inverse — parfois de façon spectaculaire. DeepSeek v3.2-exp standard siège à la vingt-huitième place tandis que sa variante thinking tombe à la quarante-deuxième. DeepSeek v3.1-terminus standard est à la vingt-deuxième ; son homologue thinking chute à la cinquante-huitième — un écart de trente-six positions. GPT-5.2 standard bat GPT-5.2-high.
Ce que cela me dit est important : l'écriture créative n'est pas principalement un problème de raisonnement. C'est un problème esthétique. Pour les modèles qui possèdent déjà de forts instincts littéraires, la pensée étendue peut affiner ces instincts — comme un éditeur attentif révisant un premier brouillon solide. Mais pour les modèles dont la force créative est plus instinctive et axée sur les motifs, forcer la délibération polit en fait les aspérités qui rendent la prose vivante. Parfois, la première réponse capture quelque chose que le calcul supplémentaire lisse dans la médiocrité. Si vous utilisez des modèles capables de raisonnement pour un travail créatif, testez les deux modes. L'hypothèse selon laquelle plus de raisonnement égale une meilleure sortie ne tient pas ici, et comprendre quand désactiver la pensée peut être plus précieux que de savoir quand l'activer.
La Marée Montante
En dessous du niveau supérieur, l'histoire est celle de la prolifération et de la diversité — et c'est sans doute plus important que la course pour la première place.
DeepSeek place dix modèles dans le top soixante, devenant la troisième organisation la plus représentée après Anthropic et OpenAI. Leurs variantes v3.1 et v3.2 s'étendent de la vingt-deuxième à la cinquante-huitième place, couvrant une gamme de niveaux de capacité créative. En tant que projet à poids ouverts, DeepSeek représente quelque chose de fondamentalement différent des leaders propriétaires : ces modèles peuvent être téléchargés, hébergés localement et affinés (fine-tuned) pour des tâches créatives spécifiques. Si vous construisez un outil d'écriture par IA ou intégrez des capacités créatives dans un pipeline produit, DeepSeek offre une flexibilité que les modèles uniquement API ne peuvent égaler.
Le tableau plus large est encore plus frappant. Entre DeepSeek, Baidu, Moonshot, Alibaba, Z.ai et Tencent, les laboratoires d'IA chinois représentent désormais vingt-deux des soixante modèles classés — plus d'un tiers de tout le classement. Kimi K2.5 de Moonshot a fait ses débuts avec sa variante thinking à la vingt-et-unième place, portant l'entreprise à trois placements. Baidu détient trois positions avec sa gamme ERNIE 5.0. Qwen3 d'Alibaba a trois variantes classées. GLM-4.7 de Z.ai siège à la vingt-septième place. Ce n'est pas de la convergence — c'est une véritable diversité. Différentes données d'entraînement, différents contextes culturels et différentes traditions littéraires produisent des modèles avec des sensibilités créatives distinctes. J'ai vu ERNIE créer des métaphores qui ne viendraient pas à l'esprit de modèles entraînés en Occident, et GLM gérer le rythme narratif de manières qui semblent fraîches précisément parce que l'ADN littéraire est différent. L'écosystème mondial de l'IA créative en est plus riche.
OpenAI détient onze modèles, bien que leur histoire créative ait une intrigue secondaire intéressante. GPT-4.5-preview à la douzième place devance à la fois GPT-5.1-high à la quatorzième et GPT-5.1 standard à la vingt-troisième. Parfois, un modèle optimisé pour la nuance surpasse son successeur techniquement supérieur sur des tâches qui privilégient la subtilité par rapport à la capacité brute. ChatGPT-4o-latest à la dix-septième place renforce ce point : les modèles optimisés pour la conversation ont un avantage inhérent en écriture créative car raconter une histoire est fondamentalement conversationnel. Vous ne calculez pas une réponse — vous soutenez une voix.
Grok a sculpté une véritable identité créative avec sept modèles classés. Là où Claude excelle en intelligence émotionnelle, Grok apporte une honnêteté émotionnelle. L'humour est plus tranchant, les métaphores plus audacieuses, les personnages moins polis et plus vivants. Quand je veux une écriture qui prend des risques — une fiction qui pourrait mettre un lecteur mal à l'aise de manière productive — Grok est là où je commence. C'est le modèle qui a le moins peur de sa propre voix, et en écriture créative, l'intrépidité compte. Medium-2508 de Mistral à la cinquante-sixième place représente la présence de l'Europe sur le tableau. Hunyuan de Tencent à la cinquante-troisième ajoute une autre voix venue de Chine. Le champ n'a jamais été aussi large.
Où Tout Cela Mène
Je vais vous dire ce que je pense qu'il va se passer ensuite, car les tendances dans ces données pointent vers quelque chose de spécifique.
L'écart continue de se comprimer. La différence entre la première et la soixantième place est d'environ 7,4 pour cent — serré selon les normes historiques, et se réduisant à chaque mise à jour. Nous approchons d'un seuil où les différences significatives entre les modèles passent de la qualité brute à la personnalité créative. La question cesse d'être "quel modèle écrit le mieux" et devient "la voix de quel modèle correspond à ce projet particulier". C'est un changement fondamental dans la façon dont les écrivains et les équipes créatives devraient penser à la sélection de l'IA.
Des modèles créatifs spécialisés sont inévitables. L'architecture à usage général a poussé la qualité de l'écriture créative remarquablement loin, mais le prochain véritable bond viendra de modèles explicitement réglés pour la structure narrative, la cohérence des personnages, l'authenticité des dialogues ou la forme poétique. Je m'attends à ce qu'au moins un grand laboratoire lance un modèle spécialiste de la créativité d'ici le second semestre de cette année — un qui s'engage entièrement dans la capacité littéraire plutôt que d'essayer de résoudre des maths, écrire du code et raconter des histoires simultanément. Lorsque cela se produira, cela réinitialisera le sommet de ce classement du jour au lendemain.
Les modèles à poids ouverts combleront l'écart restant. La présence de dix modèles de DeepSeek est l'indicateur avancé. À mesure que les alternatives ouvertes approchent de la parité avec les systèmes propriétaires dans les benchmarks créatifs, l'économie de l'écriture assistée par IA change radicalement. Écrivains, studios et éditeurs gagnent accès à une IA créative de haut niveau sans tarification par token, changeant les courbes d'adoption et la relation fondamentale entre les écrivains humains et les outils d'IA.
La véritable frontière est l'orchestration, pas l'isolement. Le travail créatif le plus sophistiqué que j'ai vu récemment n'utilise pas un seul modèle — il en utilise trois ou quatre en séquence. Gemini pour l'idéation initiale et l'exploration stylistique. Claude pour le raffinement émotionnel et le polissage des dialogues. DeepSeek ou Qwen pour des perspectives culturelles alternatives. Grok quand le brouillon a besoin de tranchant. L'avenir ne consiste pas à couronner un modèle comme roi. Il s'agit d'apprendre à diriger un ensemble, en faisant correspondre la personnalité créative de chaque modèle au bon moment dans le processus d'écriture. Les écrivains qui comprendront cela en premier produiront des œuvres qui sembleront différentes de tout ce qu'un seul modèle — ou un seul humain — pourrait accomplir seul.
Choisir Votre Partenaire Créatif
Après des années à écrire aux côtés de ces modèles, voici ce que j'ai appris sur l'adéquation du bon outil à la bonne tâche :
Polyvalence
Gemini 3 Pro s'adapte à tout genre, toute forme, tout ton. Quand le brief est indéfini ou que le projet exige de l'étendue, commencez ici.
Profondeur Émotionnelle
Claude Opus 4.6 écrit avec retenue et un sentiment véritable. Pour les dialogues, le travail sur les personnages et la prose où ce qui n'est pas dit compte le plus.
Vitesse & Qualité
Gemini 3 Flash prouve que rapide ne signifie pas pire. Pour la rédaction itérative, les projets à grand volume et le prototypage rapide d'idées narratives.
Personnalité
Grok 4.1 prend des risques créatifs que d'autres modèles ne prennent pas. Pour la fiction qui a besoin de tranchant, d'humour et de personnages qui semblent vivants plutôt qu'assemblés.
Il n'y a pas de meilleure IA créative unique. Il y a des voix en évolution avec différentes forces, et le vrai pouvoir réside dans le fait de savoir quelle voix sert quel moment dans l'histoire que vous essayez de raconter.
Source des données : Classements de l'Arène d'Écriture Créative par IA, 6 Février 2026.
Discussion
0 commentairesLaisser un commentaire
Soyez le premier à partager vos pensées !