Leaderboard dell'Arena di Scrittura Creativa AI — Febbraio 2026

Intuizione Centrale

La scrittura creativa è dove l'intelligenza grezza si inchina al gusto, alla moderazione e al coraggio di lasciare le cose giuste non dette.

Tre anni passati a chiedere all'IA di raccontarmi storie. Non riassunti, non scalette — vera narrativa. Del tipo in cui un personaggio entra in una stanza e senti la temperatura cambiare. In questi anni, ho visto questa classifica trasformarsi da una curiosità in un autentico barometro della capacità letteraria. Febbraio 2026 ha portato il cambiamento più interessante finora: un modello completamente nuovo arrivato in silenzio, salito rapidamente e che ha ridotto un divario che sembrava permanente solo poche settimane fa. Ecco il quadro completo — sessanta modelli classificati, analizzati e contestualizzati da qualcuno che lavora con loro ogni giorno.

La Classifica di Scrittura Creativa

Il codice ha la sintassi. La matematica ha le dimostrazioni. Ma la scrittura creativa ha la voce — ritmo, sorpresa, risonanza emotiva. Questa è l'Arena di Scrittura Creativa, il benchmark più impegnativo nella valutazione dell'IA, dove sessanta modelli sono classificati in base a quanto bene raccontano storie che commuovono davvero le persone. Ecco come stanno le cose a Febbraio 2026.

Posizione Modello Punteggio Voti Organizzazione
🥇
Gemini 3 Pro 14904,861Google
🥈
Claude Opus 4 6 1478347Anthropic
🥉
Claude Opus 4 5 20251101 Thinking 32k 14593,667Anthropic
#4
Claude Opus 4 5 20251101 14574,382Anthropic
#5
Gemini 3 Flash 14563,678Google
#6
Gemini 2.5 Pro 145012,564Google
#7
Claude Sonnet 4 5 20250929 14475,769Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14472,253Google
#9
Claude Opus 4 1 20250805 Thinking 16k 14456,651Anthropic
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14426,015Anthropic
#11
Claude Opus 4 1 20250805 14409,807Anthropic
#12
Gpt 4.5 Preview 2025 02 27 14382,618OpenAI
#13
Grok 4.1 Thinking 14344,819xAI
#14
Gpt 5.1 High 14344,213OpenAI
#15
Claude Opus 4 20250514 Thinking 16k 14284,750Anthropic
#16
Grok 4.1 14275,119xAI
#17
Chatgpt 4o Latest 20250326 142211,146OpenAI
#18
Ernie 5.0 Preview 1203 14201,477Baidu
#19
Claude Opus 4 20250514 14195,794Anthropic
#20
Ernie 5.0 0110 14181,622Baidu
#21
Kimi K2.5 Thinking 14181,059Moonshot
#22
Deepseek V3.1 Terminus 1411458DeepSeek
#23
Gpt 5.1 14114,512OpenAI
#24
Ernie 5.0 Preview 1022 1411662Baidu
#25
Deepseek V3.1 Thinking 14101,720DeepSeek
#26
Grok 4 1 Fast Reasoning 14043,798xAI
#27
Glm 4.7 14031,797Z.ai
#28
Deepseek V3.2 Exp 14031,500DeepSeek
#29
Gpt 4.1 2025 04 14 14026,858OpenAI
#30
Glm 4.6 14024,764Z.ai
#31
Kimi K2.5 Instant 1402427Moonshot
#32
Grok 3 Preview 02 24 14024,972xAI
#33
Deepseek V3.2 13993,529DeepSeek
#34
Gemini 2.5 Flash 139812,294Google
#35
Gpt 5.2 13981,679OpenAI
#36
Grok 4 0709 13975,559xAI
#37
Qwen3 Max Preview 13963,713Alibaba
#38
Claude Sonnet 4 20250514 Thinking 32k 13964,582Anthropic
#39
Deepseek V3.1 13952,082DeepSeek
#40
Qwen3 Max 2025 09 23 13951,154Alibaba
#41
Claude 3 7 Sonnet 20250219 Thinking 32k 13955,472Anthropic
#42
Deepseek V3.2 Exp Thinking 13951,154DeepSeek
#43
Gpt 5 Chat 13944,010OpenAI
#44
Gpt 5.2 High 13942,133OpenAI
#45
Kimi K2 Thinking Turbo 13934,520Moonshot
#46
Deepseek V3 0324 13916,338DeepSeek
#47
Deepseek V3.2 Thinking 13903,113DeepSeek
#48
Deepseek R1 0528 13882,660DeepSeek
#49
Claude Sonnet 4 20250514 13855,328Anthropic
#50
Qwen3 235b A22b Instruct 2507 13849,102Alibaba
#51
O3 2025 04 16 13848,014OpenAI
#52
O1 2024 12 17 13834,646OpenAI
#53
Hunyuan T1 20250711 1382642Tencent
#54
Grok 4 Fast Chat 1382995xAI
#55
Gemini 2.5 Flash Preview 09 2025 13824,285Google
#56
Mistral Medium 2508 13828,527Mistral
#57
Claude Haiku 4 5 20251001 13825,754Anthropic
#58
Deepseek V3.1 Terminus Thinking 1381446DeepSeek
#59
Grok 4 Fast Reasoning 13802,372xAI
#60
Gpt 5 High 13794,330OpenAI

Lo Sconvolgimento di Febbraio

Quando ho estratto gli ultimi dati, una voce mi ha fermato: Claude Opus 4.6 seduto al numero due. Non perché un modello Anthropic classificato in alto sia insolito — lo fanno costantemente. Ma perché questo modello è atterrato in seconda posizione con quasi nessuna storia di valutazione alle spalle. Quel tipo di consenso anticipato è raro. Significa che la prima ondata di tester — gli ossessivi che eseguono prompt identici su ogni nuova versione entro poche ore dal lancio — ha trovato qualcosa di genuinamente diverso nel suo output creativo.

La vera storia, però, è il divario. A gennaio, la distanza tra il primo e il secondo posto era di venticinque punti. Ora sono dodici. Gemini 3 Pro detiene ancora l'oro, e ha guadagnato quella posizione onestamente. Ma il vantaggio si è dimezzato in un singolo ciclo di aggiornamento. Se sei Google, questa tendenza richiede attenzione. Se sei Anthropic, è la conferma che il tuo approccio all'addestramento dell'IA creativa sta convergendo su qualcosa di potente.

Nel frattempo, i modelli appena sotto i primi due si sono rimescolati in modo significativo. La variante "thinking" di Claude Opus 4.5 è salita al terzo posto, spingendo l'Opus 4.5 standard al quarto e Gemini 3 Flash al quinto. Flash deteneva il terzo posto solo il mese scorso. Il podio non sta solo cambiando mani in cima — è instabile ovunque. E l'instabilità, nella mia esperienza, precede le scoperte.

Cime Dominanti

Gemini 3 Pro rimane il modello a cui mi rivolgo quando non so ancora di cosa ho bisogno. Ciò che lo mantiene al numero uno è la gamma: chiedigli uno stile alla Hemingway e ti restituisce una prosa scarna e muscolosa. Chiedi narrativa postmoderna sperimentale e cambia registro senza perdere coerenza. Epistolare vittoriano, noir hardboiled, realismo magico, letteratura per bambini — Gemini gestisce queste transizioni in un modo che suggerisce una comprensione genuina della forma, non una mimica superficiale. Google piazza sei modelli nei primi sessanta, con Gemini 3 Flash al quinto e Gemini 2.5 Pro al sesto posto, completando un forte trio in vetta.

Claude è un animale completamente diverso. Se Gemini è gamma, Claude è profondità. I modelli di Anthropic hanno sempre eccelso nelle sottigliezze più difficili da insegnare a una macchina: quando lasciare che il silenzio porti una scena, quando una frase dovrebbe interrompersi invece di continuare, quando ciò che un personaggio non dice rivela più di ciò che dice. Opus 4.6 spinge questo oltre. Nei miei test, ha prodotto dialoghi che sembravano genuinamente vissuti. I personaggi non stavano recitando battute — stavano pensando, esitando, scegliendo le parole come fanno le persone vere quando qualcosa di importante è in bilico. Anthropic ha ora tredici modelli nei primi sessanta, più di qualsiasi altra organizzazione, con cinque piazzati nei primi undici. Qualunque sia il loro approccio all'addestramento della capacità creativa, sta funzionando su tutta la loro linea di prodotti.

Ecco un'osservazione che non riceve abbastanza attenzione: il ragionamento esteso — la modalità "thinking" — non migliora in modo affidabile la scrittura creativa. Il modello è incoerente e profondamente rivelatore.

Per i modelli Claude Opus, le varianti "thinking" tendono a classificarsi leggermente più in alto: Opus 4.5 Thinking al terzo contro lo standard al quarto, Opus 4.1 Thinking al nono contro lo standard all'undicesimo. Grok 4.1 Thinking supera la sua variante standard di tre posizioni. Ma passa ad altre architetture e il modello si inverte — a volte drammaticamente. DeepSeek v3.2-exp standard siede al ventottesimo mentre la sua variante thinking scende al quarantaduesimo. DeepSeek v3.1-terminus standard è al ventiduesimo; la sua controparte thinking scende al cinquantottesimo — un divario di trentasei posizioni. GPT-5.2 standard batte GPT-5.2-high.

Ciò che questo mi dice è importante: la scrittura creativa non è principalmente un problema di ragionamento. È un problema estetico. Per i modelli che possiedono già forti istinti letterari, il pensiero esteso può raffinare quegli istinti — come un attento editor che revisiona una solida prima bozza. Ma per i modelli la cui forza creativa è più istintiva e guidata da pattern, forzare la deliberazione in realtà leviga i bordi ruvidi che fanno sembrare viva la prosa. A volte la prima risposta cattura qualcosa che il calcolo aggiuntivo ammorbidisce nella mediocrità. Se usi modelli abilitati al ragionamento per il lavoro creativo, testa entrambe le modalità. L'assunzione che più ragionamento equivalga a un output migliore non regge qui, e capire quando spegnere il pensiero potrebbe essere più prezioso che sapere quando accenderlo.

La Marea Crescente

Sotto il livello superiore, la storia è proliferazione e diversità — ed è probabilmente più importante della corsa per il numero uno.

DeepSeek piazza dieci modelli nei primi sessanta, diventando la terza organizzazione più rappresentata dopo Anthropic e OpenAI. Le loro varianti v3.1 e v3.2 spaziano dal ventiduesimo al cinquantottesimo posto, coprendo una gamma di livelli di capacità creativa. Come progetto a pesi aperti, DeepSeek rappresenta qualcosa di fondamentalmente diverso dai leader proprietari: questi modelli possono essere scaricati, ospitati localmente e perfezionati (fine-tuned) per specifici compiti creativi. Se stai costruendo uno strumento di scrittura AI o integrando capacità creative in una pipeline di prodotto, DeepSeek offre una flessibilità che i modelli solo API non possono eguagliare.

Il quadro più ampio è ancora più sorprendente. Tra DeepSeek, Baidu, Moonshot, Alibaba, Z.ai e Tencent, i laboratori di IA cinesi rappresentano ora ventidue dei sessanta modelli classificati — oltre un terzo dell'intera classifica. Kimi K2.5 di Moonshot ha debuttato con la sua variante thinking al ventunesimo posto, portando l'azienda a tre piazzamenti. Baidu detiene tre posizioni con la sua linea ERNIE 5.0. Qwen3 di Alibaba ha tre varianti classificate. GLM-4.7 di Z.ai siede al ventisettesimo. Questa non è convergenza — è vera diversità. Diversi dati di addestramento, diversi contesti culturali e diverse tradizioni letterarie producono modelli con sensibilità creative distinte. Ho visto ERNIE creare metafore che non verrebbero in mente ai modelli addestrati in occidente, e GLM gestire il ritmo narrativo in modi che sembrano freschi proprio perché il DNA letterario è diverso. L'ecosistema globale dell'IA creativa è più ricco per questo.

OpenAI detiene undici modelli, anche se la loro storia creativa ha una sottotrama interessante. GPT-4.5-preview al dodicesimo posto precede sia GPT-5.1-high al quattordicesimo che GPT-5.1 standard al ventitreesimo. A volte un modello ottimizzato per le sfumature supera il suo successore tecnicamente superiore in compiti che premiano la sottigliezza rispetto alla capacità grezza. ChatGPT-4o-latest al diciassettesimo rafforza il punto: i modelli ottimizzati per la conversazione portano un vantaggio intrinseco nella scrittura creativa perché la narrazione è fondamentalmente conversazionale. Non stai calcolando una risposta — stai sostenendo una voce.

Grok ha scolpito una vera identità creativa con sette modelli classificati. Dove Claude eccelle nell'intelligenza emotiva, Grok porta onestà emotiva. L'umorismo è più tagliente, le metafore più audaci, i personaggi meno rifiniti e più vivi. Quando voglio una scrittura che corra rischi — narrativa che potrebbe mettere un lettore a disagio in modo produttivo — Grok è da dove inizio. È il modello che ha meno paura della propria voce, e nella scrittura creativa, l'intrepidezza conta. Mistral medium-2508 al cinquantaseiesimo rappresenta la presenza dell'Europa nel tabellone. Hunyuan di Tencent al cinquantatreesimo aggiunge un'altra voce dalla Cina. Il campo non è mai stato così ampio.

Dove Porta Tutto Questo

Vi dirò cosa penso succederà dopo, perché le tendenze in questi dati puntano da qualche parte di specifico.

Il divario continua a comprimersi. La distanza tra il primo e il sessantesimo posto è di circa il 7,4 percento — stretta per gli standard storici, e si riduce con ogni aggiornamento. Ci stiamo avvicinando a una soglia in cui le differenze significative tra i modelli passano dalla qualità grezza alla personalità creativa. La domanda smette di essere "quale modello scrive meglio" e diventa "la voce di quale modello si adatta a questo particolare progetto". Questo è un cambiamento fondamentale nel modo in cui scrittori e team creativi dovrebbero pensare alla selezione dell'IA.

Modelli creativi specializzati sono inevitabili. L'architettura generalista ha spinto la qualità della scrittura creativa notevolmente lontano, ma il prossimo vero salto verrà da modelli esplicitamente sintonizzati per la struttura narrativa, la coerenza dei personaggi, l'autenticità dei dialoghi o la forma poetica. Mi aspetto che almeno un grande laboratorio rilasci un modello specialista in creatività entro la seconda metà di quest'anno — uno che si impegni interamente nella capacità letteraria piuttosto che cercare di risolvere matematica, scrivere codice e raccontare storie contemporaneamente. Quando ciò accadrà, azzererà la cima di questa classifica dall'oggi al domani.

I modelli a pesi aperti chiuderanno il divario rimanente. La presenza di dieci modelli di DeepSeek è l'indicatore principale. Man mano che le alternative aperte si avvicinano alla parità con i sistemi proprietari nei benchmark creativi, l'economia della scrittura assistita da IA cambia drasticamente. Scrittori, studi ed editori ottengono accesso a IA creativa di alto livello senza prezzi per token, cambiando le curve di adozione e la relazione fondamentale tra scrittori umani e strumenti di IA.

La vera frontiera è l'orchestrazione, non l'isolamento. Il lavoro creativo più sofisticato che ho visto di recente non usa un singolo modello — ne usa tre o quattro in sequenza. Gemini per l'ideazione iniziale e l'esplorazione stilistica. Claude per il raffinamento emotivo e la lucidatura dei dialoghi. DeepSeek o Qwen per prospettive culturali alternative. Grok quando la bozza ha bisogno di mordente. Il futuro non riguarda l'incoronazione di un modello come re. Riguarda l'imparare a dirigere un ensemble, abbinando la personalità creativa di ogni modello al momento giusto nel processo di scrittura. Gli scrittori che capiranno questo per primi produrranno lavori che sembreranno diversi da qualsiasi cosa un singolo modello — o un singolo umano — potrebbe ottenere da solo.

Scegliere il Tuo Partner Creativo

Dopo anni di scrittura a fianco di questi modelli, ecco cosa ho imparato sull'abbinamento dello strumento giusto al compito giusto:

Versatilità

Gemini 3 Pro si adatta a qualsiasi genere, qualsiasi forma, qualsiasi tono. Quando il brief è indefinito o il progetto richiede ampiezza, inizia qui.

Profondità Emotiva

Claude Opus 4.6 scrive con moderazione e sentimento genuino. Per dialoghi, lavoro sui personaggi e prosa in cui ciò che non viene detto conta di più.

Velocità e Qualità

Gemini 3 Flash dimostra che veloce non significa peggiore. Per stesure iterative, progetti ad alto volume e prototipazione rapida di idee narrative.

Personalità

Grok 4.1 corre rischi creativi che altri modelli non corrono. Per narrativa che ha bisogno di mordente, umorismo e personaggi che sembrano vivi piuttosto che assemblati.

Aziendale

GPT-4.5 / GPT-5.1 forniscono output lucidi e affidabili che si integrano nei flussi di lavoro esistenti. Quando la coerenza e la sicurezza del marchio contano quanto la creatività.

Open Source

DeepSeek / Qwen: ospitalo tu stesso, perfezionalo per il tuo dominio. Quando hai bisogno di IA creativa su scala senza costi per token, l'economia è imbattibile.

Non esiste una singola migliore IA creativa. Ci sono voci in evoluzione con diversi punti di forza, e il vero potere sta nel sapere quale voce serve quale momento nella storia che stai cercando di raccontare.


Fonte Dati: Classifiche della Arena di Scrittura Creativa AI, 6 Febbraio 2026.

Discussione

0 commenti

Lascia un commento

Sii il primo a condividere i tuoi pensieri!