Leaderboard dell'Arena di Scrittura Creativa AI — Febbraio 2026

Intuizione Centrale

La scrittura creativa è dove l'intelligenza grezza si inchina al gusto, alla moderazione e al coraggio di lasciare le cose giuste non dette.

Tre anni passati a chiedere all'IA di raccontarmi storie. Non riassunti, non scalette — vera narrativa. Del tipo in cui un personaggio entra in una stanza e senti la temperatura cambiare. In questi anni, ho visto questa classifica trasformarsi da una curiosità in un autentico barometro della capacità letteraria. Febbraio 2026 ha portato il cambiamento più interessante finora: un modello completamente nuovo arrivato in silenzio, salito rapidamente e che ha ridotto un divario che sembrava permanente solo poche settimane fa. Ecco il quadro completo — sessanta modelli classificati, analizzati e contestualizzati da qualcuno che lavora con loro ogni giorno.

La Classifica di Scrittura Creativa

Il codice ha la sintassi. La matematica ha le dimostrazioni. Ma la scrittura creativa ha la voce — ritmo, sorpresa, risonanza emotiva. Questa è l'Arena di Scrittura Creativa, il benchmark più impegnativo nella valutazione dell'IA, dove sessanta modelli sono classificati in base a quanto bene raccontano storie che commuovono davvero le persone. Ecco come stanno le cose a Febbraio 2026.

Posizione	Modello	Punteggio	Voti	Organizzazione
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Lo Sconvolgimento di Febbraio

Quando ho estratto gli ultimi dati, una voce mi ha fermato: Claude Opus 4.6 seduto al numero due. Non perché un modello Anthropic classificato in alto sia insolito — lo fanno costantemente. Ma perché questo modello è atterrato in seconda posizione con quasi nessuna storia di valutazione alle spalle. Quel tipo di consenso anticipato è raro. Significa che la prima ondata di tester — gli ossessivi che eseguono prompt identici su ogni nuova versione entro poche ore dal lancio — ha trovato qualcosa di genuinamente diverso nel suo output creativo.

La vera storia, però, è il divario. A gennaio, la distanza tra il primo e il secondo posto era di venticinque punti. Ora sono dodici. Gemini 3 Pro detiene ancora l'oro, e ha guadagnato quella posizione onestamente. Ma il vantaggio si è dimezzato in un singolo ciclo di aggiornamento. Se sei Google, questa tendenza richiede attenzione. Se sei Anthropic, è la conferma che il tuo approccio all'addestramento dell'IA creativa sta convergendo su qualcosa di potente.

Nel frattempo, i modelli appena sotto i primi due si sono rimescolati in modo significativo. La variante "thinking" di Claude Opus 4.5 è salita al terzo posto, spingendo l'Opus 4.5 standard al quarto e Gemini 3 Flash al quinto. Flash deteneva il terzo posto solo il mese scorso. Il podio non sta solo cambiando mani in cima — è instabile ovunque. E l'instabilità, nella mia esperienza, precede le scoperte.

Cime Dominanti

Gemini 3 Pro rimane il modello a cui mi rivolgo quando non so ancora di cosa ho bisogno. Ciò che lo mantiene al numero uno è la gamma: chiedigli uno stile alla Hemingway e ti restituisce una prosa scarna e muscolosa. Chiedi narrativa postmoderna sperimentale e cambia registro senza perdere coerenza. Epistolare vittoriano, noir hardboiled, realismo magico, letteratura per bambini — Gemini gestisce queste transizioni in un modo che suggerisce una comprensione genuina della forma, non una mimica superficiale. Google piazza sei modelli nei primi sessanta, con Gemini 3 Flash al quinto e Gemini 2.5 Pro al sesto posto, completando un forte trio in vetta.

Claude è un animale completamente diverso. Se Gemini è gamma, Claude è profondità. I modelli di Anthropic hanno sempre eccelso nelle sottigliezze più difficili da insegnare a una macchina: quando lasciare che il silenzio porti una scena, quando una frase dovrebbe interrompersi invece di continuare, quando ciò che un personaggio non dice rivela più di ciò che dice. Opus 4.6 spinge questo oltre. Nei miei test, ha prodotto dialoghi che sembravano genuinamente vissuti. I personaggi non stavano recitando battute — stavano pensando, esitando, scegliendo le parole come fanno le persone vere quando qualcosa di importante è in bilico. Anthropic ha ora tredici modelli nei primi sessanta, più di qualsiasi altra organizzazione, con cinque piazzati nei primi undici. Qualunque sia il loro approccio all'addestramento della capacità creativa, sta funzionando su tutta la loro linea di prodotti.

Ecco un'osservazione che non riceve abbastanza attenzione: il ragionamento esteso — la modalità "thinking" — non migliora in modo affidabile la scrittura creativa. Il modello è incoerente e profondamente rivelatore.

Per i modelli Claude Opus, le varianti "thinking" tendono a classificarsi leggermente più in alto: Opus 4.5 Thinking al terzo contro lo standard al quarto, Opus 4.1 Thinking al nono contro lo standard all'undicesimo. Grok 4.1 Thinking supera la sua variante standard di tre posizioni. Ma passa ad altre architetture e il modello si inverte — a volte drammaticamente. DeepSeek v3.2-exp standard siede al ventottesimo mentre la sua variante thinking scende al quarantaduesimo. DeepSeek v3.1-terminus standard è al ventiduesimo; la sua controparte thinking scende al cinquantottesimo — un divario di trentasei posizioni. GPT-5.2 standard batte GPT-5.2-high.

Ciò che questo mi dice è importante: la scrittura creativa non è principalmente un problema di ragionamento. È un problema estetico. Per i modelli che possiedono già forti istinti letterari, il pensiero esteso può raffinare quegli istinti — come un attento editor che revisiona una solida prima bozza. Ma per i modelli la cui forza creativa è più istintiva e guidata da pattern, forzare la deliberazione in realtà leviga i bordi ruvidi che fanno sembrare viva la prosa. A volte la prima risposta cattura qualcosa che il calcolo aggiuntivo ammorbidisce nella mediocrità. Se usi modelli abilitati al ragionamento per il lavoro creativo, testa entrambe le modalità. L'assunzione che più ragionamento equivalga a un output migliore non regge qui, e capire quando spegnere il pensiero potrebbe essere più prezioso che sapere quando accenderlo.

La Marea Crescente

Sotto il livello superiore, la storia è proliferazione e diversità — ed è probabilmente più importante della corsa per il numero uno.

DeepSeek piazza dieci modelli nei primi sessanta, diventando la terza organizzazione più rappresentata dopo Anthropic e OpenAI. Le loro varianti v3.1 e v3.2 spaziano dal ventiduesimo al cinquantottesimo posto, coprendo una gamma di livelli di capacità creativa. Come progetto a pesi aperti, DeepSeek rappresenta qualcosa di fondamentalmente diverso dai leader proprietari: questi modelli possono essere scaricati, ospitati localmente e perfezionati (fine-tuned) per specifici compiti creativi. Se stai costruendo uno strumento di scrittura AI o integrando capacità creative in una pipeline di prodotto, DeepSeek offre una flessibilità che i modelli solo API non possono eguagliare.

Il quadro più ampio è ancora più sorprendente. Tra DeepSeek, Baidu, Moonshot, Alibaba, Z.ai e Tencent, i laboratori di IA cinesi rappresentano ora ventidue dei sessanta modelli classificati — oltre un terzo dell'intera classifica. Kimi K2.5 di Moonshot ha debuttato con la sua variante thinking al ventunesimo posto, portando l'azienda a tre piazzamenti. Baidu detiene tre posizioni con la sua linea ERNIE 5.0. Qwen3 di Alibaba ha tre varianti classificate. GLM-4.7 di Z.ai siede al ventisettesimo. Questa non è convergenza — è vera diversità. Diversi dati di addestramento, diversi contesti culturali e diverse tradizioni letterarie producono modelli con sensibilità creative distinte. Ho visto ERNIE creare metafore che non verrebbero in mente ai modelli addestrati in occidente, e GLM gestire il ritmo narrativo in modi che sembrano freschi proprio perché il DNA letterario è diverso. L'ecosistema globale dell'IA creativa è più ricco per questo.

OpenAI detiene undici modelli, anche se la loro storia creativa ha una sottotrama interessante. GPT-4.5-preview al dodicesimo posto precede sia GPT-5.1-high al quattordicesimo che GPT-5.1 standard al ventitreesimo. A volte un modello ottimizzato per le sfumature supera il suo successore tecnicamente superiore in compiti che premiano la sottigliezza rispetto alla capacità grezza. ChatGPT-4o-latest al diciassettesimo rafforza il punto: i modelli ottimizzati per la conversazione portano un vantaggio intrinseco nella scrittura creativa perché la narrazione è fondamentalmente conversazionale. Non stai calcolando una risposta — stai sostenendo una voce.

Grok ha scolpito una vera identità creativa con sette modelli classificati. Dove Claude eccelle nell'intelligenza emotiva, Grok porta onestà emotiva. L'umorismo è più tagliente, le metafore più audaci, i personaggi meno rifiniti e più vivi. Quando voglio una scrittura che corra rischi — narrativa che potrebbe mettere un lettore a disagio in modo produttivo — Grok è da dove inizio. È il modello che ha meno paura della propria voce, e nella scrittura creativa, l'intrepidezza conta. Mistral medium-2508 al cinquantaseiesimo rappresenta la presenza dell'Europa nel tabellone. Hunyuan di Tencent al cinquantatreesimo aggiunge un'altra voce dalla Cina. Il campo non è mai stato così ampio.

Dove Porta Tutto Questo

Vi dirò cosa penso succederà dopo, perché le tendenze in questi dati puntano da qualche parte di specifico.

Il divario continua a comprimersi. La distanza tra il primo e il sessantesimo posto è di circa il 7,4 percento — stretta per gli standard storici, e si riduce con ogni aggiornamento. Ci stiamo avvicinando a una soglia in cui le differenze significative tra i modelli passano dalla qualità grezza alla personalità creativa. La domanda smette di essere "quale modello scrive meglio" e diventa "la voce di quale modello si adatta a questo particolare progetto". Questo è un cambiamento fondamentale nel modo in cui scrittori e team creativi dovrebbero pensare alla selezione dell'IA.

Modelli creativi specializzati sono inevitabili. L'architettura generalista ha spinto la qualità della scrittura creativa notevolmente lontano, ma il prossimo vero salto verrà da modelli esplicitamente sintonizzati per la struttura narrativa, la coerenza dei personaggi, l'autenticità dei dialoghi o la forma poetica. Mi aspetto che almeno un grande laboratorio rilasci un modello specialista in creatività entro la seconda metà di quest'anno — uno che si impegni interamente nella capacità letteraria piuttosto che cercare di risolvere matematica, scrivere codice e raccontare storie contemporaneamente. Quando ciò accadrà, azzererà la cima di questa classifica dall'oggi al domani.

I modelli a pesi aperti chiuderanno il divario rimanente. La presenza di dieci modelli di DeepSeek è l'indicatore principale. Man mano che le alternative aperte si avvicinano alla parità con i sistemi proprietari nei benchmark creativi, l'economia della scrittura assistita da IA cambia drasticamente. Scrittori, studi ed editori ottengono accesso a IA creativa di alto livello senza prezzi per token, cambiando le curve di adozione e la relazione fondamentale tra scrittori umani e strumenti di IA.

La vera frontiera è l'orchestrazione, non l'isolamento. Il lavoro creativo più sofisticato che ho visto di recente non usa un singolo modello — ne usa tre o quattro in sequenza. Gemini per l'ideazione iniziale e l'esplorazione stilistica. Claude per il raffinamento emotivo e la lucidatura dei dialoghi. DeepSeek o Qwen per prospettive culturali alternative. Grok quando la bozza ha bisogno di mordente. Il futuro non riguarda l'incoronazione di un modello come re. Riguarda l'imparare a dirigere un ensemble, abbinando la personalità creativa di ogni modello al momento giusto nel processo di scrittura. Gli scrittori che capiranno questo per primi produrranno lavori che sembreranno diversi da qualsiasi cosa un singolo modello — o un singolo umano — potrebbe ottenere da solo.

Scegliere il Tuo Partner Creativo

Dopo anni di scrittura a fianco di questi modelli, ecco cosa ho imparato sull'abbinamento dello strumento giusto al compito giusto:

Versatilità

Gemini 3 Pro si adatta a qualsiasi genere, qualsiasi forma, qualsiasi tono. Quando il brief è indefinito o il progetto richiede ampiezza, inizia qui.

Profondità Emotiva

Claude Opus 4.6 scrive con moderazione e sentimento genuino. Per dialoghi, lavoro sui personaggi e prosa in cui ciò che non viene detto conta di più.

Velocità e Qualità

Gemini 3 Flash dimostra che veloce non significa peggiore. Per stesure iterative, progetti ad alto volume e prototipazione rapida di idee narrative.

Personalità

Grok 4.1 corre rischi creativi che altri modelli non corrono. Per narrativa che ha bisogno di mordente, umorismo e personaggi che sembrano vivi piuttosto che assemblati.

Aziendale

GPT-4.5 / GPT-5.1 forniscono output lucidi e affidabili che si integrano nei flussi di lavoro esistenti. Quando la coerenza e la sicurezza del marchio contano quanto la creatività.

Open Source

DeepSeek / Qwen: ospitalo tu stesso, perfezionalo per il tuo dominio. Quando hai bisogno di IA creativa su scala senza costi per token, l'economia è imbattibile.

Non esiste una singola migliore IA creativa. Ci sono voci in evoluzione con diversi punti di forza, e il vero potere sta nel sapere quale voce serve quale momento nella storia che stai cercando di raccontare.

Fonte Dati: Classifiche della Arena di Scrittura Creativa AI, 6 Febbraio 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard