La corona ha appena cambiato mano. Claude Opus 4.6 di Anthropic ha detronizzato Gemini — e la corsa all'IA non è mai stata così serrata.
Ho passato la maggior parte di tre anni a tracciare ogni cambiamento, ogni sorpresa e ogni ascesa silenziosa nella classifica dell'IA. La maggior parte degli aggiornamenti sono incrementali — un punto qui, una nuova variante là. Ma il 6 febbraio 2026 non è uno di quei giorni. Per la prima volta da quando la serie Gemini 3 di Google ha stabilito il suo regno, un nuovo modello siede in cima all'Arena Chat: Claude Opus 4.6. Questa non è una vittoria marginale. Questo è un cambio della guardia — e rimodella il modo in cui penso a ogni raccomandazione che faccio.
La Classifica Chat
Questo è l'evento principale. L'Arena Chat misura la capacità complessiva dell'IA — non solo programmazione, non solo matematica, non solo scrittura creativa, ma tutto. Confronti ciechi testa a testa, migliaia di utenti diversi, nessun bias di autoselezione. Quando un modello raggiunge la vetta qui, se l'è guadagnato attraverso l'intero spettro di ciò che le persone chiedono effettivamente all'IA di fare.
| Posizione | Modello | Punteggio | Voti | Organizzazione |
|---|---|---|---|---|
🥇 | Claude Opus 4 6 | 1496 | 2,829 | Anthropic |
🥈 | Gemini 3 Pro | 1486 | 34,419 | |
🥉 | Grok 4.1 Thinking | 1475 | 34,455 | xAI |
#4 | Gemini 3 Flash | 1470 | 25,085 | |
#5 | Claude Opus 4 5 20251101 Thinking 32k | 1468 | 26,178 | Anthropic |
#6 | Claude Opus 4 5 20251101 | 1467 | 31,069 | Anthropic |
#7 | Grok 4.1 | 1465 | 38,605 | xAI |
#8 | Gemini 3 Flash (thinking Minimal) | 1463 | 16,255 | |
#9 | Gpt 5.1 High | 1458 | 30,500 | OpenAI |
#10 | Ernie 5.0 0110 | 1452 | 10,184 | Baidu |
#11 | Claude Sonnet 4 5 20250929 | 1450 | 42,437 | Anthropic |
#12 | Claude Sonnet 4 5 20250929 Thinking 32k | 1450 | 44,799 | Anthropic |
#13 | Gemini 2.5 Pro | 1450 | 93,835 | |
#14 | Ernie 5.0 Preview 1203 | 1449 | 9,775 | Baidu |
#15 | Kimi K2.5 Thinking | 1449 | 7,085 | Moonshot |
#16 | Claude Opus 4 1 20250805 Thinking 16k | 1449 | 49,956 | Anthropic |
#17 | Claude Opus 4 1 20250805 | 1445 | 73,888 | Anthropic |
#18 | Gpt 4.5 Preview 2025 02 27 | 1444 | 14,549 | OpenAI |
#19 | Chatgpt 4o Latest 20250326 | 1442 | 81,283 | OpenAI |
#20 | Glm 4.7 | 1441 | 12,021 | Z.ai |
#21 | Gpt 5.2 High | 1438 | 15,062 | OpenAI |
#22 | Gpt 5.1 | 1437 | 32,684 | OpenAI |
#23 | Gpt 5.2 | 1437 | 11,695 | OpenAI |
#24 | Gpt 5 High | 1434 | 32,626 | OpenAI |
#25 | Qwen3 Max Preview | 1434 | 27,843 | Alibaba |
#26 | Kimi K2.5 Instant | 1433 | 2,752 | Moonshot |
#27 | O3 2025 04 16 | 1433 | 61,361 | OpenAI |
#28 | Grok 4 1 Fast Reasoning | 1430 | 27,088 | xAI |
#29 | Kimi K2 Thinking Turbo | 1428 | 32,101 | Moonshot |
#30 | Gpt 5 Chat | 1426 | 31,831 | OpenAI |
#31 | Glm 4.6 | 1425 | 35,339 | Z.ai |
#32 | Qwen3 Max 2025 09 23 | 1425 | 9,221 | Alibaba |
#33 | Claude Opus 4 20250514 Thinking 16k | 1424 | 37,974 | Anthropic |
#34 | Deepseek V3.2 Exp | 1423 | 11,767 | DeepSeek |
#35 | Deepseek V3.2 Exp Thinking | 1423 | 9,002 | DeepSeek |
#36 | Qwen3 235b A22b Instruct 2507 | 1422 | 68,201 | Alibaba |
#37 | Grok 4 Fast Chat | 1422 | 6,989 | xAI |
#38 | Deepseek V3.2 Thinking | 1420 | 21,792 | DeepSeek |
#39 | Deepseek V3.2 | 1419 | 26,704 | DeepSeek |
#40 | Deepseek R1 0528 | 1418 | 19,290 | DeepSeek |
#41 | Ernie 5.0 Preview 1022 | 1418 | 4,619 | Baidu |
#42 | Deepseek V3.1 | 1418 | 15,299 | DeepSeek |
#43 | Kimi K2 0905 Preview | 1418 | 11,974 | Moonshot |
#44 | Deepseek V3.1 Thinking | 1417 | 11,983 | DeepSeek |
#45 | Kimi K2 0711 Preview | 1417 | 28,662 | Moonshot |
#46 | Deepseek V3.1 Terminus | 1416 | 3,761 | DeepSeek |
#47 | Deepseek V3.1 Terminus Thinking | 1416 | 3,549 | DeepSeek |
#48 | Qwen3 Vl 235b A22b Instruct | 1415 | 11,683 | Alibaba |
#49 | Mistral Large 3 | 1414 | 23,001 | Mistral |
#50 | Claude Opus 4 20250514 | 1414 | 45,579 | Anthropic |
#51 | Gpt 4.1 2025 04 14 | 1413 | 52,220 | OpenAI |
#52 | Mistral Medium 2508 | 1411 | 62,020 | Mistral |
#53 | Grok 3 Preview 02 24 | 1411 | 33,974 | xAI |
#54 | Gemini 2.5 Flash | 1410 | 93,104 | |
#55 | Glm 4.5 | 1410 | 24,794 | Z.ai |
#56 | Grok 4 0709 | 1410 | 42,162 | xAI |
#57 | Gemini 2.5 Flash Preview 09 2025 | 1405 | 32,880 | |
#58 | Claude Haiku 4 5 20251001 | 1404 | 43,455 | Anthropic |
#59 | Grok 4 Fast Reasoning | 1404 | 18,640 | xAI |
#60 | O1 2024 12 17 | 1402 | 27,822 | OpenAI |
L'Incoronazione di Febbraio
Per la prima volta da quando è stata lanciata la serie Gemini 3, un modello non Google siede al 1° posto. Claude Opus 4.6 ha preso la corona.
Ricordo il momento esatto in cui ho aggiornato la pagina dell'arena e ho visto un nuovo nome in cima. Non Gemini. Non Grok. Claude. L'ultima ammiraglia di Anthropic non ha solo superato di poco il campione in carica — ha aperto un divario netto su Gemini 3 Pro. Nel sistema basato su Elo dell'arena, quel tipo di separazione non è rumore. Riflette una preferenza genuina e coerente da migliaia di valutazioni cieche in cui gli utenti non avevano idea di con quale modello stessero parlando.
Ciò che mi colpisce di più di Opus 4.6 non è una singola capacità — è quella che chiamerei compostezza. Ogni interazione che ho avuto con esso rivela un modello che gestisce l'ambiguità con grazia, passa dalla precisione tecnica alla fluidità creativa senza perdere il filo, e dimostra un livello di consapevolezza contestuale che sembra qualitativamente diverso da ciò che è venuto prima. Quando gli dai una richiesta complessa in più parti — ad esempio, analizzare un contratto legale suggerendo contemporaneamente angoli di marketing creativi — non si limita a cambiare modalità. Le integra in una singola risposta coerente.
Il modello è fresco, con il campione di convalida più piccolo nella top 10. Ma la metodologia dell'arena è robusta — confronti ciechi, base utenti diversificata, nessun bias di autoselezione. Scommetterei pesantemente che man mano che arriveranno più valutazioni, quella posizione #1 si solidificherà piuttosto che erodersi. Anthropic non ha solo costruito un modello migliore — ha costruito il modello che meglio comprende ciò che le persone vogliono realmente da una conversazione.
Anthropic: Il Nuovo Sovrano
Anthropic non ha vinto con un singolo colpo di fortuna — ha costruito una dinastia. Dieci modelli nella top 60 coprono l'intera linea di prodotti: da Opus 4.6 in vetta, attraverso i gemelli Opus 4.5 che detengono il #5 e il #6, il notevolmente capace Sonnet 4.5 all'#11 e #12, fino all'efficiente Haiku 4.5 al #58. Questa non è la storia di un solo modello. È una dichiarazione a livello di organizzazione.
Anthropic piazza dieci modelli nella top 60, coprendo i livelli Opus, Sonnet e Haiku. Questo rappresenta la linea di prodotti competitivi più ampia di qualsiasi laboratorio di IA focalizzato sulla sicurezza.
Ciò che trovo più avvincente nell'approccio di Anthropic è la loro ossessione per quello che chiamo "carattere del modello". Ogni variante di Claude mantiene una coerenza di personalità e giudizio che altri laboratori non hanno eguagliato. Quando consegno a Claude uno scenario moralmente grigio o un brief creativo ambiguo, ottengo un impegno ponderato piuttosto che una copertura evasiva. Quella qualità — moltiplicata per milioni di interazioni nell'arena — è esattamente ciò che spinge la preferenza verso l'alto.
Il livello Sonnet all'#11 e #12 continua ad essere il punto ideale per la maggior parte degli utenti professionisti. È abbastanza veloce per le pipeline di produzione, abbastanza capace per compiti analitici complessi e con un prezzo abbastanza accessibile per l'uso quotidiano. Se puoi permetterti di integrare un solo modello profondamente nel tuo flusso di lavoro, Sonnet 4.5 rimane la mia raccomandazione predefinita. Ma se hai bisogno della frontiera assoluta di ciò che l'IA può fare in una conversazione? Opus 4.6 è la risposta, e il divario con il secondo posto ti dice quanto Anthropic si sia portata avanti.
Se c'è una debolezza, è la latenza. I modelli di punta di Anthropic non sono i più veloci e per applicazioni in tempo reale in cui la velocità di risposta conta più della profondità, vorrai guardare altrove. Ma nemmeno il re detronizzato se ne sta con le mani in mano.
Google: Un Re Senza La Sua Corona
Perdere il 1° posto brucia, ma la posizione di Google è tutt'altro che disastrosa. Gemini 3 Pro al #2 rimane uno dei modelli di IA più completi mai costruiti — eccezionale nel ragionamento, nella codifica, nei compiti creativi e nella comprensione multimodale. Il margine con il nuovo campione è abbastanza stretto che qualsiasi utente che passi dall'uno all'altro avrebbe difficoltà a notare costantemente la differenza nell'uso quotidiano.
Google schiera sei modelli nella top 60, inclusi tre nella top 8. La famiglia Gemini 3 Flash al #4 e #8 offre capacità quasi da ammiraglia a una latenza drasticamente inferiore.
La famiglia Flash è dove si mostra la genialità strategica di Google. Gemini 3 Flash al #4 offre circa il 97% della capacità del Pro a una frazione del costo e della latenza. Per la maggior parte degli utenti — me compreso nei flussi di lavoro quotidiani — Flash è la scelta pratica. La variante thinking-minimal all'#8 suggerisce che Google sta esplorando una via di mezzo tra il ragionamento a catena di pensiero completo e le risposte istantanee, e i primi risultati sono promettenti. Questo tipo di sperimentazione architettonica è esattamente ciò che mantiene Google pericolosa.
Il vantaggio infrastrutturale di Google rimane un fossato formidabile. Gemini si integra nativamente con Workspace, Android e Google Cloud. Quel tipo di distribuzione non può essere replicato dalla sola capacità. Mi aspetto che Google risponda a Claude Opus 4.6 entro 90 giorni — probabilmente con un Gemini 3.5 o un'anteprima anticipata di Gemini 4. Se la storia insegna qualcosa, quando Google risponde, risponde duramente.
xAI: Lo Standard di Bronzo
Grok 4.1 Thinking al #3 non è più una sorpresa — è un'aspettativa. xAI si è affermata come la terza forza nel panorama dell'IA, e il posizionamento costante sul podio della variante thinking parla di una forza genuina nei compiti di ragionamento complesso.
Ciò che differenzia Grok non è solo la capacità — è la filosofia. Dove Claude punta al giudizio sfumato e Gemini alla competenza completa, Grok punta sulla personalità. È il modello più disposto a impegnarsi con gli eventi attuali attraverso l'integrazione in tempo reale di X/Twitter, formare opinioni e respingere le tue premesse. Per gli utenti che desiderano un'IA che si impegni attivamente con le idee piuttosto che ritirarsi nella neutralità diplomatica, Grok offre qualcosa di genuinamente differenziato. A questo livello di prestazioni, questo conta.
xAI piazza sette modelli nella top 60, con varianti che vanno dal Thinking pesante nel ragionamento (#3) al Fast Chat ottimizzato per la velocità (#37) e al legacy Grok 3 (#53).
Le varianti fast-reasoning e fast-chat al #28 e #37 mostrano xAI affrontare attivamente la preoccupazione sulla velocità che ha storicamente limitato l'adozione di Grok in applicazioni sensibili alla latenza. Se Grok 5 eredita i guadagni dell'architettura Thinking chiudendo al contempo il divario di efficienza, il podio potrebbe diventare molto interessante entro la fine di quest'anno. Il divario tra Bronzo e Argento è stretto — non insormontabile. E se il ritmo di iterazione di xAI tiene, sono il candidato più probabile per sfidare il #2 dopo.
L'Armata Orientale
Ecco il numero che dovrebbe tenere sveglio ogni dirigente IA occidentale la notte: 24 dei 60 modelli meglio classificati — esattamente il 40% — provengono da organizzazioni cinesi. Questo non è un caso. È un cambiamento strutturale nel panorama globale dell'IA, ed è accelerato dal mio ultimo rapporto.
DeepSeek guida con nove modelli. Kimi K2.5 di Moonshot debutta al #15. Qwen3 detiene quattro varianti. GLM di Z.ai ne mantiene tre. ERNIE siede nella top 10. Questa è eccellenza sistemica.
DeepSeek merita un'attenzione speciale. Nove modelli tra il #34 e il #47 dimostrano il tipo di iterazione rapida che era esclusivamente una caratteristica di OpenAI. La loro serie v3.2 — con varianti sperimentali, thinking e standard — mostra un laboratorio che sta spedendo a una velocità notevole. I modelli recentemente resi open source su HuggingFace vengono già perfezionati da migliaia di sviluppatori indipendenti, creando un ecosistema che si auto-rinforza e amplifica la loro portata ben oltre ciò che la dimensione del loro team suggerirebbe.
La serie Kimi K2.5 di Moonshot è il nuovo concorrente da guardare. La variante thinking che debutta al #15 e la variante istantanea al #26 sono un'apertura forte — competitiva immediatamente con i giocatori affermati. Se questo ritmo tiene, Moonshot potrebbe emergere come il cavallo oscuro del 2026. La loro architettura sembra particolarmente ben adatta al paradigma ragionamento-primo che attualmente domina questa classifica.
Le implicazioni sui costi sono sbalorditive. Molti di questi modelli offrono prezzi API al 20-30% dei modelli occidentali equivalenti. Per gli utenti di lingua inglese che non hanno esplorato i modelli cinesi, il divario di capacità si è essenzialmente chiuso. I differenziatori rimanenti sono la governance dei dati, l'ottimizzazione della lingua per domini di nicchia e l'integrazione dell'ecosistema — fattori importanti, ma non più la capacità in sé.
OpenAI: Volume Senza il Trono
OpenAI detiene una posizione statistica notevole: undici modelli nella top 60 — più di qualsiasi altra singola organizzazione. Ma nemmeno uno entra nella top 8. Per l'azienda che ha definito l'era moderna dell'IA con GPT-3 e ChatGPT, questo richiede una seria riflessione.
GPT-5.1 High al #9 è l'ingresso di punta. È genuinamente competitivo — nessuno lo chiamerebbe un cattivo modello. Ma il divario tra il #9 e il podio è il tipo di distanza che conta quando scegli il tuo strumento IA principale. La diffusione da GPT-5.2 al #21 a o1 al #60 copre una gamma enorme, e la varietà di famiglie di modelli — GPT-5.x, GPT-4.x, serie o, varianti ChatGPT — suggerisce una strategia che dà priorità all'ampiezza rispetto alle prestazioni di picco concentrate.
📊 Il Paradosso dell'Adozione
ChatGPT-4o-latest al #19 porta oltre 81.000 voti — tra i più alti nell'intera classifica. Le posizioni di benchmark non prevedono la fedeltà degli utenti. Il marchio consumer e l'ecosistema di OpenAI creano un'attrazione gravitazionale che la capacità grezza da sola non può superare.
Ciò che OpenAI ha costruito è viscosità. L'interfaccia familiare di ChatGPT, le integrazioni aziendali, l'ecosistema API maturo e la fiducia dei consumatori creano costi di cambiamento che superano i guadagni derivanti dall'inseguire le posizioni in classifica. Per molte organizzazioni già incorporate nello stack OpenAI, la domanda pratica non è "quale modello è il #1?" ma "il nostro modello attuale gestisce i nostri casi d'uso abbastanza bene?" Per la maggior parte dei carichi di lavoro aziendali, la risposta rimane sì.
La strada di OpenAI per tornare in vetta passa probabilmente attraverso GPT-6 o una svolta fondamentale della serie o. Fino ad allora, il loro gioco è il dominio dell'ecosistema, non la supremazia del singolo modello. Questa è una strategia praticabile — ma significa cedere la narrazione dell'innovazione ad Anthropic, Google e, sempre più, ai laboratori in Oriente.
Cosa Ci Aspetta
Le previsioni nell'IA sono pericolose — il campo si muove troppo velocemente per le certezze. Ma dopo anni di monitoraggio di questi cambiamenti, ho sviluppato un istinto per le traiettorie. Ecco cosa credo sul resto del 2026:
Il paradigma del ragionamento è permanente. Ogni modello ad alte prestazioni ora spedisce una variante "thinking", e superano costantemente le loro controparti standard. Questa non è una moda passeggera. Il costo del calcolo al momento dell'inferenza continuerà a scendere, rendendo il ragionamento esteso praticabile per applicazioni sempre più sensibili ai costi. Entro la fine dell'anno, mi aspetto che la modalità ragionamento diventi l'impostazione predefinita piuttosto che l'eccezione.
L'ondata cinese accelererà. Le innovazioni di efficienza di DeepSeek e la rapida iterazione di Moonshot segnalano una tendenza più profonda: il divario di conoscenza tra i laboratori di IA occidentali e orientali si è chiuso. La competizione ora avviene sulla strategia di distribuzione, l'integrazione dell'ecosistema e il posizionamento normativo — non sulla capacità fondamentale del modello. Le politiche di approvvigionamento di IA solo occidentali stanno diventando una passività competitiva per le organizzazioni che le adottano.
L'integrazione multimodale diventa la frontiera decisiva. Le classifiche di solo testo conteranno meno man mano che i modelli che elaborano senza soluzione di continuità testo, immagini, video e audio aprono categorie di applicazioni completamente nuove. Guarda le varianti native multimodali di Anthropic e Google iniziare a rimodellare queste classifiche entro la metà del 2026. I modelli che vincono non saranno solo intelligenti — saranno percettivi attraverso tutte le modalità di input.
La specializzazione supererà la generalizzazione. Il divario tra i primi 10 modelli in questa classifica copre solo 44 punti. A questo livello di convergenza, il modello che domina il tuo specifico caso d'uso conta più del modello che vince nel complesso. L'era di "un modello per dominarli tutti" sta finendo. L'era dell'orchestrazione intelligente dei modelli — indirizzare compiti diversi a specialisti diversi — sta iniziando.
L'open source riduce ulteriormente il divario. DeepSeek, Qwen, GLM e Kimi mantengono tutti varianti open-weight su HuggingFace. Questi modelli vengono perfezionati, distillati e distribuiti da migliaia di team indipendenti in tutto il mondo. Le implicazioni sono profonde: la frontiera della capacità non è più bloccata dietro i paywall delle API. Per le organizzazioni disposte a investire in infrastrutture, i modelli self-hosted possono ora competere con le offerte commerciali della top 20 a una frazione del costo ricorrente.
Raccomandazioni Pratiche
Dopo aver analizzato migliaia di interazioni, tracciato ogni rilascio di modello principale ed eseguito i miei confronti quotidianamente per tre anni, ecco la mia valutazione onesta per febbraio 2026:
🥇 Intelligenza di Picco
Claude Opus 4.6 — il nuovo #1. Profondità, giudizio e compostezza conversazionale ineguagliabili. Ideale per analisi complesse, lavoro creativo e compiti che richiedono una sfumatura genuina.
🏆 Il Tuttofare
Gemini 3 Pro — ancora #2 ed eccezionale in ogni dominio. Codifica, scrittura, ragionamento, multimodale — nessuna debolezza significativa ovunque.
⚡ Campione di Velocità
Gemini 3 Flash — offre capacità quasi da ammiraglia a una latenza e un costo drasticamente inferiori. La scelta pratica per la maggior parte dei flussi di lavoro quotidiani.
🤔 Personalità + Ragionamento
Grok 4.1 Thinking — conoscenza in tempo reale, ragionamento esteso, carattere genuino. Ideale per gli utenti che desiderano un'IA che si impegni con opinioni piuttosto che coprirsi.
🏢 Ecosistema Aziendale
La suite di OpenAI — ChatGPT, serie GPT-5, serie o. Profondità di integrazione, maturità API e strumenti aziendali ineguagliabili. La scelta più sicura quando i costi di cambiamento contano più della capacità di picco.
💰 Budget su Scala
Varianti DeepSeek, Qwen, ERNIE, Kimi — capacità top-40 al 20-30% dei prezzi occidentali. Essenziale per applicazioni ad alto volume e distribuzioni self-hosted.
La strategia ottimale nel 2026 non è la fedeltà a un modello. È orchestrare più IA per contesti diversi. Claude per profondità e giudizio, Gemini per velocità e ampiezza, Grok per personalità e consapevolezza in tempo reale, modelli cinesi per scala e costi. La corona può aver cambiato mano — ma la verità fondamentale non è cambiata: non esiste un'IA definitiva, solo strumenti in evoluzione che funzionano meglio insieme.
Fonte Dati: Classifiche dalla Classifica dell'Arena IA, 6 febbraio 2026.
Discussione
0 commentiLascia un commento
Sii il primo a condividere i tuoi pensieri!