La migliore IA visiva non è più un unico modello. È sapere quale modello usare per ogni problema.
Ho trascorso le ultime tre settimane eseguendo test di immagine identici su ogni modello di questa classifica: planimetrie architettoniche, prescrizioni scritte a mano, immagini satellitari, meme, dipinti a olio, segnaletica stradale multilingue. La conclusione ha sorpreso anche me. Febbraio 2026 segna un vero punto di svolta per la Vision Arena. Per la prima volta da quando questa arena ha iniziato a monitorare l'intelligenza visiva, qualcuno ha rotto il blocco del podio di Google. E l'intruso che mi ha impressionato di più non è stato OpenAI, ma una startup cinese che la maggior parte degli sviluppatori occidentali non ha mai implementato.
La Classifica della Visione
Sessanta modelli. Tredici organizzazioni. Centinaia di migliaia di valutazioni umane alla cieca. Questa è la gerarchia completa dell'intelligenza visiva al 6 febbraio 2026, e racconta una storia che vale la pena leggere attentamente.
| Rango | Modello | Punteggio | Voti | Organizzazione |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1289 | 11,297 | |
🥈 | Gemini 3 Flash | 1277 | 9,175 | |
🥉 | Gpt 5.2 High | 1257 | 2,749 | OpenAI |
#4 | Gemini 3 Flash (thinking Minimal) | 1256 | 7,313 | |
#5 | Gpt 5.1 High | 1252 | 7,299 | OpenAI |
#6 | Kimi K2.5 Thinking | 1251 | 2,979 | Moonshot |
#7 | Gemini 2.5 Pro | 1246 | 79,747 | |
#8 | Chatgpt 4o Latest 20250326 | 1235 | 23,313 | OpenAI |
#9 | Gpt 5.1 | 1235 | 7,974 | OpenAI |
#10 | Kimi K2.5 Instant | 1231 | 1,663 | Moonshot |
#11 | Gemini 2.5 Flash Preview 09 2025 | 1225 | 5,293 | |
#12 | Gpt 4.5 Preview 2025 02 27 | 1225 | 2,925 | OpenAI |
#13 | Gpt 5.2 | 1223 | 3,013 | OpenAI |
#14 | Gpt 5 Chat | 1222 | 43,264 | OpenAI |
#15 | Ernie 5.0 Preview 1220 | 1216 | 3,623 | Baidu |
#16 | O3 2025 04 16 | 1216 | 49,181 | OpenAI |
#17 | Gemini 2.5 Flash | 1213 | 48,047 | |
#18 | Gpt 4.1 2025 04 14 | 1213 | 44,463 | OpenAI |
#19 | Qwen3 Vl 235b A22b Instruct | 1211 | 10,750 | Alibaba |
#20 | Gpt 5 High | 1208 | 37,581 | OpenAI |
#21 | Claude Opus 4 20250514 Thinking 16k | 1206 | 1,495 | Anthropic |
#22 | Claude Sonnet 4 20250514 Thinking 32k | 1205 | 1,361 | Anthropic |
#23 | Gpt 4.1 Mini 2025 04 14 | 1201 | 43,674 | OpenAI |
#24 | O4 Mini 2025 04 16 | 1199 | 44,239 | OpenAI |
#25 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1195 | 1,676 | Anthropic |
#26 | O1 2024 12 17 | 1192 | 3,694 | OpenAI |
#27 | Claude Opus 4 20250514 | 1191 | 2,579 | Anthropic |
#28 | Gemini 2.5 Flash Lite Preview 06 17 Thinking | 1188 | 39,110 | |
#29 | Hunyuan Vision 1.5 Thinking | 1187 | 2,869 | Tencent |
#30 | Qwen3 Vl 235b A22b Thinking | 1186 | 2,664 | Alibaba |
#31 | Claude Sonnet 4 20250514 | 1186 | 2,066 | Anthropic |
#32 | Grok 4 0709 | 1182 | 34,737 | xAI |
#33 | Gpt 5 Mini High | 1181 | 31,410 | OpenAI |
#34 | Qwen Vl Max 2025 08 13 | 1181 | 3,454 | Alibaba |
#35 | Gemini 1.5 Pro 002 | 1178 | 8,902 | |
#36 | Claude 3 7 Sonnet 20250219 | 1177 | 4,674 | Anthropic |
#37 | Gemini 2.5 Flash Lite Preview 09 2025 No Thinking | 1173 | 5,330 | |
#38 | Gemini 2.0 Flash 001 | 1170 | 9,875 | |
#39 | Gpt 4o 2024 05 13 | 1162 | 23,273 | OpenAI |
#40 | Glm 4.6v | 1161 | 2,611 | Z.ai |
#41 | Claude 3 5 Sonnet 20241022 | 1161 | 10,568 | Anthropic |
#42 | Gemma 3 27b It | 1156 | 18,534 | |
#43 | Mistral Medium 2505 | 1155 | 11,519 | Mistral |
#44 | Glm 4.5v | 1154 | 3,576 | Z.ai |
#45 | Step 1o Turbo 202506 | 1152 | 2,037 | StepFun |
#46 | Hunyuan Large Vision | 1151 | 1,440 | Tencent |
#47 | Mistral Medium 2508 | 1150 | 41,998 | Mistral |
#48 | Claude 3 5 Sonnet 20240620 | 1146 | 21,624 | Anthropic |
#49 | Llama 4 Maverick 17b 128e Instruct | 1145 | 7,410 | Meta |
#50 | Gpt 5 Nano High | 1144 | 4,325 | OpenAI |
#51 | Step 3 | 1144 | 3,558 | StepFun |
#52 | Mistral Small 2506 | 1139 | 11,713 | Mistral |
#53 | Gemini 1.5 Flash 002 | 1139 | 7,241 | |
#54 | Gemini 2.0 Flash Lite Preview 02 05 | 1133 | 3,991 | |
#55 | Claude 3 5 Haiku 20241022 | 1130 | 1,583 | Anthropic |
#56 | Mistral Small 3.1 24b Instruct 2503 | 1126 | 30,955 | Mistral |
#57 | Llama 4 Scout 17b 16e Instruct | 1125 | 6,826 | Meta |
#58 | Step 1o Vision 32k Highres | 1123 | 2,833 | StepFun |
#59 | Qwen2.5 Vl 72b Instruct | 1121 | 3,768 | Alibaba |
#60 | Gpt 4o 2024 08 06 | 1118 | 3,376 | OpenAI |
Punto di Svolta di Febbraio
Quattro nuovi modelli sono entrati in classifica questo mese - e tutti e quattro sono finiti nella top 13. Questo non era mai successo prima. La parte alta della classifica sta diventando più competitiva, non meno.
Lasciatemi spiegare cosa è successo. Dalla mia recensione di gennaio, quattro modelli legacy sono usciti dal fondo della classifica: Gemini 1.5 Pro (originale), Qwen2.5-VL-32B, GPT-4 Turbo e GPT-4o Mini. Questi sono modelli di un'era diversa e la loro partenza era attesa. Ciò che li ha sostituiti è molto più interessante.
GPT-5.2 High ha debuttato al #3, rompendo per la prima volta nella storia di questa arena il dominio completo del podio da parte di Google. La sua variante standard, GPT-5.2, è entrata al #13. Ma il vero shock è arrivato da Moonshot. Il loro modello Kimi K2.5 Thinking è arrivato al #6 e la variante Instant al #10. Una startup senza alcuna presenza precedente in questa classifica ora ha due modelli nella top 10. Non l'avevo previsto.
Anche la compressione del campo è rivelatrice. Il divario tra il #1 e il #60 è di soli 171 punti. Questa è una fascia stretta per sessanta modelli e significa che la metà classifica è brutalmente competitiva. Un singolo miglioramento architetturale o aggiornamento dei dati di addestramento può spostare un modello di dieci o quindici posizioni da un giorno all'altro. Se state costruendo pipeline di produzione attorno a un modello specifico, sappiate che la sua posizione non è permanente.
Gli Occhi dell'IA: Analisi Approfondita
La Dinastia Quasi Perfetta di Google
Gemini 3 Pro detiene la corona e Gemini 3 Flash detiene l'argento. Ma per la prima volta, il bronzo appartiene a qualcun altro. Google occupa ancora la posizione #4 con la variante thinking-minimal di Flash e gestisce tredici modelli tra i primi 60, coprendo ogni livello di prestazioni dall'ammiraglia Gemini 3 Pro fino al leggero Gemini 2.0 Flash Lite. Questa non è una linea di prodotti, è un ecosistema.
Cosa Significa Realmente Multimodale Nativo
Ho dato in pasto a Gemini 3 Pro una foto alla lavagna di un diagramma di architettura di sistema: scatole disegnate frettolosamente, stili di frecce incoerenti, due diversi campioni di calligrafia. Non ha solo trascritto il testo. Ha ricostruito il flusso logico tra i servizi, identificato quali frecce rappresentavano chiamate sincrone rispetto a quelle asincrone in base allo stile della linea e segnalato una potenziale dipendenza circolare che mi ero perso. Questo è ciò che significa "multimodale nativo" nella pratica: il modello non traduce prima le immagini in testo, ma ragiona direttamente sulla struttura visiva.
Ciò che rende la posizione di Google così duratura è la profondità. Gemini 2.5 Pro al #7 rimane il modello più testato nell'arena con quasi 80.000 valutazioni alla cieca alle spalle. Gemini 2.5 Flash al #17 alimenta carichi di lavoro di produzione ad alto rendimento. Anche Gemma 3 27B, un modello open-weight al #42, supera le offerte di punta della maggior parte dei concorrenti. L'approccio di Google è sempre stato quello di vincere per copertura - avere il modello migliore per ogni budget e vincolo di latenza - e nella visione, quella strategia sta funzionando.
L'unica crepa nell'armatura: Google ha perso la vittoria completa del podio. Quando ho trattato per la prima volta questa arena, sembrava che Gemini avrebbe detenuto tutte e tre le medaglie indefinitamente. L'arrivo di GPT-5.2 al #3 dimostra che il vantaggio di Google, sebbene imponente, non è inattaccabile. Se Google non rilascerà presto la versione completa di Gemini 3 Pro (non solo l'anteprima), quella finestra si chiuderà ulteriormente.
OpenAI Rompe il Podio
Questo è il mese più forte di OpenAI nella Vision Arena. GPT-5.2 High al #3 non rompe solo il blocco di Google: segnala un salto significativo nella pipeline di elaborazione visiva di OpenAI. L'ho testato contro la versione di gennaio di GPT-5.1 e i miglioramenti sono più visibili in due aree: comprensione densa dei documenti e interpretazione di scene spazialmente complesse.
Il Vantaggio della Visione Narrativa
Mostra a O3 un grafico delle tendenze dei ricavi trimestrali e non recita numeri: ti dice perché il terzo trimestre ha avuto un picco, quali modelli stagionali sono probabilmente responsabili e come potrebbe apparire il primo trimestre del prossimo anno. Per descrizioni di accessibilità, spiegazioni educative e qualsiasi flusso di lavoro che richieda la traduzione di dati visivi in intuizioni umane, l'approccio di OpenAI rimane impareggiabile. Non vedono le immagini, le narrano.
OpenAI schiera diciassette modelli nella top 60, il numero più alto di qualsiasi organizzazione. L'ampiezza è strategica. GPT-5 Chat al #14 è il cavallo di battaglia per le attività di visione conversazionale. O3 al #16 e O4 Mini al #24 rappresentano il ramo focalizzato sul ragionamento. GPT-5 Nano High al #50 dimostra che puoi ottenere una visione sorprendentemente buona a una frazione del costo. Se il tuo stack funziona sull'API di OpenAI, ora c'è un modello di visione ottimizzato praticamente per ogni punto di latenza e prezzo.
Cosa vale la pena osservare: GPT-5.2 High rispetto alla sua variante standard. La versione High si trova al #3 mentre la GPT-5.2 standard è al #13, un divario di trentaquattro punti. Quella diffusione suggerisce che il livello High sta facendo un'elaborazione visiva sostanzialmente maggiore, forse passaggi di inferenza aggiuntivi o una risoluzione interna maggiore. Per le applicazioni sensibili ai costi, capire dove quel tetto di qualità conta rispetto a dove il livello standard è "abbastanza buono" sarà la decisione architetturale chiave di questo trimestre.
L'Arrivo Silenzioso di Moonshot
Se c'è una cosa che ho imparato monitorando i benchmark dell'IA, è che i concorrenti più pericolosi si annunciano silenziosamente. Moonshot aveva zero modelli in questa classifica il mese scorso. Oggi ne hanno due nella top 10.
Kimi K2.5 Thinking al #6 supera Gemini 2.5 Pro, ChatGPT-4o Latest e ogni singolo modello Anthropic in questa classifica. La variante Instant al #10 scambia un po' di precisione per la velocità, ma batte comunque la maggior parte del campo. Questo non è un progresso incrementale: questa è una startup che scavalca i giocatori affermati.
Ho sottoposto Kimi K2.5 Thinking alla mia batteria di test standard. Sull'estrazione di testi in cinese e giapponese (menu di ristoranti, mappe dei trasporti, note scritte a mano) ha eguagliato o superato Qwen3-VL, che in precedenza consideravo il gold standard per le attività di visione CJK. Sull'analisi dei documenti in lingua inglese, ha tenuto testa a GPT-5.1. Dove mi ha particolarmente sorpreso è stato nella catena di pensiero visiva: dategli un'infografica disordinata e chiedetegli di identificare le tre scelte di design più fuorvianti, e produce un'analisi strutturata e degna di citazione.
L'implicazione strategica è significativa. Moonshot ha sede a Pechino e ha raccolto oltre 1 miliardo di dollari di finanziamenti l'anno scorso. Il loro assistente Kimi ha già un'enorme base di utenti in Cina. Se continuano a iterare a questo ritmo, la top 5 della vision arena potrebbe presto includere tre diverse organizzazioni, rompendo il duopolio Google-OpenAI in cima. Per gli sviluppatori che creano applicazioni globali, in particolare quelle che servono i mercati asiatici, Kimi K2.5 merita una seria valutazione.
L'Occhio Deliberato di Anthropic
Anthropic non sta cercando di vincere sulla velocità o sulla pura precisione. Stanno giocando a un gioco diverso e i risultati sono silenziosamente impressionanti. Claude Opus 4 Thinking al #21 e Claude Sonnet 4 Thinking al #22 guidano i nove modelli di Anthropic nella top 60.
Ecco cosa distingue Claude nei compiti di visione: non si precipita a dare una risposta. Mostra alla maggior parte dei modelli una foto e identificheranno gli oggetti, leggeranno il testo, descriveranno la scena. Mostra a Claude la stessa foto e prima considera cosa l'immagine sta cercando di comunicare. Ho testato questo con una serie di vignette politiche di decenni diversi. Gemini ha descritto accuratamente gli elementi visivi. GPT-5.2 ha fornito il contesto culturale. Claude ha analizzato la tecnica retorica, identificato il pubblico previsto e spiegato perché la vignetta sarebbe stata recepita diversamente nel 2026 rispetto a quando è stata disegnata. Per qualsiasi compito che richieda l'interpretazione dell'intento dietro il contenuto visivo - revisione di documenti legali, analisi di sicurezza, critica del design - l'approccio deliberato di Claude è un vero vantaggio.
La divisione tra pensiero e non pensiero è coerente in tutta la famiglia Claude. Claude 3.7 Sonnet Thinking al #25 rispetto alla variante non pensante al #36 mostra un divario di qualità affidabile. Se stai usando Claude per la visione, abilita sempre la modalità di pensiero: la differenza di qualità giustifica la latenza aggiunta in quasi tutti i casi d'uso che ho testato. Le varianti non pensanti sono più adatte per semplici etichettature o classificazioni dove la velocità conta più della profondità.
La Gara Globale della Visione
I giorni in cui l'IA visiva significava "Google o OpenAI" sono finiti. Questa classifica rappresenta ora tredici organizzazioni distinte in quattro continenti e la competizione a metà classifica è dove stanno avvenendo gli sviluppi più interessanti.
Qwen3-VL di Alibaba al #19 rimane il miglior modello di visione per l'estrazione di documenti multilingue. Recentemente l'ho usato per elaborare un lotto di contratti scansionati in quattro lingue - inglese, mandarino, giapponese e arabo - e ha gestito documenti a scrittura mista con una precisione quasi perfetta, identificando correttamente quali sezioni erano annotazioni scritte a mano rispetto al testo stampato. Il loro modello open-weight Qwen2.5-VL-72B al #59 offre un'opzione self-hosting per le organizzazioni che non possono inviare immagini ad API esterne.
ERNIE 5.0 di Baidu rimane stabile al #15. Hunyuan Vision 1.5 Thinking di Tencent si trova al #29. GLM-4.6V di Z.ai al #40. I laboratori di IA cinesi posizionano collettivamente dodici modelli in questa classifica attraverso cinque diverse organizzazioni. Quella densità di concorrenza all'interno di un singolo ecosistema nazionale sta guidando l'innovazione più velocemente di quanto la maggior parte degli osservatori occidentali si renda conto.
In Europa, Mistral schiera quattro modelli - varianti Medium e Small - fornendo l'unica opzione sovrana dell'UE per le organizzazioni vincolate ai requisiti di residenza dei dati. Grok 4 di xAI al #32 ha accumulato oltre 34.000 valutazioni, rendendolo uno dei modelli più testati sul campo fuori dalla top 20. Il modello open-weight di Meta Llama 4 Maverick al #49 e Scout al #57 danno agli sviluppatori la capacità di eseguire l'IA visiva interamente sulla propria infrastruttura. E le tre voci di StepFun dalla Cina dimostrano che anche i laboratori più piccoli possono produrre modelli di visione competitivi quando si concentrano sulle scommesse architetturali giuste.
Dove Sta Andando l'IA Visiva
Copro queste classifiche da abbastanza tempo per vedere i modelli prima che diventino consenso. Ecco dove penso che l'IA visiva stia andando nei prossimi sei mesi.
La top 5 includerà tre o più organizzazioni entro la metà del 2026. La presa di Google si sta allentando. OpenAI ha dimostrato di poter rompere il podio. Moonshot sta salendo velocemente. Se Anthropic spedisce un modello vision-first - uno progettato da zero per il ragionamento visivo piuttosto che adattato da un modello linguistico - potrebbero unirsi a questo gruppo. L'era del dominio di una singola azienda nell'IA visiva sta finendo.
La visione chain-of-thought diventerà la modalità di inferenza predefinita. Ogni modello che offre una variante "thinking" supera la sua controparte non pensante - costantemente. Kimi K2.5 Thinking contro Instant. Claude Opus 4 Thinking contro standard. Gemini Flash Thinking contro non pensante. Il modello è universale. Entro un anno, mi aspetto che "thinking" diventi la modalità di inferenza standard, con "instant" come opzione esplicita di downgrade per i casi sensibili alla latenza.
La comprensione video rimodellerà queste classifiche. La maggior parte dei modelli qui è stata valutata su immagini statiche. Ma i compiti visivi del mondo reale coinvolgono sempre più video: feed di sicurezza, sequenze di imaging medico, controllo qualità della produzione, navigazione autonoma. I modelli che possono ragionare attraverso fotogrammi temporali, non solo singole istantanee, definiranno la prossima generazione di questa classifica. Google e OpenAI hanno entrambi ricerche in questa direzione, ma il primo a spedire la comprensione video di livello produttivo su scala guadagnerà un enorme vantaggio da first-mover che potrebbe persistere per anni.
Il livello open-weight violerà la top 20. In questo momento, il modello open-weight più alto è Gemma 3 27B al #42. Llama 4 Maverick siede al #49. Questi modelli stanno migliorando più velocemente delle loro controparti proprietarie perché beneficiano del fine-tuning della comunità, dati di addestramento personalizzati e modifiche architetturali che i modelli solo API non possono ricevere. Date altri due trimestri e mi aspetto almeno un modello open-weight nella top 20 - il che cambierà radicalmente l'economia della distribuzione dell'IA visiva su scala.
I modelli verticali specializzati cattureranno la maggior parte del valore economico. L'attuale classifica valuta la comprensione visiva generale. Ma il mercato si sta muovendo verso la specializzazione: modelli di imaging medico che leggono le radiografie meglio di qualsiasi modello generale, modelli di immagini satellitari ottimizzati per il rilevamento dei cambiamenti, IA documentale appositamente costruita per fatture e contratti. La classifica generale rimarrà il titolo, ma i soldi veri saranno negli specialisti verticali costruiti su queste fondamenta.
Le Mie Raccomandazioni per Caso d'Uso
Dopo aver testato tutti i sessanta modelli attraverso flussi di lavoro del mondo reale, ecco la mia guida distillata. Nessun singolo modello vince ovunque - la scelta giusta dipende interamente da cosa stai costruendo.
Massima Precisione
Gemini 3 Pro — ancora il migliore per dettagli strutturali, ragionamento spaziale e interpretazione di diagrammi complessi. Quando la precisione non è negoziabile, questo è il modello.
Produzione Critica per la Velocità
Gemini 3 Flash — qualità quasi da ammiraglia a una latenza sostanzialmente inferiore. La mia raccomandazione predefinita per applicazioni in tempo reale.
Narrativa e Accessibilità
GPT-5.2 High — non legge solo le immagini, spiega cosa significano. Il migliore per la generazione di testo alternativo, contenuti educativi e storytelling da elementi visivi.
Ragionamento Visivo Profondo
Claude Opus 4 Thinking — più lento e più deliberato, ma coglie implicazioni che altri perdono. Ideale per compiti di analisi, revisione e interpretazione.
OCR Multilingue e CJK
Kimi K2.5 Thinking — eccezionale su testo CJK e documenti in lingua mista. Anche forte come ragionatore visivo di uso generale al livello #6.
Sovranità dei Dati UE
Mistral Medium — l'unica opzione competitiva per carichi di lavoro rigorosi GDPR. Mantiene le tue immagini all'interno dell'infrastruttura europea.
Self-Hosting e Privacy
Llama 4 Maverick — visione open-weight che gira sul tuo hardware. Nessuna chiamata API, nessun dato che lascia il perimetro della tua rete.
Attento al Budget
GPT-5 Nano High — sorprendentemente capace per il suo livello di costo. Abbastanza buono per classificazione, etichettatura ed estrazione semplice a una frazione del prezzo di punta.
La strategia di visione più capace nel 2026 è l'orchestrazione multi-modello. Indirizza il ragionamento complesso a Claude. Invia documenti strutturati a Gemini. Genera descrizioni accessibili con GPT-5.2. Usa Kimi per contenuti multilingue. I vincitori non saranno coloro che scelgono il modello "migliore" - saranno coloro che costruiscono il livello di instradamento più intelligente.
Fonte Dati: Classifiche da Arena Vision Leaderboard, 6 febbraio 2026.
Discussione
0 commentiLascia un commento
Sii il primo a condividere i tuoi pensieri!