Il ragionamento matematico non è più vinto da un unico campione. È vinto da chi sa quando usare quale modello per quale problema.
Ho aggiornato la Math Arena questa mattina e ho dovuto guardare due volte. Per la prima volta da quando ho iniziato a monitorare queste classifiche, OpenAI non è più in cima. Gemini 3 Pro di Google ha conquistato la corona nel ragionamento matematico e la storia diventa solo più strana da lì in poi. Una startup con sede a Pechino chiamata Moonshot è appena atterrata sul podio con un modello che la maggior parte degli sviluppatori occidentali non ha nemmeno provato. Dopo settimane di stress test sui migliori contendenti su tutto, dalla combinatoria delle olimpiadi all'analisi reale di livello universitario, ecco cosa ci dicono i dati di febbraio su dove sta effettivamente andando l'IA matematica.
La Classifica Matematica
La matematica rimane il punto di riferimento più onesto nell'IA. Non puoi usare il fascino per risolvere un'equazione differenziale o allucinare una prova corretta. Una risposta è giusta o non lo è. Quella chiarezza binaria è ciò che rende la Math Arena il punto di riferimento di cui mi fido di più quando valuto se un modello può davvero ragionare. Ecco tutti i 60 modelli classificati a febbraio 2026.
| Posizione | Modello | Punteggio | Voti | Organizzazione |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google Conquista la Corona
Ho osservato l'evoluzione dell'IA matematica di Google per tre anni e ciò che hanno realizzato questo mese è a dir poco notevole. Gemini 3 Pro non ha solo ottenuto l'Oro. È arrivato con un netto distacco sul resto del campo. Ma la vera mossa di forza? Gemini 3 Flash seduto proprio dietro di esso all'Argento. Google ora detiene contemporaneamente Oro e Argento nella Math Arena. Questo non era mai successo prima.
Ciò che rende questo significativo va oltre le classifiche. È la strategia architetturale. Gemini 3 Pro è il peso massimo, costruito per la massima profondità di ragionamento, il tipo di modello che punti a prove di livello di ricerca e derivazioni a più passaggi. Gemini 3 Flash è ottimizzato per velocità e costi. Il fatto che un modello ottimizzato per la velocità possa competere al livello Argento ci dice che Google ha decifrato qualcosa di fondamentale su come rendere il ragionamento matematico più veloce senza sacrificare l'accuratezza. La variante thinking-minimal all'ottavo posto offre un altro compromesso prezzo-prestazioni e i vecchi cavalli di battaglia come Gemini 2.5 Pro al 12° e Gemini 2.5 Flash al 46° continuano a servire in modo affidabile.
Google piazza sei modelli nella top 60, coprendo tre generazioni e più fasce di prezzo. Non stanno costruendo un grande modello matematico. Stanno costruendo un intero stack di ragionamento matematico, dal Flash accessibile al Pro di punta, tutti che condividono gli stessi progressi sottostanti.
La mia previsione: Google manterrà questo vantaggio almeno fino alla metà del 2026. Il loro approccio di incorporare il ragionamento matematico come capacità fondamentale in tutta la linea di prodotti, invece di concentrarlo in un'unica ammiraglia, sta pagando dividendi composti. Se stai costruendo qualcosa che richiede un calcolo matematico affidabile, dalla modellazione finanziaria alla simulazione scientifica, Gemini dovrebbe essere la tua prima scelta in questo momento.
La Sorpresa Moonshot
Ecco la storia che nessuno stava scrivendo tre mesi fa. Kimi K2.5 Thinking di Moonshot è atterrato al 3° posto, a pari punti con Gemini 3 Flash per la posizione Argento. Lascia che questo si registri. Un modello di una startup fondata nel 2023 è matematicamente alla pari con la seconda migliore offerta di Google.
Ho testato estensivamente Kimi K2.5 Thinking e ciò che mi colpisce è il suo approccio al ragionamento esteso. Dove altri modelli di pensiero a volte producono catene di pensiero prolisse che girano intorno a un problema prima di atterrare, il ragionamento di Kimi sembra quasi snervantemente diretto. Identifica rapidamente la struttura matematica fondamentale, quindi costruisce verso la soluzione con deviazioni minime. Per problemi in stile competizione in cui hai bisogno sia di precisione che di una catena logica pulita, quella immediatezza è un vero vantaggio.
Moonshot piazza tre modelli nella top 60: Kimi K2.5 Thinking al 3° posto, Kimi K2 Thinking Turbo al 16° e Kimi K2 al 39°. Tre livelli, una filosofia architetturale. Questo tipo di presenza a più livelli da parte di una startup è senza precedenti. Il messaggio è chiaro: l'era in cui solo le aziende da trilioni di dollari potevano costruire un'IA matematica di classe mondiale è finita. L'investimento mirato nella ricerca sull'architettura di ragionamento può competere con enormi budget di calcolo. Aspettatevi che più laboratori seguano questo schema per tutto il 2026.
OpenAI Dopo il Trono
Sarò diretto. GPT-5.2 High, che deteneva l'Oro sin dal suo debutto, ora si trova al 4° posto, a pari merito con Claude Opus 4.5. La corona è stata presa. Ma prima che qualcuno scriva il necrologio, guardate il quadro completo.
OpenAI piazza ancora dodici modelli nella top 60, più di qualsiasi altra organizzazione. Questa non è un'azienda in crisi. Questa è un'azienda con una tale profondità di ecosistema che anche perdere il primo posto la lascia dominare i livelli medi e superiori. GPT-5.1 High detiene il 6° posto. Il modello di ragionamento o3 all'11° posto rimane la mia scelta per problemi di livello competitivo che richiedono un profondo calcolo a più passaggi. GPT-5 High al 17°, il GPT-5.2 standard al 18° e o4-mini al 36° offrono ai costruttori opzioni in ogni fascia di prezzo e requisito di latenza.
Il Vantaggio della Serie o
I modelli di ragionamento dedicati di OpenAI (o3, o4-mini, o1, o3-mini) occupano quattro posizioni nella top 60. Per problemi che richiedono calcoli estesi, prove di disuguaglianze, soddisfazione di vincoli o argomenti combinatori, il tempo di pensiero regolabile della serie o rimane ineguagliabilmente potente. Nessun altro fornitore offre questo livello di controllo della profondità di ragionamento.
Guardando al futuro, credo che la risposta di OpenAI arriverà velocemente. Il divario tra GPT-5.2 High e Gemini 3 Pro non è insormontabile e il modello di OpenAI è sempre stato quello di iterare in modo aggressivo dopo aver perso terreno. Non sarei sorpreso di vedere un GPT-5.3 o un aggiornamento significativo del ragionamento prima dell'estate. La storia più profonda qui non è una caduta. È che la vetta della Math Arena è ora così ferocemente competitiva che mantenere il primo posto richiede un'innovazione continua, non un singolo rilascio forte.
La Rivoluzione dei Modelli di Pensiero
Scansiona la top 10 di questa classifica e conta quanti nomi di modelli includono la parola "thinking" (pensiero). La risposta è rivelatrice: Kimi K2.5 Thinking al 3° posto, Claude Opus 4.5 Thinking al 7°, Gemini 3 Flash thinking-minimal all'8°, Claude Sonnet 4.5 Thinking al 10°. Espandi alla top 20 e sono ovunque. Questo è il singolo più grande cambiamento strutturale nell'IA matematica nell'ultimo anno.
Questi modelli assegnano calcolo aggiuntivo al momento dell'inferenza per elaborare i problemi passo dopo passo prima di impegnarsi in una risposta. È l'equivalente AI di un matematico che prende un foglio di brutta copia prima di scrivere la prova finale. I risultati sono inequivocabili: le varianti di pensiero superano costantemente le loro controparti standard nei compiti matematici.
L'implementazione di Anthropic racconta questa storia particolarmente bene. Claude Opus 4.5 Thinking-32k al 7° posto supera l'Opus 4.5 standard al 5° quando gli viene dato spazio per ragionare. Claude Sonnet 4.5 Thinking al 10° posto colpisce ben al di sopra della sua categoria di peso, entrando nella top 10 nonostante sia un modello di livello medio per progettazione. Anthropic piazza otto modelli in totale nella top 60 e il loro segno distintivo rimane la chiarezza pedagogica. Quando ho bisogno di un modello che non si limiti a risolvere un problema ma spieghi perché la soluzione funziona in un modo che uno studente potrebbe davvero imparare, Claude è ancora impareggiabile.
La mia previsione: entro la fine del 2026, la distinzione tra modelli "standard" e "thinking" scomparirà. Ogni modello assegnerà dinamicamente il tempo di ragionamento in base alla complessità del problema. L'attuale generazione di varianti di pensiero etichettate esplicitamente è un passo di transizione verso un ragionamento universalmente adattivo.
La conclusione pratica è semplice: se l'accuratezza conta più della latenza, scegli sempre la variante di pensiero. L'aumento matematico è coerente e reale. Per le applicazioni di produzione in cui il tempo di risposta è critico, le varianti standard rimangono eccellenti. Ma per la ricerca, l'istruzione o qualsiasi scenario in cui ottenere la risposta giusta è fondamentale, i modelli di pensiero sono il presente e il futuro.
Il Panorama Matematico Globale
Allontana la telecamera e la geografia di questa classifica racconta la sua storia. Dei 60 modelli classificati, 26 provengono da organizzazioni cinesi. Questo è il 43% dell'intero campo. I laboratori americani detengono 32 posti al 53% e Mistral porta la rappresentanza europea con due modelli. La capacità di IA matematica è ora genuinamente multipolare e questo spostamento ha accelerato più velocemente di quanto quasi chiunque avesse previsto.
DeepSeek si distingue con otto modelli nella top 60, a pari merito con Anthropic per il secondo conteggio più alto dopo OpenAI. La famiglia v3.2 nelle posizioni 25, 26, 28 e 56 offre una gamma impressionante, mentre la serie v3.1 e il DeepSeek R1 testato in battaglia al 49° posto riempiono i livelli intermedi. Ciò che rende DeepSeek notevole è il rapporto costo-capacità. Nei miei test, DeepSeek V3.2 offre prestazioni matematiche da top 30 a circa un quinto di quanto addebitano i modelli di punta. Per i team che operano su larga scala con vincoli di budget, questo rapporto è trasformativo.
La famiglia Qwen3 di Alibaba contribuisce con sette modelli, dal Qwen3 Max Preview al 15° posto fino alle varianti open-weight che gli sviluppatori possono mettere a punto sulla propria infrastruttura. Quella strategia open-weight è importante per le industrie con requisiti di sovranità dei dati ed è un gioco di ecosistema deliberato. La famiglia Grok di xAI piazza sei modelli, guidata da Grok 4.1 Thinking al 13° posto, che continua a trovare scorciatoie eleganti in problemi in stile prova. La serie GLM di Z.ai detiene tre posti, Baidu contribuisce con tre varianti ERNIE e vediamo anche voci da Meituan e Tencent.
La profondità e l'ampiezza della partecipazione mi dicono dove sta andando l'IA matematica: questa non è più una gara tra due o tre favoriti. È un ecosistema e l'ecosistema sta diventando più ricco di mese in mese. Nessun singolo paese, azienda o tradizione di ricerca può più rivendicare il monopolio sul ragionamento matematico. E per quelli di noi che costruiscono su questi strumenti, quella competizione è la cosa migliore che potesse accadere.
La Mia Guida da Campo
Dopo anni di test su questi modelli su tutto, dai problemi delle olimpiadi ai calcoli ingegneristici del mondo reale, ecco la domanda che i costruttori continuano a farmi: quale modello dovrei effettivamente usare? La risposta onesta dipende interamente da cosa stai costruendo.
Precisione a Livello di Ricerca
Gemini 3 Pro al 1° posto. L'ammiraglia di Google è leader nella capacità matematica grezza. La mia prima scelta per problemi nuovi in cui la correttezza non è negoziabile.
Velocità Senza Sacrifici
Gemini 3 Flash al 2° posto. Precisione quasi da podio con latenza e costi significativamente inferiori. Perfetto per pipeline matematiche di produzione che necessitano sia di qualità che di throughput.
Il Cavallo Oscuro
Kimi K2.5 Thinking al 3° posto. L'approccio al ragionamento di Moonshot è notevolmente efficiente. Vale la pena esplorarlo seriamente se non l'hai ancora fatto, in particolare per problemi in stile competizione.
Profondità dell'Ecosistema
OpenAI con dodici modelli in ogni livello. La serie o per la matematica da competizione, GPT-5.x per il ragionamento generale. Nessun altro fornitore offre questa gamma.
Migliori Spiegazioni
Claude con otto modelli nella top 60. Quando capire perché una risposta è corretta conta quanto la risposta stessa. Chiarezza pedagogica ineguagliabile.
Campione di Risparmio
DeepSeek con otto modelli nella top 60. Capacità da top 30 a una frazione del costo. Essenziale per i team che costruiscono su larga scala o in ambienti sensibili ai costi.
Non esiste un'unica migliore IA matematica. La strategia vincente nel 2026 è l'orchestrazione: Gemini per precisione e velocità di alto livello, la serie o di OpenAI per ragionamento profondo, Claude per spiegabilità, DeepSeek e Kimi per efficienza. Costruisci la tua pipeline con più fornitori e supererai costantemente qualsiasi singolo modello.
Fonte Dati: Classifiche da AI Arena Math Leaderboard, 6 febbraio 2026.
Discussione
0 commentiLascia un commento
Sii il primo a condividere i tuoi pensieri!