Classement de l'arène mathématique IA 2026

Aperçu Clé

Le raisonnement mathématique n'est plus l'apanage d'un seul champion. Il appartient à ceux qui savent quand utiliser quel modèle pour quel problème.

J'ai actualisé l'arène mathématique ce matin et j'ai dû y regarder à deux fois. Pour la première fois depuis que je suis ces classements, OpenAI n'est plus au sommet. Gemini 3 Pro de Google s'est emparé de la couronne du raisonnement mathématique, et l'histoire ne fait que devenir plus étrange à partir de là. Une startup basée à Pékin appelée Moonshot vient d'atterrir sur le podium avec un modèle que la plupart des développeurs occidentaux n'ont même pas essayé. Après des semaines de tests de résistance des meilleurs concurrents sur tout, de la combinatoire des olympiades à l'analyse réelle de niveau universitaire, voici ce que les données de février nous disent sur la direction que prend réellement l'IA mathématique.

Le classement mathématique

Les mathématiques restent la référence la plus honnête en IA. Vous ne pouvez pas user de charme pour résoudre une équation différentielle ou halluciner une preuve correcte. Une réponse est juste ou elle ne l'est pas. Cette clarté binaire est ce qui fait de la Math Arena la référence en laquelle j'ai le plus confiance pour évaluer si un modèle peut vraiment raisonner. Voici les 60 modèles classés en février 2026.

Rang Modèle Score Votes Organisation
🥇
Gemini 3 Pro 14842,252Google
🥈
Gemini 3 Flash 14751,616Google
🥉
Kimi K2.5 Thinking 1475413Moonshot
#4
Gpt 5.2 High 1469952OpenAI
#5
Claude Opus 4 5 20251101 14691,879Anthropic
#6
Gpt 5.1 High 14671,862OpenAI
#7
Claude Opus 4 5 20251101 Thinking 32k 14671,585Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14641,038Google
#9
Ernie 5.0 0110 1462580Baidu
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14582,657Anthropic
#11
O3 2025 04 16 14533,885OpenAI
#12
Gemini 2.5 Pro 14515,845Google
#13
Grok 4.1 Thinking 14502,058xAI
#14
Claude Opus 4 1 20250805 Thinking 16k 14463,059Anthropic
#15
Qwen3 Max Preview 14421,539Alibaba
#16
Kimi K2 Thinking Turbo 14401,949Moonshot
#17
Gpt 5 High 14391,939OpenAI
#18
Gpt 5.2 1438698OpenAI
#19
Grok 4 0709 14382,309xAI
#20
Claude Opus 4 1 20250805 14354,553Anthropic
#21
Qwen3 Max 2025 09 23 1434586Alibaba
#22
Grok 4.1 14332,552xAI
#23
Glm 4.7 1433720Z.ai
#24
Grok 4 Fast Chat 1430403xAI
#25
Deepseek V3.2 Exp Thinking 1429478DeepSeek
#26
Deepseek V3.2 14291,680DeepSeek
#27
Claude Sonnet 4 5 20250929 14272,681Anthropic
#28
Deepseek V3.2 Exp 1426785DeepSeek
#29
Glm 4.6 14252,132Z.ai
#30
Qwen3 235b A22b Instruct 2507 14244,158Alibaba
#31
Longcat Flash Chat 1424694Meituan
#32
Qwen3 Next 80b A3b Instruct 14231,232Alibaba
#33
Deepseek V3.1 Thinking 1421673DeepSeek
#34
Gpt 5.1 14212,191OpenAI
#35
Claude Opus 4 20250514 Thinking 16k 14212,355Anthropic
#36
O4 Mini 2025 04 16 14193,042OpenAI
#37
Deepseek V3.1 14191,010DeepSeek
#38
Glm 4.5 14181,455Z.ai
#39
Kimi K2 0905 Preview 1417763Moonshot
#40
Gpt 5 Chat 14171,813OpenAI
#41
Deepseek V3.1 Terminus Thinking 1416203DeepSeek
#42
Gemini 2.5 Flash Preview 09 2025 14151,955Google
#43
Qwen3 Vl 235b A22b Instruct 1415714Alibaba
#44
Grok 4 Fast Reasoning 14151,085xAI
#45
Grok 4 1 Fast Reasoning 14151,677xAI
#46
Gemini 2.5 Flash 14146,074Google
#47
Gpt 4.5 Preview 2025 02 27 14141,384OpenAI
#48
Gpt 5 Mini High 14131,460OpenAI
#49
Deepseek R1 14131,609DeepSeek
#50
Ernie 5.0 Preview 1203 1413632Baidu
#51
Ernie 5.0 Preview 1022 1412268Baidu
#52
O1 2024 12 17 14122,980OpenAI
#53
Qwen3 Vl 235b A22b Thinking 1411419Alibaba
#54
Mistral Large 3 14101,471Mistral
#55
O3 Mini High 14091,906OpenAI
#56
Deepseek V3.2 Thinking 14091,273DeepSeek
#57
Claude Sonnet 4 20250514 Thinking 32k 14072,131Anthropic
#58
Qwen3 235b A22b Thinking 2507 1406506Alibaba
#59
Hunyuan T1 20250711 1406242Tencent
#60
Mistral Medium 2508 14053,912Mistral

Google prend la couronne

J'ai observé l'évolution de l'IA mathématique de Google pendant trois ans, et ce qu'ils ont réalisé ce mois-ci est tout simplement remarquable. Gemini 3 Pro n'a pas seulement décroché l'Or. Il est arrivé avec une longueur d'avance sur le peloton. Mais le vrai coup de force ? Gemini 3 Flash assis juste derrière à la place d'Argent. Google détient désormais simultanément l'Or et l'Argent dans l'arène mathématique. Cela n'était jamais arrivé auparavant.

Ce qui rend cela significatif va au-delà des classements. C'est la stratégie d'architecture. Gemini 3 Pro est le poids lourd, conçu pour une profondeur de raisonnement maximale, le genre de modèle que vous dirigez vers des preuves de niveau recherche et des dérivations en plusieurs étapes. Gemini 3 Flash est optimisé pour la vitesse et le coût. Le fait qu'un modèle optimisé pour la vitesse puisse rivaliser au niveau Argent nous indique que Google a résolu quelque chose de fondamental sur la façon de rendre le raisonnement mathématique plus rapide sans sacrifier la précision. La variante à pensée minimale (thinking-minimal) au n°8 offre un autre compromis prix-performance, et les anciens chevaux de trait comme Gemini 2.5 Pro au n°12 et Gemini 2.5 Flash au n°46 continuent de servir de manière fiable.

Google place six modèles dans le top 60, couvrant trois générations et plusieurs niveaux de prix. Ils ne construisent pas un seul grand modèle mathématique. Ils construisent une pile complète de raisonnement mathématique, du Flash abordable au Pro phare, partageant tous les mêmes avancées sous-jacentes.

Ma prédiction : Google conservera cette avance au moins jusqu'à la mi-2026. Leur approche consistant à intégrer le raisonnement mathématique comme une capacité fondamentale dans toute la gamme de produits, plutôt que de le concentrer dans un seul produit phare, porte des dividendes composés. Si vous construisez quelque chose qui nécessite un calcul mathématique fiable, de la modélisation financière à la simulation scientifique, Gemini devrait être votre premier appel dès maintenant.

La surprise Moonshot

Voici l'histoire que personne n'écrivait il y a trois mois. Kimi K2.5 Thinking de Moonshot a atterri au n°3, à égalité de points avec Gemini 3 Flash pour la position Argent. Laissez cela s'enregistrer. Un modèle d'une startup fondée en 2023 est mathématiquement au niveau de la deuxième meilleure offre de Google.

J'ai testé Kimi K2.5 Thinking de manière extensive, et ce qui me frappe, c'est son approche du raisonnement étendu. Là où d'autres modèles de pensée produisent parfois des chaînes de pensée verbeuses qui tournent autour d'un problème avant d'atterrir, le raisonnement de Kimi semble presque déconcertant de franchise. Il identifie rapidement la structure mathématique centrale, puis construit vers la solution avec un minimum de détours. Pour les problèmes de type compétition où vous avez besoin à la fois de précision et d'une chaîne logique claire, cette franchise est un véritable avantage.

Moonshot place trois modèles dans le top 60 : Kimi K2.5 Thinking au n°3, Kimi K2 Thinking Turbo au n°16, et Kimi K2 au n°39. Trois niveaux, une philosophie d'architecture. Ce type de présence à plusieurs niveaux d'une startup est sans précédent. Le message est clair : l'ère où seules les entreprises de mille milliards de dollars pouvaient construire une IA mathématique de classe mondiale est révolue. L'investissement de recherche ciblé dans l'architecture de raisonnement peut rivaliser avec des budgets de calcul massifs. Attendez-vous à ce que davantage de laboratoires suivent ce manuel tout au long de 2026.

OpenAI après le trône

Soyons directs. GPT-5.2 High, qui détenait l'Or depuis ses débuts, se trouve maintenant au n°4, à égalité avec Claude Opus 4.5. La couronne a été prise. Mais avant que quiconque n'écrive la nécrologie, regardez l'image complète.

OpenAI place toujours douze modèles dans le top 60, plus que toute autre organisation. Ce n'est pas une entreprise en crise. C'est une entreprise avec une telle profondeur d'écosystème que même perdre la première place la laisse dominer les niveaux moyens et supérieurs. GPT-5.1 High occupe la 6e place. Le modèle de raisonnement o3 au n°11 reste mon choix pour les problèmes de niveau compétition qui exigent un calcul profond en plusieurs étapes. GPT-5 High au n°17, le GPT-5.2 standard au n°18 et o4-mini au n°36 offrent aux constructeurs des options à chaque niveau de prix et exigence de latence.

L'avantage de la série o

Les modèles de raisonnement dédiés d'OpenAI (o3, o4-mini, o1, o3-mini) occupent quatre positions dans le top 60. Pour les problèmes nécessitant un calcul étendu, la preuve d'inégalités, la satisfaction de contraintes ou des arguments combinatoires, le temps de réflexion ajustable de la série o reste d'une puissance unique. Aucun autre fournisseur n'offre ce niveau de contrôle de la profondeur de raisonnement.

Pour l'avenir, je crois que la réponse d'OpenAI viendra vite. L'écart entre GPT-5.2 High et Gemini 3 Pro n'est pas insurmontable, et le modèle d'OpenAI a toujours été d'itérer agressivement après avoir perdu du terrain. Je ne serais pas surpris de voir un GPT-5.3 ou une mise à jour significative du raisonnement avant l'été. L'histoire plus profonde ici n'est pas une chute. C'est que le sommet de l'arène mathématique est maintenant si férocement compétitif que conserver la première place exige une innovation continue, pas une seule sortie forte.

La révolution des modèles de pensée

Scannez le top 10 de ce classement et comptez combien de noms de modèles incluent le mot « thinking » (pensée). La réponse est révélatrice : Kimi K2.5 Thinking au n°3, Claude Opus 4.5 Thinking au n°7, Gemini 3 Flash thinking-minimal au n°8, Claude Sonnet 4.5 Thinking au n°10. Étendez au top 20 et ils sont partout. C'est le plus grand changement structurel de l'IA mathématique au cours de la dernière année.

Ces modèles allouent du calcul supplémentaire au moment de l'inférence pour travailler sur les problèmes étape par étape avant de s'engager sur une réponse. C'est l'équivalent IA d'un mathématicien prenant une feuille de brouillon avant d'écrire la preuve finale. Les résultats sont sans ambiguïté : les variantes de pensée surpassent systématiquement leurs homologues standard dans les tâches mathématiques.

L'implémentation d'Anthropic raconte cette histoire particulièrement bien. Claude Opus 4.5 Thinking-32k au n°7 surpasse l'Opus 4.5 standard au n°5 lorsqu'on lui donne de l'espace pour raisonner. Claude Sonnet 4.5 Thinking au n°10 frappe bien au-dessus de sa catégorie de poids, entrant dans le top 10 bien qu'il soit un modèle de milieu de gamme par conception. Anthropic place huit modèles au total dans le top 60, et leur marque de fabrique reste la clarté pédagogique. Quand j'ai besoin d'un modèle qui ne se contente pas de résoudre un problème mais explique pourquoi la solution fonctionne d'une manière qu'un étudiant pourrait véritablement apprendre, Claude est toujours inégalé.

💡

Ma prédiction : d'ici la fin de 2026, la distinction entre les modèles « standard » et « pensée » disparaîtra. Chaque modèle allouera dynamiquement le temps de raisonnement en fonction de la complexité du problème. La génération actuelle de variantes de pensée explicitement étiquetées est une étape de transition vers un raisonnement universellement adaptatif.

La conclusion pratique est simple : si la précision compte plus que la latence, choisissez toujours la variante de pensée. L'amélioration mathématique est cohérente et réelle. Pour les applications de production où le temps de réponse est critique, les variantes standard restent excellentes. Mais pour la recherche, l'éducation ou tout scénario où obtenir la bonne réponse est primordial, les modèles de pensée sont le présent et l'avenir.

Le paysage mathématique mondial

Prenez du recul et la géographie de ce classement raconte sa propre histoire. Sur les 60 modèles classés, 26 proviennent d'organisations chinoises. C'est 43 % de l'ensemble du domaine. Les laboratoires américains détiennent 32 places soit 53 %, et Mistral apporte une représentation européenne avec deux modèles. La capacité mathématique de l'IA est maintenant véritablement multipolaire, et ce changement s'est accéléré plus vite que presque quiconque ne l'avait prédit.

DeepSeek se distingue avec huit modèles dans le top 60, à égalité avec Anthropic pour le deuxième plus grand nombre après OpenAI. La famille v3.2 aux positions n°25, n°26, n°28 et n°56 offre une gamme impressionnante, tandis que la série v3.1 et le DeepSeek R1 éprouvé au combat au n°49 complètent les niveaux intermédiaires. Ce qui rend DeepSeek remarquable, c'est le rapport coût-capacité. Lors de mes tests, DeepSeek V3.2 offre des performances mathématiques du top 30 à environ un cinquième de ce que facturent les modèles phares. Pour les équipes opérant à grande échelle avec des contraintes budgétaires, ce ratio est transformateur.

La famille Qwen3 d'Alibaba contribue avec sept modèles, du Qwen3 Max Preview au n°15 jusqu'aux variantes à poids ouverts que les développeurs peuvent affiner sur leur propre infrastructure. Cette stratégie de poids ouverts est importante pour les industries ayant des exigences de souveraineté des données, et c'est un jeu d'écosystème délibéré. La famille Grok de xAI place six modèles, menée par Grok 4.1 Thinking au n°13, qui continue de trouver des raccourcis élégants dans les problèmes de type preuve. La série GLM de Z.ai détient trois places, Baidu contribue avec trois variantes ERNIE, et nous voyons des entrées de Meituan et Tencent également.

La profondeur et l'étendue de la participation me disent où va l'IA mathématique : ce n'est plus une course entre deux ou trois favoris. C'est un écosystème, et l'écosystème devient plus riche de mois en mois. Aucun pays, entreprise ou tradition de recherche ne peut plus revendiquer le monopole du raisonnement mathématique. Et pour ceux d'entre nous qui construisent sur ces outils, cette compétition est la meilleure chose qui pouvait arriver.

Mon guide de terrain

Après des années à tester ces modèles sur tout, des problèmes d'olympiades aux calculs d'ingénierie du monde réel, voici la question que les constructeurs ne cessent de me poser : quel modèle devrais-je réellement utiliser ? La réponse honnête dépend entièrement de ce que vous construisez.

Précision de niveau recherche

Gemini 3 Pro au n°1. Le produit phare de Google est en tête en termes de capacité mathématique brute. Mon premier choix pour les problèmes nouveaux où l'exactitude n'est pas négociable.

Vitesse sans sacrifice

Gemini 3 Flash au n°2. Précision proche du podium à une latence et un coût nettement inférieurs. Parfait pour les pipelines mathématiques de production qui ont besoin à la fois de qualité et de débit.

L'outsider

Kimi K2.5 Thinking au n°3. L'approche de raisonnement de Moonshot est remarquablement efficace. Vaut la peine d'être exploré sérieusement si vous ne l'avez pas encore fait, en particulier pour les problèmes de style compétition.

Profondeur de l'écosystème

OpenAI avec douze modèles à tous les niveaux. La série o pour les mathématiques de compétition, GPT-5.x pour le raisonnement général. Aucun autre fournisseur n'offre cette gamme.

Meilleures explications

Claude avec huit modèles dans le top 60. Quand comprendre pourquoi une réponse est correcte compte autant que la réponse elle-même. Clarté pédagogique inégalée.

Champion du budget

DeepSeek avec huit modèles dans le top 60. Capacité du top 30 à une fraction du coût. Essentiel pour les équipes construisant à grande échelle ou dans des environnements sensibles aux coûts.

🔑

Il n'y a pas de meilleure IA mathématique unique. La stratégie gagnante en 2026 est l'orchestration : Gemini pour la précision et la vitesse de haut niveau, la série o d'OpenAI pour le raisonnement profond, Claude pour l'explicabilité, DeepSeek et Kimi pour l'efficacité. Construisez votre pipeline avec plusieurs fournisseurs et vous surpasserez systématiquement n'importe quel modèle unique.


Source des données : Classements de AI Arena Math Leaderboard, 6 février 2026.

Discussion

0 commentaires

Laisser un commentaire

Soyez le premier à partager vos pensées !