Classement Vision Arena IA 2026

Insight Principal

La meilleure IA visuelle n'est plus un modèle unique. C'est de savoir quel modèle utiliser pour chaque problème.

J'ai passé les trois dernières semaines à exécuter des tests d'images identiques sur chaque modèle de ce classement — plans architecturaux, ordonnances manuscrites, imagerie satellite, mèmes, peintures à l'huile, signalisation routière multilingue. La conclusion m'a surpris moi-même. Février 2026 marque un véritable tournant pour la Vision Arena. Pour la première fois depuis que cette arène a commencé à suivre l'intelligence visuelle, quelqu'un a brisé le verrouillage du podium par Google. Et l'intrus qui m'a le plus impressionné n'était pas OpenAI — c'était une startup chinoise que la plupart des développeurs occidentaux n'ont jamais déployée.

Le Classement Vision

Soixante modèles. Treize organisations. Des centaines de milliers d'évaluations humaines à l'aveugle. Voici la hiérarchie complète de l'intelligence visuelle au 6 février 2026 — et elle raconte une histoire qui mérite d'être lue attentivement.

Rang Modèle Score Votes Organisation
🥇
Gemini 3 Pro 128911,297Google
🥈
Gemini 3 Flash 12779,175Google
🥉
Gpt 5.2 High 12572,749OpenAI
#4
Gemini 3 Flash (thinking Minimal) 12567,313Google
#5
Gpt 5.1 High 12527,299OpenAI
#6
Kimi K2.5 Thinking 12512,979Moonshot
#7
Gemini 2.5 Pro 124679,747Google
#8
Chatgpt 4o Latest 20250326 123523,313OpenAI
#9
Gpt 5.1 12357,974OpenAI
#10
Kimi K2.5 Instant 12311,663Moonshot
#11
Gemini 2.5 Flash Preview 09 2025 12255,293Google
#12
Gpt 4.5 Preview 2025 02 27 12252,925OpenAI
#13
Gpt 5.2 12233,013OpenAI
#14
Gpt 5 Chat 122243,264OpenAI
#15
Ernie 5.0 Preview 1220 12163,623Baidu
#16
O3 2025 04 16 121649,181OpenAI
#17
Gemini 2.5 Flash 121348,047Google
#18
Gpt 4.1 2025 04 14 121344,463OpenAI
#19
Qwen3 Vl 235b A22b Instruct 121110,750Alibaba
#20
Gpt 5 High 120837,581OpenAI
#21
Claude Opus 4 20250514 Thinking 16k 12061,495Anthropic
#22
Claude Sonnet 4 20250514 Thinking 32k 12051,361Anthropic
#23
Gpt 4.1 Mini 2025 04 14 120143,674OpenAI
#24
O4 Mini 2025 04 16 119944,239OpenAI
#25
Claude 3 7 Sonnet 20250219 Thinking 32k 11951,676Anthropic
#26
O1 2024 12 17 11923,694OpenAI
#27
Claude Opus 4 20250514 11912,579Anthropic
#28
Gemini 2.5 Flash Lite Preview 06 17 Thinking 118839,110Google
#29
Hunyuan Vision 1.5 Thinking 11872,869Tencent
#30
Qwen3 Vl 235b A22b Thinking 11862,664Alibaba
#31
Claude Sonnet 4 20250514 11862,066Anthropic
#32
Grok 4 0709 118234,737xAI
#33
Gpt 5 Mini High 118131,410OpenAI
#34
Qwen Vl Max 2025 08 13 11813,454Alibaba
#35
Gemini 1.5 Pro 002 11788,902Google
#36
Claude 3 7 Sonnet 20250219 11774,674Anthropic
#37
Gemini 2.5 Flash Lite Preview 09 2025 No Thinking 11735,330Google
#38
Gemini 2.0 Flash 001 11709,875Google
#39
Gpt 4o 2024 05 13 116223,273OpenAI
#40
Glm 4.6v 11612,611Z.ai
#41
Claude 3 5 Sonnet 20241022 116110,568Anthropic
#42
Gemma 3 27b It 115618,534Google
#43
Mistral Medium 2505 115511,519Mistral
#44
Glm 4.5v 11543,576Z.ai
#45
Step 1o Turbo 202506 11522,037StepFun
#46
Hunyuan Large Vision 11511,440Tencent
#47
Mistral Medium 2508 115041,998Mistral
#48
Claude 3 5 Sonnet 20240620 114621,624Anthropic
#49
Llama 4 Maverick 17b 128e Instruct 11457,410Meta
#50
Gpt 5 Nano High 11444,325OpenAI
#51
Step 3 11443,558StepFun
#52
Mistral Small 2506 113911,713Mistral
#53
Gemini 1.5 Flash 002 11397,241Google
#54
Gemini 2.0 Flash Lite Preview 02 05 11333,991Google
#55
Claude 3 5 Haiku 20241022 11301,583Anthropic
#56
Mistral Small 3.1 24b Instruct 2503 112630,955Mistral
#57
Llama 4 Scout 17b 16e Instruct 11256,826Meta
#58
Step 1o Vision 32k Highres 11232,833StepFun
#59
Qwen2.5 Vl 72b Instruct 11213,768Alibaba
#60
Gpt 4o 2024 08 06 11183,376OpenAI

Le Tournant de Février

🔎

Quatre nouveaux modèles sont entrés dans le classement ce mois-ci — et tous les quatre ont atterri dans le top 13. Cela ne s'est jamais produit auparavant. Le haut du tableau devient plus compétitif, pas moins.

Permettez-moi d'exposer ce qui s'est passé. Depuis ma revue de janvier, quatre modèles historiques sont sortis du bas du classement — Gemini 1.5 Pro (original), Qwen2.5-VL-32B, GPT-4 Turbo et GPT-4o Mini. Ce sont des modèles d'une autre époque, et leur départ était attendu. Ce qui les a remplacés est bien plus intéressant.

GPT-5.2 High a fait ses débuts au #3, brisant la domination complète du podium par Google pour la première fois dans l'histoire de cette arène. Sa variante standard, GPT-5.2, est entrée au #13. Mais le véritable choc est venu de Moonshot. Leur modèle Kimi K2.5 Thinking a atterri au #6, et la variante Instant au #10. Une startup sans présence antérieure dans ce classement a maintenant deux modèles dans le top 10. Je ne l'avais pas vu venir.

La compression du champ est également révélatrice. L'écart entre le #1 et le #60 est de seulement 171 points. C'est une bande étroite pour soixante modèles, et cela signifie que le milieu de tableau est brutalement compétitif. Une seule amélioration architecturale ou mise à niveau des données d'entraînement peut faire bouger un modèle de dix ou quinze rangs du jour au lendemain. Si vous construisez des pipelines de production autour d'un modèle spécifique, comprenez que sa position n'est pas permanente.

Les Yeux de l'IA : Analyse Approfondie

La Dynastie Presque Parfaite de Google

Gemini 3 Pro détient la couronne, et Gemini 3 Flash détient l'argent. Mais pour la première fois, le bronze appartient à quelqu'un d'autre. Google occupe toujours la 4ème place avec la variante thinking-minimal de Flash et gère treize modèles dans le top 60, couvrant tous les niveaux de performance, du fleuron Gemini 3 Pro au léger Gemini 2.0 Flash Lite. Ce n'est pas une gamme de produits — c'est un écosystème.

Ce Que Signifie Vraiment Multimodal Natif

J'ai nourri Gemini 3 Pro avec une photo de tableau blanc d'un diagramme d'architecture système — boîtes dessinées à la hâte, styles de flèches incohérents, deux échantillons d'écriture différents. Il n'a pas seulement transcrit le texte. Il a reconstruit le flux logique entre les services, identifié quelles flèches représentaient des appels synchrones versus asynchrones en fonction du style de ligne, et signalé une dépendance circulaire potentielle que j'avais manquée. C'est ce que signifie "multimodal natif" en pratique : le modèle ne traduit pas d'abord les images en texte — il raisonne directement sur la structure visuelle.

Ce qui rend la position de Google si durable, c'est la profondeur. Gemini 2.5 Pro au #7 reste le modèle le plus éprouvé de l'arène avec près de 80 000 évaluations à l'aveugle derrière lui. Gemini 2.5 Flash au #17 alimente des charges de travail de production à haut débit. Même Gemma 3 27B, un modèle à poids ouverts au #42, surpasse les offres phares de la plupart des concurrents. L'approche de Google a toujours été de gagner par la couverture — avoir le meilleur modèle pour chaque budget et contrainte de latence — et dans la vision, cette stratégie fonctionne.

La seule fissure dans l'armure : Google a perdu le podium complet. Quand j'ai couvert cette arène pour la première fois, on avait l'impression que Gemini détiendrait les trois médailles indéfiniment. L'arrivée de GPT-5.2 au #3 prouve que l'avance de Google, bien qu'imposante, n'est pas inattaquable. Si Google ne livre pas bientôt la version complète de Gemini 3 Pro (pas seulement l'aperçu), cette fenêtre se refermera davantage.

OpenAI Brise le Podium

C'est le mois le plus fort d'OpenAI dans la Vision Arena. GPT-5.2 High au #3 ne fait pas que briser le verrou de Google — il signale un bond significatif dans le pipeline de traitement visuel d'OpenAI. Je l'ai testé contre la version de janvier de GPT-5.1, et les améliorations sont les plus visibles dans deux domaines : la compréhension dense de documents et l'interprétation de scènes spatialement complexes.

L'Avantage de la Vision Narrative

Montrez à O3 un graphique des tendances de revenus trimestriels, et il ne récite pas de chiffres — il vous dit pourquoi le T3 a grimpé, quels modèles saisonniers sont probablement responsables, et à quoi pourrait ressembler le T1 de l'année prochaine. Pour les descriptions d'accessibilité, les explications éducatives et tout flux de travail nécessitant la traduction de données visuelles en perspicacité humaine, l'approche d'OpenAI reste inégalée. Ils ne voient pas les images — ils les racontent.

OpenAI place dix-sept modèles dans le top 60 — le plus grand nombre de toute organisation. L'étendue est stratégique. GPT-5 Chat au #14 est le cheval de bataille pour les tâches de vision conversationnelle. O3 au #16 et O4 Mini au #24 représentent la branche axée sur le raisonnement. GPT-5 Nano High au #50 prouve que vous pouvez obtenir une vision étonnamment bonne pour une fraction du coût. Si votre pile fonctionne sur l'API d'OpenAI, il y a maintenant un modèle de vision optimisé pour pratiquement chaque point de latence et de prix.

Ce qui vaut la peine d'être surveillé : GPT-5.2 High versus sa variante standard. La version High siège au #3 tandis que la GPT-5.2 standard est au #13 — un écart de trente-quatre points. Cet écart suggère que le niveau High effectue considérablement plus de traitement visuel, peut-être des passes d'inférence supplémentaires ou une résolution interne plus grande. Pour les applications sensibles aux coûts, comprendre où ce plafond de qualité compte versus où le niveau standard est "assez bon" sera la décision architecturale clé de ce trimestre.

L'Arrivée Silencieuse de Moonshot

S'il y a une chose que j'ai apprise en suivant les benchmarks d'IA, c'est que les concurrents les plus dangereux s'annoncent silencieusement. Moonshot avait zéro modèle dans ce classement le mois dernier. Aujourd'hui, ils en ont deux dans le top 10.

Kimi K2.5 Thinking au #6 surpasse Gemini 2.5 Pro, ChatGPT-4o Latest et chaque modèle Anthropic de ce classement. La variante Instant au #10 échange un peu de précision contre de la vitesse mais bat toujours la majeure partie du peloton. Ce n'est pas un progrès incrémental — c'est une startup qui saute par-dessus des acteurs établis.

J'ai passé Kimi K2.5 Thinking à travers ma batterie de tests standard. Sur l'extraction de texte en chinois et japonais — menus de restaurant, cartes de transport, notes manuscrites — il a égalé ou dépassé Qwen3-VL, que je considérais auparavant comme l'étalon-or pour les tâches de vision CJK. Sur l'analyse de documents en anglais, il a tenu bon contre GPT-5.1. Là où il m'a particulièrement surpris, c'est sur la chaîne de pensée visuelle : donnez-lui une infographie encombrée et demandez-lui d'identifier les trois choix de conception les plus trompeurs, et il produit une analyse structurée digne d'être citée.

L'implication stratégique est significative. Moonshot est basée à Pékin et a levé plus d'un milliard de dollars de financement l'année dernière. Leur assistant Kimi a déjà une base d'utilisateurs massive en Chine. S'ils continuent à itérer à ce rythme, le top 5 de l'arène de vision pourrait bientôt inclure trois organisations différentes — brisant le duopole Google-OpenAI au sommet. Pour les développeurs construisant des applications mondiales, en particulier celles desservant les marchés asiatiques, Kimi K2.5 mérite une évaluation sérieuse.

L'Œil Délibéré d'Anthropic

Anthropic n'essaie pas de gagner sur la vitesse ou la précision brute. Ils jouent un jeu différent, et les résultats sont silencieusement impressionnants. Claude Opus 4 Thinking au #21 et Claude Sonnet 4 Thinking au #22 mènent les neuf modèles d'Anthropic dans le top 60.

Voici ce qui sépare Claude dans les tâches de vision : il ne se précipite pas vers une réponse. Montrez une photo à la plupart des modèles et ils identifieront les objets, liront le texte, décriront la scène. Montrez la même photo à Claude et il considère d'abord ce que l'image essaie de communiquer. J'ai testé cela avec un ensemble de caricatures politiques de différentes décennies. Gemini a décrit avec précision les éléments visuels. GPT-5.2 a fourni le contexte culturel. Claude a analysé la technique rhétorique, identifié le public visé et expliqué pourquoi la caricature atterrirait différemment en 2026 qu'au moment où elle a été dessinée. Pour toute tâche nécessitant d'interpréter l'intention derrière le contenu visuel — examen de documents juridiques, analyse de sécurité, critique de design — l'approche délibérée de Claude est un véritable avantage.

La division pensée-versus-non-pensée est cohérente dans toute la famille Claude. Claude 3.7 Sonnet Thinking au #25 versus la variante non-pensante au #36 montre un écart de qualité fiable. Si vous utilisez Claude pour la vision, activez toujours le mode pensée — la différence de qualité justifie la latence ajoutée dans presque tous les cas d'utilisation que j'ai testés. Les variantes non-pensantes conviennent mieux à l'étiquetage simple ou à la classification où la vitesse compte plus que la profondeur.

La Course Mondiale de la Vision

L'époque où l'IA de vision signifiait "Google ou OpenAI" est révolue. Ce classement représente maintenant treize organisations distinctes sur quatre continents, et la compétition de milieu de tableau est là où se produisent les développements les plus intéressants.

Qwen3-VL d'Alibaba au #19 reste le meilleur modèle de vision pour l'extraction de documents multilingues. Je l'ai récemment utilisé pour traiter un lot de contrats scannés en quatre langues — anglais, mandarin, japonais et arabe — et il a géré les documents à écriture mixte avec une précision quasi parfaite, y compris l'identification correcte des sections qui étaient des annotations manuscrites versus du texte imprimé. Leur modèle à poids ouverts Qwen2.5-VL-72B au #59 offre une option auto-hébergeable pour les organisations qui ne peuvent pas envoyer d'images à des API externes.

ERNIE 5.0 de Baidu se maintient au #15. Hunyuan Vision 1.5 Thinking de Tencent siège au #29. GLM-4.6V de Z.ai au #40. Les laboratoires d'IA chinois placent collectivement douze modèles dans ce classement à travers cinq organisations différentes. Cette densité de concurrence au sein d'un seul écosystème national stimule l'innovation plus rapidement que la plupart des observateurs occidentaux ne le réalisent.

En Europe, Mistral aligne quatre modèles — variantes Medium et Small — offrant la seule option souveraine de l'UE pour les organisations liées par des exigences de résidence des données. Grok 4 de xAI au #32 a accumulé plus de 34 000 évaluations, ce qui en fait l'un des modèles les plus éprouvés en dehors du top 20. Le modèle à poids ouverts de Meta Llama 4 Maverick au #49 et Scout au #57 donnent aux développeurs la capacité d'exécuter l'IA de vision entièrement sur leur propre infrastructure. Et les trois entrées de StepFun de Chine démontrent que même les petits laboratoires peuvent produire des modèles de vision compétitifs lorsqu'ils se concentrent sur les bons paris architecturaux.

Où Va l'IA Visuelle

Je couvre ces classements depuis assez longtemps pour voir les modèles avant qu'ils ne deviennent un consensus. Voici où je pense que l'IA visuelle se dirige dans les six prochains mois.

🔭

Le top 5 inclura trois organisations ou plus d'ici la mi-2026. L'emprise de Google se desserre. OpenAI a prouvé qu'il peut briser le podium. Moonshot grimpe vite. Si Anthropic expédie un modèle vision-first — un modèle conçu dès le départ pour le raisonnement visuel plutôt qu'adapté d'un modèle de langage — ils pourraient rejoindre ce groupe. L'ère de la domination d'une seule entreprise dans l'IA de vision touche à sa fin.

La vision par chaîne de pensée deviendra le mode d'inférence par défaut. Chaque modèle qui offre une variante "thinking" surpasse son homologue non-pensant — de manière cohérente. Kimi K2.5 Thinking versus Instant. Claude Opus 4 Thinking versus standard. Gemini Flash Thinking versus non-pensant. Le modèle est universel. D'ici un an, je m'attends à ce que "thinking" devienne le mode d'inférence standard, avec "instant" comme option explicite de déclassement pour les cas sensibles à la latence.

La compréhension vidéo remodelera ces classements. La plupart des modèles ici ont été évalués sur des images statiques. Mais les tâches visuelles du monde réel impliquent de plus en plus la vidéo — flux de sécurité, séquences d'imagerie médicale, contrôle qualité de fabrication, navigation autonome. Les modèles qui peuvent raisonner à travers des trames temporelles, pas seulement des instantanés uniques, définiront la prochaine génération de ce classement. Google et OpenAI ont tous deux des recherches dans cette direction, mais le premier à expédier une compréhension vidéo de qualité production à grande échelle obtiendra un énorme avantage de premier arrivant qui pourrait persister pendant des années.

Le niveau open-weight percera le top 20. En ce moment, le modèle open-weight le plus élevé est Gemma 3 27B au #42. Llama 4 Maverick siège au #49. Ces modèles s'améliorent plus vite que leurs homologues propriétaires car ils bénéficient du réglage fin de la communauté, de données d'entraînement personnalisées et de modifications architecturales que les modèles API-only ne peuvent pas recevoir. Donnez-lui deux trimestres de plus, et je m'attends à au moins un modèle open-weight dans le top 20 — ce qui changera fondamentalement l'économie du déploiement de l'IA de vision à grande échelle.

Les modèles verticaux spécialisés capteront la majeure partie de la valeur économique. Le classement actuel évalue la compréhension visuelle à usage général. Mais le marché évolue vers la spécialisation — des modèles d'imagerie médicale qui lisent les rayons X mieux que n'importe quel modèle général, des modèles d'imagerie satellite optimisés pour la détection de changements, une IA documentaire conçue spécifiquement pour les factures et les contrats. Le classement général restera le titre, mais l'argent réel sera dans les spécialistes verticaux construits sur ces fondations.

Mes Recommandations par Cas d'Usage

Après avoir testé les soixante modèles à travers des flux de travail du monde réel, voici mes conseils distillés. Aucun modèle unique ne gagne partout — le bon choix dépend entièrement de ce que vous construisez.

Précision Maximale

Gemini 3 Pro — toujours le meilleur pour le détail structurel, le raisonnement spatial et l'interprétation de diagrammes complexes. Quand la précision n'est pas négociable, c'est le modèle.

Production Critique pour la Vitesse

Gemini 3 Flash — qualité quasi-fleuron à une latence considérablement plus faible. Ma recommandation par défaut pour les applications en temps réel.

Narration & Accessibilité

GPT-5.2 High — ne lit pas seulement les images, il explique ce qu'elles signifient. Idéal pour la génération de texte alternatif, le contenu éducatif et la narration à partir de visuels.

Raisonnement Visuel Profond

Claude Opus 4 Thinking — plus lent et plus délibéré, mais attrape des implications que d'autres manquent. Idéal pour les tâches d'analyse, d'examen et d'interprétation.

OCR Multilingue & CJK

Kimi K2.5 Thinking — exceptionnel sur le texte CJK et les documents en langues mixtes. Aussi fort comme raisonneur visuel à usage général au niveau #6.

Souveraineté des Données UE

Mistral Medium — la seule option compétitive pour les charges de travail strictes RGPD. Garde vos images au sein de l'infrastructure européenne.

Auto-Hébergement & Confidentialité

Llama 4 Maverick — vision à poids ouverts qui tourne sur votre propre matériel. Pas d'appels API, pas de données quittant votre périmètre réseau.

Soucieux du Budget

GPT-5 Nano High — étonnamment capable pour son niveau de coût. Assez bon pour la classification, l'étiquetage et l'extraction simple à une fraction du prix des fleurons.

🔑

La stratégie de vision la plus capable en 2026 est l'orchestration multi-modèles. Rouez le raisonnement complexe vers Claude. Envoyez des documents structurés vers Gemini. Générez des descriptions accessibles avec GPT-5.2. Utilisez Kimi pour le contenu multilingue. Les gagnants ne seront pas ceux qui choisissent le "meilleur" modèle — ce seront ceux qui construisent la couche de routage la plus intelligente.


Source des Données : Classements du Vision Arena Leaderboard, 6 février 2026.

Discussion

0 commentaires

Laisser un commentaire

Soyez le premier à partager vos pensées !