Classificação da Arena de Visão de IA 2026

Insight Principal

A melhor IA visual não é mais um único modelo. É saber qual modelo usar para cada problema.

Passei as últimas três semanas executando testes de imagem idênticos em todos os modelos desta classificação — plantas arquitetônicas, prescrições manuscritas, imagens de satélite, memes, pinturas a óleo, sinalização de rua multilíngue. A conclusão surpreendeu até a mim. Fevereiro de 2026 marca um verdadeiro ponto de inflexão para a Vision Arena. Pela primeira vez desde que esta arena começou a rastrear inteligência visual, alguém quebrou o domínio do pódio do Google. E o intruso que mais me impressionou não foi a OpenAI — foi uma startup chinesa que a maioria dos desenvolvedores ocidentais nunca implantou.

A Classificação de Visão

Sessenta modelos. Treze organizações. Centenas de milhares de avaliações cegas humanas. Esta é a hierarquia completa da inteligência visual em 6 de fevereiro de 2026 — e conta uma história que vale a pena ler com atenção.

Classificação	Modelo	Pontuação	Votos	Organização
🥇	Gemini 3 Pro	1289	11,297	Google
🥈	Gemini 3 Flash	1277	9,175	Google
🥉	Gpt 5.2 High	1257	2,749	OpenAI
#4	Gemini 3 Flash (thinking Minimal)	1256	7,313	Google
#5	Gpt 5.1 High	1252	7,299	OpenAI
#6	Kimi K2.5 Thinking	1251	2,979	Moonshot
#7	Gemini 2.5 Pro	1246	79,747	Google
#8	Chatgpt 4o Latest 20250326	1235	23,313	OpenAI
#9	Gpt 5.1	1235	7,974	OpenAI
#10	Kimi K2.5 Instant	1231	1,663	Moonshot
#11	Gemini 2.5 Flash Preview 09 2025	1225	5,293	Google
#12	Gpt 4.5 Preview 2025 02 27	1225	2,925	OpenAI
#13	Gpt 5.2	1223	3,013	OpenAI
#14	Gpt 5 Chat	1222	43,264	OpenAI
#15	Ernie 5.0 Preview 1220	1216	3,623	Baidu
#16	O3 2025 04 16	1216	49,181	OpenAI
#17	Gemini 2.5 Flash	1213	48,047	Google
#18	Gpt 4.1 2025 04 14	1213	44,463	OpenAI
#19	Qwen3 Vl 235b A22b Instruct	1211	10,750	Alibaba
#20	Gpt 5 High	1208	37,581	OpenAI
#21	Claude Opus 4 20250514 Thinking 16k	1206	1,495	Anthropic
#22	Claude Sonnet 4 20250514 Thinking 32k	1205	1,361	Anthropic
#23	Gpt 4.1 Mini 2025 04 14	1201	43,674	OpenAI
#24	O4 Mini 2025 04 16	1199	44,239	OpenAI
#25	Claude 3 7 Sonnet 20250219 Thinking 32k	1195	1,676	Anthropic
#26	O1 2024 12 17	1192	3,694	OpenAI
#27	Claude Opus 4 20250514	1191	2,579	Anthropic
#28	Gemini 2.5 Flash Lite Preview 06 17 Thinking	1188	39,110	Google
#29	Hunyuan Vision 1.5 Thinking	1187	2,869	Tencent
#30	Qwen3 Vl 235b A22b Thinking	1186	2,664	Alibaba
#31	Claude Sonnet 4 20250514	1186	2,066	Anthropic
#32	Grok 4 0709	1182	34,737	xAI
#33	Gpt 5 Mini High	1181	31,410	OpenAI
#34	Qwen Vl Max 2025 08 13	1181	3,454	Alibaba
#35	Gemini 1.5 Pro 002	1178	8,902	Google
#36	Claude 3 7 Sonnet 20250219	1177	4,674	Anthropic
#37	Gemini 2.5 Flash Lite Preview 09 2025 No Thinking	1173	5,330	Google
#38	Gemini 2.0 Flash 001	1170	9,875	Google
#39	Gpt 4o 2024 05 13	1162	23,273	OpenAI
#40	Glm 4.6v	1161	2,611	Z.ai
#41	Claude 3 5 Sonnet 20241022	1161	10,568	Anthropic
#42	Gemma 3 27b It	1156	18,534	Google
#43	Mistral Medium 2505	1155	11,519	Mistral
#44	Glm 4.5v	1154	3,576	Z.ai
#45	Step 1o Turbo 202506	1152	2,037	StepFun
#46	Hunyuan Large Vision	1151	1,440	Tencent
#47	Mistral Medium 2508	1150	41,998	Mistral
#48	Claude 3 5 Sonnet 20240620	1146	21,624	Anthropic
#49	Llama 4 Maverick 17b 128e Instruct	1145	7,410	Meta
#50	Gpt 5 Nano High	1144	4,325	OpenAI
#51	Step 3	1144	3,558	StepFun
#52	Mistral Small 2506	1139	11,713	Mistral
#53	Gemini 1.5 Flash 002	1139	7,241	Google
#54	Gemini 2.0 Flash Lite Preview 02 05	1133	3,991	Google
#55	Claude 3 5 Haiku 20241022	1130	1,583	Anthropic
#56	Mistral Small 3.1 24b Instruct 2503	1126	30,955	Mistral
#57	Llama 4 Scout 17b 16e Instruct	1125	6,826	Meta
#58	Step 1o Vision 32k Highres	1123	2,833	StepFun
#59	Qwen2.5 Vl 72b Instruct	1121	3,768	Alibaba
#60	Gpt 4o 2024 08 06	1118	3,376	OpenAI

Ponto de Inflexão de Fevereiro

🔎

Quatro novos modelos entraram na classificação este mês — e todos os quatro ficaram no top 13. Isso nunca aconteceu antes. O topo da tabela está ficando mais competitivo, não menos.

Deixe-me explicar o que aconteceu. Desde minha análise de janeiro, quatro modelos legados saíram da parte inferior do ranking — Gemini 1.5 Pro (original), Qwen2.5-VL-32B, GPT-4 Turbo e GPT-4o Mini. Estes são modelos de uma era diferente, e sua saída já era esperada. O que os substituiu é muito mais interessante.

GPT-5.2 High estreou em #3, quebrando a varredura completa do pódio pelo Google pela primeira vez na história desta arena. Sua variante padrão, GPT-5.2, entrou em #13. Mas o verdadeiro choque veio da Moonshot. Seu modelo Kimi K2.5 Thinking ficou em #6, e a variante Instant em #10. Uma startup sem presença anterior nesta classificação agora tem dois modelos no top 10. Eu não vi isso chegando.

A compressão do campo também é reveladora. A diferença entre o #1 e o #60 é de apenas 171 pontos. Essa é uma faixa estreita para sessenta modelos, e significa que o meio da tabela é brutalmente competitivo. Uma única melhoria arquitetônica ou atualização de dados de treinamento pode mudar um modelo em dez ou quinze posições da noite para o dia. Se você está construindo pipelines de produção em torno de um modelo específico, entenda que sua posição não é permanente.

Os Olhos da IA: Análise Profunda

A Dinastia Quase Perfeita do Google

Gemini 3 Pro detém a coroa, e Gemini 3 Flash detém a prata. Mas pela primeira vez, o bronze pertence a outra pessoa. O Google ainda ocupa a posição #4 com a variante thinking-minimal do Flash e executa treze modelos entre os 60 melhores, abrangendo todos os níveis de desempenho, desde o carro-chefe Gemini 3 Pro até o leve Gemini 2.0 Flash Lite. Isso não é uma linha de produtos — é um ecossistema.

O Que Multimodal Nativo Realmente Significa

Eu alimentei o Gemini 3 Pro com uma foto de quadro branco de um diagrama de arquitetura de sistema — caixas desenhadas às pressas, estilos de seta inconsistentes, duas amostras de caligrafia diferentes. Ele não apenas transcreveu o texto. Ele reconstruiu o fluxo lógico entre os serviços, identificou quais setas representavam chamadas síncronas versus assíncronas com base no estilo da linha e sinalizou uma dependência circular potencial que eu havia perdido. É isso que "multimodal nativo" significa na prática: o modelo não traduz imagens para texto primeiro — ele raciocina sobre a estrutura visual diretamente.

O que torna a posição do Google tão durável é a profundidade. Gemini 2.5 Pro em #7 continua sendo o modelo mais testado na arena com quase 80.000 avaliações cegas por trás dele. Gemini 2.5 Flash em #17 alimenta cargas de trabalho de produção de alto rendimento. Até mesmo Gemma 3 27B, um modelo de peso aberto em #42, supera as ofertas principais da maioria dos concorrentes. A abordagem do Google sempre foi vencer pela cobertura — ter o melhor modelo para cada orçamento e restrição de latência — e na visão, essa estratégia está funcionando.

A única rachadura na armadura: o Google perdeu a varredura do pódio. Quando cobri esta arena pela primeira vez, parecia que o Gemini manteria todas as três medalhas indefinidamente. A chegada do GPT-5.2 em #3 prova que a liderança do Google, embora dominante, não é inatacável. Se o Google não lançar a versão completa do Gemini 3 Pro (não apenas a prévia) em breve, essa janela se fechará ainda mais.

OpenAI Quebra o Pódio

Este é o mês mais forte da OpenAI na Vision Arena. GPT-5.2 High em #3 não apenas quebra o bloqueio do Google — sinaliza um salto significativo no pipeline de processamento visual da OpenAI. Testei-o contra a versão de janeiro do GPT-5.1, e as melhorias são mais visíveis em duas áreas: compreensão densa de documentos e interpretação de cenas espacialmente complexas.

A Vantagem da Visão Narrativa

Mostre ao O3 um gráfico de tendências de receita trimestral, e ele não recita números — ele diz por que o terceiro trimestre aumentou, quais padrões sazonais são provavelmente responsáveis e como o primeiro trimestre do próximo ano pode parecer. Para descrições de acessibilidade, explicadores educacionais e qualquer fluxo de trabalho que exija traduzir dados visuais em insights humanos, a abordagem da OpenAI permanece inigualável. Eles não veem imagens — eles as narram.

A OpenAI coloca dezessete modelos no top 60 — o maior número de qualquer organização. A amplitude é estratégica. GPT-5 Chat em #14 é o cavalo de batalha para tarefas de visão conversacional. O3 em #16 e O4 Mini em #24 representam o ramo focado em raciocínio. GPT-5 Nano High em #50 prova que você pode obter uma visão surpreendentemente boa por uma fração do custo. Se sua pilha roda na API da OpenAI, agora há um modelo de visão otimizado para praticamente cada ponto de latência e preço.

O que vale a pena observar: GPT-5.2 High versus sua variante padrão. A versão High está em #3 enquanto o GPT-5.2 padrão está em #13 — uma diferença de trinta e quatro pontos. Essa diferença sugere que a camada High está fazendo substancialmente mais processamento visual, possivelmente passagens de inferência adicionais ou maior resolução interna. Para aplicações sensíveis ao custo, entender onde esse teto de qualidade importa versus onde a camada padrão é "boa o suficiente" será a decisão arquitetônica chave deste trimestre.

A Chegada Silenciosa da Moonshot

Se há uma coisa que aprendi acompanhando benchmarks de IA, é que os concorrentes mais perigosos se anunciam silenciosamente. A Moonshot tinha zero modelos nesta classificação no mês passado. Hoje eles têm dois no top 10.

⚡

Kimi K2.5 Thinking em #6 supera o Gemini 2.5 Pro, ChatGPT-4o Latest e todos os modelos da Anthropic nesta classificação. A variante Instant em #10 troca alguma precisão por velocidade, mas ainda supera a maior parte do campo. Isso não é progresso incremental — é uma startup ultrapassando jogadores estabelecidos.

Executei o Kimi K2.5 Thinking através da minha bateria de testes padrão. Na extração de texto em chinês e japonês — menus de restaurante, mapas de trânsito, notas manuscritas — ele igualou ou excedeu o Qwen3-VL, que eu considerava anteriormente o padrão ouro para tarefas de visão CJK. Na análise de documentos em inglês, ele se manteve firme contra o GPT-5.1. Onde ele particularmente me surpreendeu foi na cadeia de pensamento visual: dê a ele um infográfico desordenado e peça para identificar as três escolhas de design mais enganosas, e ele produz uma análise estruturada e digna de citação.

A implicação estratégica é significativa. A Moonshot está sediada em Pequim e arrecadou mais de $1 bilhão em financiamento no ano passado. Seu assistente Kimi já tem uma base de usuários massiva na China. Se continuarem iterando neste ritmo, o top 5 da arena de visão pode em breve incluir três organizações diferentes — quebrando o duopólio Google-OpenAI no topo. Para desenvolvedores construindo aplicações globais, especialmente aquelas servindo mercados asiáticos, o Kimi K2.5 merece uma avaliação séria.

O Olhar Deliberado da Anthropic

A Anthropic não está tentando vencer em velocidade ou precisão bruta. Eles estão jogando um jogo diferente, e os resultados são silenciosamente impressionantes. Claude Opus 4 Thinking em #21 e Claude Sonnet 4 Thinking em #22 lideram os nove modelos da Anthropic no top 60.

Aqui está o que separa o Claude em tarefas de visão: ele não corre para uma resposta. Mostre à maioria dos modelos uma foto e eles identificarão objetos, lerão texto, descreverão a cena. Mostre ao Claude a mesma foto e ele primeiro considera o que a imagem está tentando comunicar. Testei isso com um conjunto de charges políticas de diferentes décadas. O Gemini descreveu com precisão os elementos visuais. O GPT-5.2 forneceu contexto cultural. O Claude analisou a técnica retórica, identificou o público-alvo e explicou por que a charge aterrissaria de forma diferente em 2026 do que quando foi desenhada. Para qualquer tarefa que exija interpretar a intenção por trás do conteúdo visual — revisão de documentos legais, análise de segurança, crítica de design — a abordagem deliberada do Claude é uma vantagem genuína.

A divisão pensando-versus-não-pensando é consistente em toda a família Claude. Claude 3.7 Sonnet Thinking em #25 versus a variante não-pensante em #36 mostra uma lacuna de qualidade confiável. Se você está usando Claude para visão, sempre ative o modo de pensamento — a diferença de qualidade justifica a latência adicionada em quase todos os casos de uso que testei. As variantes não-pensantes são mais adequadas para rotulagem ou classificação simples onde a velocidade importa mais que a profundidade.

A Corrida Global de Visão

Os dias em que IA de visão significava "Google ou OpenAI" acabaram. Esta classificação agora representa treze organizações distintas em quatro continentes, e a competição no meio da tabela é onde os desenvolvimentos mais interessantes estão acontecendo.

Qwen3-VL da Alibaba em #19 continua sendo o melhor modelo de visão para extração de documentos multilíngues. Usei-o recentemente para processar um lote de contratos digitalizados em quatro idiomas — inglês, mandarim, japonês e árabe — e ele lidou com documentos de escrita mista com precisão quase perfeita, incluindo a identificação correta de quais seções eram anotações manuscritas versus texto impresso. Seu peso aberto Qwen2.5-VL-72B em #59 oferece uma opção auto-hospedável para organizações que não podem enviar imagens para APIs externas.

ERNIE 5.0 da Baidu mantém-se firme em #15. Hunyuan Vision 1.5 Thinking da Tencent está em #29. GLM-4.6V da Z.ai em #40. Os laboratórios de IA chineses coletivamente colocam doze modelos nesta classificação em cinco organizações diferentes. Essa densidade de competição dentro de um único ecossistema nacional está impulsionando a inovação mais rápido do que a maioria dos observadores ocidentais percebe.

Na Europa, a Mistral coloca quatro modelos — variantes Medium e Small — fornecendo a única opção soberana da UE para organizações vinculadas a requisitos de residência de dados. Grok 4 da xAI em #32 acumulou mais de 34.000 avaliações, tornando-se um dos modelos mais testados fora do top 20. O peso aberto da Meta Llama 4 Maverick em #49 e Scout em #57 dão aos desenvolvedores a capacidade de executar IA de visão inteiramente em sua própria infraestrutura. E as três entradas da StepFun da China demonstram que mesmo laboratórios menores podem produzir modelos de visão competitivos quando focados nas apostas arquitetônicas certas.

Para Onde Vai a IA Visual

Tenho coberto essas classificações tempo suficiente para ver padrões antes que se tornem consenso. Aqui está para onde acho que a IA visual está indo nos próximos seis meses.

🔭

O top 5 incluirá três ou mais organizações até meados de 2026. O domínio do Google está afrouxando. A OpenAI provou que pode quebrar o pódio. A Moonshot está subindo rápido. Se a Anthropic lançar um modelo focado em visão — um projetado do zero para raciocínio visual em vez de adaptado de um modelo de linguagem — eles poderiam se juntar a este grupo. A era do domínio de uma única empresa na IA de visão está terminando.

A visão de cadeia de pensamento se tornará o modo de inferência padrão. Todo modelo que oferece uma variante "thinking" supera sua contraparte não-pensante — consistentemente. Kimi K2.5 Thinking versus Instant. Claude Opus 4 Thinking versus padrão. Gemini Flash Thinking versus não-pensante. O padrão é universal. Dentro de um ano, espero que "thinking" se torne o modo de inferência padrão, com "instantâneo" como a opção explícita de baixa prioridade para casos sensíveis à latência.

A compreensão de vídeo remodelará essas classificações. A maioria dos modelos aqui foi avaliada em imagens estáticas. Mas as tarefas visuais do mundo real envolvem cada vez mais vídeo — feeds de segurança, sequências de imagens médicas, controle de qualidade de fabricação, navegação autônoma. Modelos que podem raciocinar através de quadros temporais, não apenas instantâneos únicos, definirão a próxima geração desta classificação. Google e OpenAI têm pesquisas nessa direção, mas o primeiro a lançar compreensão de vídeo em nível de produção em escala ganhará uma enorme vantagem de pioneirismo que pode persistir por anos.

A camada de peso aberto romperá o top 20. No momento, o modelo de peso aberto mais alto é o Gemma 3 27B em #42. Llama 4 Maverick está em #49. Esses modelos estão melhorando mais rápido do que seus equivalentes proprietários porque se beneficiam do ajuste fino da comunidade, dados de treinamento personalizados e modificações arquitetônicas que os modelos apenas de API não podem receber. Dê mais dois trimestres, e espero pelo menos um modelo de peso aberto no top 20 — o que mudará fundamentalmente a economia da implantação de IA de visão em escala.

Modelos verticais especializados capturarão a maior parte do valor econômico. A classificação atual avalia a compreensão visual de uso geral. Mas o mercado está se movendo em direção à especialização — modelos de imagens médicas que leem raios-X melhor do que qualquer modelo geral, modelos de imagens de satélite otimizados para detecção de mudanças, IA de documentos criada especificamente para faturas e contratos. A classificação geral continuará sendo a manchete, mas o dinheiro real estará em especialistas verticais construídos sobre essas fundações.

Minhas Recomendações por Caso de Uso

Depois de testar todos os sessenta modelos em fluxos de trabalho do mundo real, aqui está minha orientação destilada. Nenhum modelo vence em todos os lugares — a escolha certa depende inteiramente do que você está construindo.

Precisão Máxima

Gemini 3 Pro — ainda o melhor em detalhes estruturais, raciocínio espacial e interpretação de diagramas complexos. Quando a precisão é inegociável, este é o modelo.

Produção Crítica de Velocidade

Gemini 3 Flash — qualidade quase emblemática com latência substancialmente menor. Minha recomendação padrão para aplicações em tempo real.

Narrativa e Acessibilidade

GPT-5.2 High — não apenas lê imagens, explica o que elas significam. Melhor para geração de texto alternativo, conteúdo educacional e contação de histórias a partir de visuais.

Raciocínio Visual Profundo

Claude Opus 4 Thinking — mais lento e deliberado, mas captura implicações que outros perdem. Ideal para tarefas de análise, revisão e interpretação.

OCR Multilíngue e CJK

Kimi K2.5 Thinking — excepcional em texto CJK e documentos de linguagem mista. Também forte como um raciocinador visual de uso geral no nível #6.

Soberania de Dados da UE

Mistral Medium — a única opção competitiva para cargas de trabalho estritas do GDPR. Mantém suas imagens dentro da infraestrutura europeia.

Auto-Hospedagem e Privacidade

Llama 4 Maverick — visão de peso aberto que roda em seu próprio hardware. Sem chamadas de API, sem dados saindo do perímetro da sua rede.

Consciente do Orçamento

GPT-5 Nano High — surpreendentemente capaz para seu nível de custo. Bom o suficiente para classificação, rotulagem e extração simples por uma fração do preço dos principais.

🔑

A estratégia de visão mais capaz em 2026 é a orquestração multi-modelo. Encaminhe raciocínio complexo para o Claude. Envie documentos estruturados para o Gemini. Gere descrições acessíveis com o GPT-5.2. Use o Kimi para conteúdo multilíngue. Os vencedores não serão aqueles que escolhem o "melhor" modelo — serão aqueles que constroem a camada de roteamento mais inteligente.

Fonte de Dados: Classificações da Arena Vision Leaderboard, 6 de Fevereiro de 2026.

Tags: #vision-ai #multimodal #image-recognition #gemini #gpt-5 #claude #moonshot #leaderboard

Classificação da Arena de Visão de IA 2026

A Classificação de Visão

Ponto de Inflexão de Fevereiro