A melhor IA visual não é mais um único modelo. É saber qual modelo usar para cada problema.
Passei as últimas três semanas executando testes de imagem idênticos em todos os modelos desta classificação — plantas arquitetônicas, prescrições manuscritas, imagens de satélite, memes, pinturas a óleo, sinalização de rua multilíngue. A conclusão surpreendeu até a mim. Fevereiro de 2026 marca um verdadeiro ponto de inflexão para a Vision Arena. Pela primeira vez desde que esta arena começou a rastrear inteligência visual, alguém quebrou o domínio do pódio do Google. E o intruso que mais me impressionou não foi a OpenAI — foi uma startup chinesa que a maioria dos desenvolvedores ocidentais nunca implantou.
A Classificação de Visão
Sessenta modelos. Treze organizações. Centenas de milhares de avaliações cegas humanas. Esta é a hierarquia completa da inteligência visual em 6 de fevereiro de 2026 — e conta uma história que vale a pena ler com atenção.
| Classificação | Modelo | Pontuação | Votos | Organização |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1289 | 11,297 | |
🥈 | Gemini 3 Flash | 1277 | 9,175 | |
🥉 | Gpt 5.2 High | 1257 | 2,749 | OpenAI |
#4 | Gemini 3 Flash (thinking Minimal) | 1256 | 7,313 | |
#5 | Gpt 5.1 High | 1252 | 7,299 | OpenAI |
#6 | Kimi K2.5 Thinking | 1251 | 2,979 | Moonshot |
#7 | Gemini 2.5 Pro | 1246 | 79,747 | |
#8 | Chatgpt 4o Latest 20250326 | 1235 | 23,313 | OpenAI |
#9 | Gpt 5.1 | 1235 | 7,974 | OpenAI |
#10 | Kimi K2.5 Instant | 1231 | 1,663 | Moonshot |
#11 | Gemini 2.5 Flash Preview 09 2025 | 1225 | 5,293 | |
#12 | Gpt 4.5 Preview 2025 02 27 | 1225 | 2,925 | OpenAI |
#13 | Gpt 5.2 | 1223 | 3,013 | OpenAI |
#14 | Gpt 5 Chat | 1222 | 43,264 | OpenAI |
#15 | Ernie 5.0 Preview 1220 | 1216 | 3,623 | Baidu |
#16 | O3 2025 04 16 | 1216 | 49,181 | OpenAI |
#17 | Gemini 2.5 Flash | 1213 | 48,047 | |
#18 | Gpt 4.1 2025 04 14 | 1213 | 44,463 | OpenAI |
#19 | Qwen3 Vl 235b A22b Instruct | 1211 | 10,750 | Alibaba |
#20 | Gpt 5 High | 1208 | 37,581 | OpenAI |
#21 | Claude Opus 4 20250514 Thinking 16k | 1206 | 1,495 | Anthropic |
#22 | Claude Sonnet 4 20250514 Thinking 32k | 1205 | 1,361 | Anthropic |
#23 | Gpt 4.1 Mini 2025 04 14 | 1201 | 43,674 | OpenAI |
#24 | O4 Mini 2025 04 16 | 1199 | 44,239 | OpenAI |
#25 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1195 | 1,676 | Anthropic |
#26 | O1 2024 12 17 | 1192 | 3,694 | OpenAI |
#27 | Claude Opus 4 20250514 | 1191 | 2,579 | Anthropic |
#28 | Gemini 2.5 Flash Lite Preview 06 17 Thinking | 1188 | 39,110 | |
#29 | Hunyuan Vision 1.5 Thinking | 1187 | 2,869 | Tencent |
#30 | Qwen3 Vl 235b A22b Thinking | 1186 | 2,664 | Alibaba |
#31 | Claude Sonnet 4 20250514 | 1186 | 2,066 | Anthropic |
#32 | Grok 4 0709 | 1182 | 34,737 | xAI |
#33 | Gpt 5 Mini High | 1181 | 31,410 | OpenAI |
#34 | Qwen Vl Max 2025 08 13 | 1181 | 3,454 | Alibaba |
#35 | Gemini 1.5 Pro 002 | 1178 | 8,902 | |
#36 | Claude 3 7 Sonnet 20250219 | 1177 | 4,674 | Anthropic |
#37 | Gemini 2.5 Flash Lite Preview 09 2025 No Thinking | 1173 | 5,330 | |
#38 | Gemini 2.0 Flash 001 | 1170 | 9,875 | |
#39 | Gpt 4o 2024 05 13 | 1162 | 23,273 | OpenAI |
#40 | Glm 4.6v | 1161 | 2,611 | Z.ai |
#41 | Claude 3 5 Sonnet 20241022 | 1161 | 10,568 | Anthropic |
#42 | Gemma 3 27b It | 1156 | 18,534 | |
#43 | Mistral Medium 2505 | 1155 | 11,519 | Mistral |
#44 | Glm 4.5v | 1154 | 3,576 | Z.ai |
#45 | Step 1o Turbo 202506 | 1152 | 2,037 | StepFun |
#46 | Hunyuan Large Vision | 1151 | 1,440 | Tencent |
#47 | Mistral Medium 2508 | 1150 | 41,998 | Mistral |
#48 | Claude 3 5 Sonnet 20240620 | 1146 | 21,624 | Anthropic |
#49 | Llama 4 Maverick 17b 128e Instruct | 1145 | 7,410 | Meta |
#50 | Gpt 5 Nano High | 1144 | 4,325 | OpenAI |
#51 | Step 3 | 1144 | 3,558 | StepFun |
#52 | Mistral Small 2506 | 1139 | 11,713 | Mistral |
#53 | Gemini 1.5 Flash 002 | 1139 | 7,241 | |
#54 | Gemini 2.0 Flash Lite Preview 02 05 | 1133 | 3,991 | |
#55 | Claude 3 5 Haiku 20241022 | 1130 | 1,583 | Anthropic |
#56 | Mistral Small 3.1 24b Instruct 2503 | 1126 | 30,955 | Mistral |
#57 | Llama 4 Scout 17b 16e Instruct | 1125 | 6,826 | Meta |
#58 | Step 1o Vision 32k Highres | 1123 | 2,833 | StepFun |
#59 | Qwen2.5 Vl 72b Instruct | 1121 | 3,768 | Alibaba |
#60 | Gpt 4o 2024 08 06 | 1118 | 3,376 | OpenAI |
Ponto de Inflexão de Fevereiro
Quatro novos modelos entraram na classificação este mês — e todos os quatro ficaram no top 13. Isso nunca aconteceu antes. O topo da tabela está ficando mais competitivo, não menos.
Deixe-me explicar o que aconteceu. Desde minha análise de janeiro, quatro modelos legados saíram da parte inferior do ranking — Gemini 1.5 Pro (original), Qwen2.5-VL-32B, GPT-4 Turbo e GPT-4o Mini. Estes são modelos de uma era diferente, e sua saída já era esperada. O que os substituiu é muito mais interessante.
GPT-5.2 High estreou em #3, quebrando a varredura completa do pódio pelo Google pela primeira vez na história desta arena. Sua variante padrão, GPT-5.2, entrou em #13. Mas o verdadeiro choque veio da Moonshot. Seu modelo Kimi K2.5 Thinking ficou em #6, e a variante Instant em #10. Uma startup sem presença anterior nesta classificação agora tem dois modelos no top 10. Eu não vi isso chegando.
A compressão do campo também é reveladora. A diferença entre o #1 e o #60 é de apenas 171 pontos. Essa é uma faixa estreita para sessenta modelos, e significa que o meio da tabela é brutalmente competitivo. Uma única melhoria arquitetônica ou atualização de dados de treinamento pode mudar um modelo em dez ou quinze posições da noite para o dia. Se você está construindo pipelines de produção em torno de um modelo específico, entenda que sua posição não é permanente.
Os Olhos da IA: Análise Profunda
A Dinastia Quase Perfeita do Google
Gemini 3 Pro detém a coroa, e Gemini 3 Flash detém a prata. Mas pela primeira vez, o bronze pertence a outra pessoa. O Google ainda ocupa a posição #4 com a variante thinking-minimal do Flash e executa treze modelos entre os 60 melhores, abrangendo todos os níveis de desempenho, desde o carro-chefe Gemini 3 Pro até o leve Gemini 2.0 Flash Lite. Isso não é uma linha de produtos — é um ecossistema.
O Que Multimodal Nativo Realmente Significa
Eu alimentei o Gemini 3 Pro com uma foto de quadro branco de um diagrama de arquitetura de sistema — caixas desenhadas às pressas, estilos de seta inconsistentes, duas amostras de caligrafia diferentes. Ele não apenas transcreveu o texto. Ele reconstruiu o fluxo lógico entre os serviços, identificou quais setas representavam chamadas síncronas versus assíncronas com base no estilo da linha e sinalizou uma dependência circular potencial que eu havia perdido. É isso que "multimodal nativo" significa na prática: o modelo não traduz imagens para texto primeiro — ele raciocina sobre a estrutura visual diretamente.
O que torna a posição do Google tão durável é a profundidade. Gemini 2.5 Pro em #7 continua sendo o modelo mais testado na arena com quase 80.000 avaliações cegas por trás dele. Gemini 2.5 Flash em #17 alimenta cargas de trabalho de produção de alto rendimento. Até mesmo Gemma 3 27B, um modelo de peso aberto em #42, supera as ofertas principais da maioria dos concorrentes. A abordagem do Google sempre foi vencer pela cobertura — ter o melhor modelo para cada orçamento e restrição de latência — e na visão, essa estratégia está funcionando.
A única rachadura na armadura: o Google perdeu a varredura do pódio. Quando cobri esta arena pela primeira vez, parecia que o Gemini manteria todas as três medalhas indefinidamente. A chegada do GPT-5.2 em #3 prova que a liderança do Google, embora dominante, não é inatacável. Se o Google não lançar a versão completa do Gemini 3 Pro (não apenas a prévia) em breve, essa janela se fechará ainda mais.
OpenAI Quebra o Pódio
Este é o mês mais forte da OpenAI na Vision Arena. GPT-5.2 High em #3 não apenas quebra o bloqueio do Google — sinaliza um salto significativo no pipeline de processamento visual da OpenAI. Testei-o contra a versão de janeiro do GPT-5.1, e as melhorias são mais visíveis em duas áreas: compreensão densa de documentos e interpretação de cenas espacialmente complexas.
A Vantagem da Visão Narrativa
Mostre ao O3 um gráfico de tendências de receita trimestral, e ele não recita números — ele diz por que o terceiro trimestre aumentou, quais padrões sazonais são provavelmente responsáveis e como o primeiro trimestre do próximo ano pode parecer. Para descrições de acessibilidade, explicadores educacionais e qualquer fluxo de trabalho que exija traduzir dados visuais em insights humanos, a abordagem da OpenAI permanece inigualável. Eles não veem imagens — eles as narram.
A OpenAI coloca dezessete modelos no top 60 — o maior número de qualquer organização. A amplitude é estratégica. GPT-5 Chat em #14 é o cavalo de batalha para tarefas de visão conversacional. O3 em #16 e O4 Mini em #24 representam o ramo focado em raciocínio. GPT-5 Nano High em #50 prova que você pode obter uma visão surpreendentemente boa por uma fração do custo. Se sua pilha roda na API da OpenAI, agora há um modelo de visão otimizado para praticamente cada ponto de latência e preço.
O que vale a pena observar: GPT-5.2 High versus sua variante padrão. A versão High está em #3 enquanto o GPT-5.2 padrão está em #13 — uma diferença de trinta e quatro pontos. Essa diferença sugere que a camada High está fazendo substancialmente mais processamento visual, possivelmente passagens de inferência adicionais ou maior resolução interna. Para aplicações sensíveis ao custo, entender onde esse teto de qualidade importa versus onde a camada padrão é "boa o suficiente" será a decisão arquitetônica chave deste trimestre.
A Chegada Silenciosa da Moonshot
Se há uma coisa que aprendi acompanhando benchmarks de IA, é que os concorrentes mais perigosos se anunciam silenciosamente. A Moonshot tinha zero modelos nesta classificação no mês passado. Hoje eles têm dois no top 10.
Kimi K2.5 Thinking em #6 supera o Gemini 2.5 Pro, ChatGPT-4o Latest e todos os modelos da Anthropic nesta classificação. A variante Instant em #10 troca alguma precisão por velocidade, mas ainda supera a maior parte do campo. Isso não é progresso incremental — é uma startup ultrapassando jogadores estabelecidos.
Executei o Kimi K2.5 Thinking através da minha bateria de testes padrão. Na extração de texto em chinês e japonês — menus de restaurante, mapas de trânsito, notas manuscritas — ele igualou ou excedeu o Qwen3-VL, que eu considerava anteriormente o padrão ouro para tarefas de visão CJK. Na análise de documentos em inglês, ele se manteve firme contra o GPT-5.1. Onde ele particularmente me surpreendeu foi na cadeia de pensamento visual: dê a ele um infográfico desordenado e peça para identificar as três escolhas de design mais enganosas, e ele produz uma análise estruturada e digna de citação.
A implicação estratégica é significativa. A Moonshot está sediada em Pequim e arrecadou mais de $1 bilhão em financiamento no ano passado. Seu assistente Kimi já tem uma base de usuários massiva na China. Se continuarem iterando neste ritmo, o top 5 da arena de visão pode em breve incluir três organizações diferentes — quebrando o duopólio Google-OpenAI no topo. Para desenvolvedores construindo aplicações globais, especialmente aquelas servindo mercados asiáticos, o Kimi K2.5 merece uma avaliação séria.
O Olhar Deliberado da Anthropic
A Anthropic não está tentando vencer em velocidade ou precisão bruta. Eles estão jogando um jogo diferente, e os resultados são silenciosamente impressionantes. Claude Opus 4 Thinking em #21 e Claude Sonnet 4 Thinking em #22 lideram os nove modelos da Anthropic no top 60.
Aqui está o que separa o Claude em tarefas de visão: ele não corre para uma resposta. Mostre à maioria dos modelos uma foto e eles identificarão objetos, lerão texto, descreverão a cena. Mostre ao Claude a mesma foto e ele primeiro considera o que a imagem está tentando comunicar. Testei isso com um conjunto de charges políticas de diferentes décadas. O Gemini descreveu com precisão os elementos visuais. O GPT-5.2 forneceu contexto cultural. O Claude analisou a técnica retórica, identificou o público-alvo e explicou por que a charge aterrissaria de forma diferente em 2026 do que quando foi desenhada. Para qualquer tarefa que exija interpretar a intenção por trás do conteúdo visual — revisão de documentos legais, análise de segurança, crítica de design — a abordagem deliberada do Claude é uma vantagem genuína.
A divisão pensando-versus-não-pensando é consistente em toda a família Claude. Claude 3.7 Sonnet Thinking em #25 versus a variante não-pensante em #36 mostra uma lacuna de qualidade confiável. Se você está usando Claude para visão, sempre ative o modo de pensamento — a diferença de qualidade justifica a latência adicionada em quase todos os casos de uso que testei. As variantes não-pensantes são mais adequadas para rotulagem ou classificação simples onde a velocidade importa mais que a profundidade.
A Corrida Global de Visão
Os dias em que IA de visão significava "Google ou OpenAI" acabaram. Esta classificação agora representa treze organizações distintas em quatro continentes, e a competição no meio da tabela é onde os desenvolvimentos mais interessantes estão acontecendo.
Qwen3-VL da Alibaba em #19 continua sendo o melhor modelo de visão para extração de documentos multilíngues. Usei-o recentemente para processar um lote de contratos digitalizados em quatro idiomas — inglês, mandarim, japonês e árabe — e ele lidou com documentos de escrita mista com precisão quase perfeita, incluindo a identificação correta de quais seções eram anotações manuscritas versus texto impresso. Seu peso aberto Qwen2.5-VL-72B em #59 oferece uma opção auto-hospedável para organizações que não podem enviar imagens para APIs externas.
ERNIE 5.0 da Baidu mantém-se firme em #15. Hunyuan Vision 1.5 Thinking da Tencent está em #29. GLM-4.6V da Z.ai em #40. Os laboratórios de IA chineses coletivamente colocam doze modelos nesta classificação em cinco organizações diferentes. Essa densidade de competição dentro de um único ecossistema nacional está impulsionando a inovação mais rápido do que a maioria dos observadores ocidentais percebe.
Na Europa, a Mistral coloca quatro modelos — variantes Medium e Small — fornecendo a única opção soberana da UE para organizações vinculadas a requisitos de residência de dados. Grok 4 da xAI em #32 acumulou mais de 34.000 avaliações, tornando-se um dos modelos mais testados fora do top 20. O peso aberto da Meta Llama 4 Maverick em #49 e Scout em #57 dão aos desenvolvedores a capacidade de executar IA de visão inteiramente em sua própria infraestrutura. E as três entradas da StepFun da China demonstram que mesmo laboratórios menores podem produzir modelos de visão competitivos quando focados nas apostas arquitetônicas certas.
Para Onde Vai a IA Visual
Tenho coberto essas classificações tempo suficiente para ver padrões antes que se tornem consenso. Aqui está para onde acho que a IA visual está indo nos próximos seis meses.
O top 5 incluirá três ou mais organizações até meados de 2026. O domínio do Google está afrouxando. A OpenAI provou que pode quebrar o pódio. A Moonshot está subindo rápido. Se a Anthropic lançar um modelo focado em visão — um projetado do zero para raciocínio visual em vez de adaptado de um modelo de linguagem — eles poderiam se juntar a este grupo. A era do domínio de uma única empresa na IA de visão está terminando.
A visão de cadeia de pensamento se tornará o modo de inferência padrão. Todo modelo que oferece uma variante "thinking" supera sua contraparte não-pensante — consistentemente. Kimi K2.5 Thinking versus Instant. Claude Opus 4 Thinking versus padrão. Gemini Flash Thinking versus não-pensante. O padrão é universal. Dentro de um ano, espero que "thinking" se torne o modo de inferência padrão, com "instantâneo" como a opção explícita de baixa prioridade para casos sensíveis à latência.
A compreensão de vídeo remodelará essas classificações. A maioria dos modelos aqui foi avaliada em imagens estáticas. Mas as tarefas visuais do mundo real envolvem cada vez mais vídeo — feeds de segurança, sequências de imagens médicas, controle de qualidade de fabricação, navegação autônoma. Modelos que podem raciocinar através de quadros temporais, não apenas instantâneos únicos, definirão a próxima geração desta classificação. Google e OpenAI têm pesquisas nessa direção, mas o primeiro a lançar compreensão de vídeo em nível de produção em escala ganhará uma enorme vantagem de pioneirismo que pode persistir por anos.
A camada de peso aberto romperá o top 20. No momento, o modelo de peso aberto mais alto é o Gemma 3 27B em #42. Llama 4 Maverick está em #49. Esses modelos estão melhorando mais rápido do que seus equivalentes proprietários porque se beneficiam do ajuste fino da comunidade, dados de treinamento personalizados e modificações arquitetônicas que os modelos apenas de API não podem receber. Dê mais dois trimestres, e espero pelo menos um modelo de peso aberto no top 20 — o que mudará fundamentalmente a economia da implantação de IA de visão em escala.
Modelos verticais especializados capturarão a maior parte do valor econômico. A classificação atual avalia a compreensão visual de uso geral. Mas o mercado está se movendo em direção à especialização — modelos de imagens médicas que leem raios-X melhor do que qualquer modelo geral, modelos de imagens de satélite otimizados para detecção de mudanças, IA de documentos criada especificamente para faturas e contratos. A classificação geral continuará sendo a manchete, mas o dinheiro real estará em especialistas verticais construídos sobre essas fundações.
Minhas Recomendações por Caso de Uso
Depois de testar todos os sessenta modelos em fluxos de trabalho do mundo real, aqui está minha orientação destilada. Nenhum modelo vence em todos os lugares — a escolha certa depende inteiramente do que você está construindo.
Precisão Máxima
Gemini 3 Pro — ainda o melhor em detalhes estruturais, raciocínio espacial e interpretação de diagramas complexos. Quando a precisão é inegociável, este é o modelo.
Produção Crítica de Velocidade
Gemini 3 Flash — qualidade quase emblemática com latência substancialmente menor. Minha recomendação padrão para aplicações em tempo real.
Narrativa e Acessibilidade
GPT-5.2 High — não apenas lê imagens, explica o que elas significam. Melhor para geração de texto alternativo, conteúdo educacional e contação de histórias a partir de visuais.
Raciocínio Visual Profundo
Claude Opus 4 Thinking — mais lento e deliberado, mas captura implicações que outros perdem. Ideal para tarefas de análise, revisão e interpretação.
OCR Multilíngue e CJK
Kimi K2.5 Thinking — excepcional em texto CJK e documentos de linguagem mista. Também forte como um raciocinador visual de uso geral no nível #6.
Soberania de Dados da UE
Mistral Medium — a única opção competitiva para cargas de trabalho estritas do GDPR. Mantém suas imagens dentro da infraestrutura europeia.
Auto-Hospedagem e Privacidade
Llama 4 Maverick — visão de peso aberto que roda em seu próprio hardware. Sem chamadas de API, sem dados saindo do perímetro da sua rede.
Consciente do Orçamento
GPT-5 Nano High — surpreendentemente capaz para seu nível de custo. Bom o suficiente para classificação, rotulagem e extração simples por uma fração do preço dos principais.
A estratégia de visão mais capaz em 2026 é a orquestração multi-modelo. Encaminhe raciocínio complexo para o Claude. Envie documentos estruturados para o Gemini. Gere descrições acessíveis com o GPT-5.2. Use o Kimi para conteúdo multilíngue. Os vencedores não serão aqueles que escolhem o "melhor" modelo — serão aqueles que constroem a camada de roteamento mais inteligente.
Fonte de Dados: Classificações da Arena Vision Leaderboard, 6 de Fevereiro de 2026.
Discussão
0 comentáriosDeixe um comentário
Seja o primeiro a compartilhar seus pensamentos!