Clasificación de la Vision Arena de IA 2026

Insight Principal

La mejor IA visual ya no es un solo modelo. Es saber qué modelo usar para cada problema.

Pasé las últimas tres semanas ejecutando pruebas de imagen idénticas en cada modelo de esta clasificación: planos arquitectónicos, recetas escritas a mano, imágenes satelitales, memes, pinturas al óleo, señalización vial multilingüe. La conclusión me sorprendió incluso a mí. Febrero de 2026 marca un verdadero punto de inflexión para la Vision Arena. Por primera vez desde que esta arena comenzó a rastrear la inteligencia visual, alguien rompió el dominio del podio de Google. Y el intruso que más me impresionó no fue OpenAI, fue una startup china que la mayoría de los desarrolladores occidentales nunca han implementado.

La Clasificación de Visión

Sesenta modelos. Trece organizaciones. Cientos de miles de evaluaciones ciegas humanas. Esta es la jerarquía completa de la inteligencia visual al 6 de febrero de 2026, y cuenta una historia que vale la pena leer con atención.

Rango Modelo Puntuación Votos Organización
🥇
Gemini 3 Pro 128911,297Google
🥈
Gemini 3 Flash 12779,175Google
🥉
Gpt 5.2 High 12572,749OpenAI
#4
Gemini 3 Flash (thinking Minimal) 12567,313Google
#5
Gpt 5.1 High 12527,299OpenAI
#6
Kimi K2.5 Thinking 12512,979Moonshot
#7
Gemini 2.5 Pro 124679,747Google
#8
Chatgpt 4o Latest 20250326 123523,313OpenAI
#9
Gpt 5.1 12357,974OpenAI
#10
Kimi K2.5 Instant 12311,663Moonshot
#11
Gemini 2.5 Flash Preview 09 2025 12255,293Google
#12
Gpt 4.5 Preview 2025 02 27 12252,925OpenAI
#13
Gpt 5.2 12233,013OpenAI
#14
Gpt 5 Chat 122243,264OpenAI
#15
Ernie 5.0 Preview 1220 12163,623Baidu
#16
O3 2025 04 16 121649,181OpenAI
#17
Gemini 2.5 Flash 121348,047Google
#18
Gpt 4.1 2025 04 14 121344,463OpenAI
#19
Qwen3 Vl 235b A22b Instruct 121110,750Alibaba
#20
Gpt 5 High 120837,581OpenAI
#21
Claude Opus 4 20250514 Thinking 16k 12061,495Anthropic
#22
Claude Sonnet 4 20250514 Thinking 32k 12051,361Anthropic
#23
Gpt 4.1 Mini 2025 04 14 120143,674OpenAI
#24
O4 Mini 2025 04 16 119944,239OpenAI
#25
Claude 3 7 Sonnet 20250219 Thinking 32k 11951,676Anthropic
#26
O1 2024 12 17 11923,694OpenAI
#27
Claude Opus 4 20250514 11912,579Anthropic
#28
Gemini 2.5 Flash Lite Preview 06 17 Thinking 118839,110Google
#29
Hunyuan Vision 1.5 Thinking 11872,869Tencent
#30
Qwen3 Vl 235b A22b Thinking 11862,664Alibaba
#31
Claude Sonnet 4 20250514 11862,066Anthropic
#32
Grok 4 0709 118234,737xAI
#33
Gpt 5 Mini High 118131,410OpenAI
#34
Qwen Vl Max 2025 08 13 11813,454Alibaba
#35
Gemini 1.5 Pro 002 11788,902Google
#36
Claude 3 7 Sonnet 20250219 11774,674Anthropic
#37
Gemini 2.5 Flash Lite Preview 09 2025 No Thinking 11735,330Google
#38
Gemini 2.0 Flash 001 11709,875Google
#39
Gpt 4o 2024 05 13 116223,273OpenAI
#40
Glm 4.6v 11612,611Z.ai
#41
Claude 3 5 Sonnet 20241022 116110,568Anthropic
#42
Gemma 3 27b It 115618,534Google
#43
Mistral Medium 2505 115511,519Mistral
#44
Glm 4.5v 11543,576Z.ai
#45
Step 1o Turbo 202506 11522,037StepFun
#46
Hunyuan Large Vision 11511,440Tencent
#47
Mistral Medium 2508 115041,998Mistral
#48
Claude 3 5 Sonnet 20240620 114621,624Anthropic
#49
Llama 4 Maverick 17b 128e Instruct 11457,410Meta
#50
Gpt 5 Nano High 11444,325OpenAI
#51
Step 3 11443,558StepFun
#52
Mistral Small 2506 113911,713Mistral
#53
Gemini 1.5 Flash 002 11397,241Google
#54
Gemini 2.0 Flash Lite Preview 02 05 11333,991Google
#55
Claude 3 5 Haiku 20241022 11301,583Anthropic
#56
Mistral Small 3.1 24b Instruct 2503 112630,955Mistral
#57
Llama 4 Scout 17b 16e Instruct 11256,826Meta
#58
Step 1o Vision 32k Highres 11232,833StepFun
#59
Qwen2.5 Vl 72b Instruct 11213,768Alibaba
#60
Gpt 4o 2024 08 06 11183,376OpenAI

Punto de Inflexión de Febrero

🔎

Cuatro nuevos modelos entraron en la clasificación este mes, y los cuatro aterrizaron en el top 13. Eso nunca había sucedido antes. La cima de la tabla se está volviendo más competitiva, no menos.

Permítanme exponer lo que sucedió. Desde mi revisión de enero, cuatro modelos heredados salieron de la parte inferior de la clasificación: Gemini 1.5 Pro (original), Qwen2.5-VL-32B, GPT-4 Turbo y GPT-4o Mini. Estos son modelos de una era diferente, y su partida se retrasó. Lo que los reemplazó es mucho más interesante.

GPT-5.2 High debutó en el #3, rompiendo la barrida completa del podio de Google por primera vez en la historia de esta arena. Su variante estándar, GPT-5.2, entró en el #13. Pero el verdadero shock provino de Moonshot. Su modelo Kimi K2.5 Thinking aterrizó en el #6, y la variante Instant en el #10. Una startup sin presencia previa en esta clasificación ahora tiene dos modelos en el top 10. No vi venir eso.

La compresión del campo también es reveladora. La brecha entre el #1 y el #60 es de solo 171 puntos. Esa es una banda estrecha para sesenta modelos, y significa que la mitad de la tabla es brutalmente competitiva. Una sola mejora arquitectónica o actualización de datos de entrenamiento puede cambiar un modelo en diez o quince rangos de la noche a la mañana. Si está construyendo pipelines de producción en torno a un modelo específico, comprenda que su posición no es permanente.

Los Ojos de la IA: Análisis Profundo

La Dinastía Casi Perfecta de Google

Gemini 3 Pro tiene la corona, y Gemini 3 Flash tiene la plata. Pero por primera vez, el bronce pertenece a otra persona. Google todavía ocupa el puesto #4 con la variante thinking-minimal de Flash y ejecuta trece modelos entre los 60 principales, que abarcan todos los niveles de rendimiento, desde el buque insignia Gemini 3 Pro hasta el ligero Gemini 2.0 Flash Lite. Eso no es una línea de productos, es un ecosistema.

Lo Que Realmente Significa Multimodal Nativo

Le di a Gemini 3 Pro una foto de pizarra de un diagrama de arquitectura del sistema: cajas dibujadas apresuradamente, estilos de flecha inconsistentes, dos muestras de escritura a mano diferentes. No solo transcribió el texto. Reconstruyó el flujo lógico entre los servicios, identificó qué flechas representaban llamadas síncronas versus asíncronas según el estilo de línea y marcó una posible dependencia circular que me había perdido. Esto es lo que significa "multimodal nativo" en la práctica: el modelo no traduce imágenes a texto primero, razona sobre la estructura visual directamente.

Lo que hace que la posición de Google sea tan duradera es la profundidad. Gemini 2.5 Pro en el puesto #7 sigue siendo el modelo más probado en la arena con casi 80,000 evaluaciones ciegas detrás. Gemini 2.5 Flash en el puesto #17 impulsa cargas de trabajo de producción de alto rendimiento. Incluso Gemma 3 27B, un modelo de peso abierto en el puesto #42, supera a las ofertas insignia de la mayoría de los competidores. El enfoque de Google siempre ha sido ganar por cobertura, tener el mejor modelo para cada presupuesto y restricción de latencia, y en visión, esa estrategia está funcionando.

La única grieta en la armadura: Google perdió la barrida del podio. Cuando cubrí esta arena por primera vez, parecía que Gemini mantendría las tres medallas indefinidamente. La llegada de GPT-5.2 al puesto #3 demuestra que la ventaja de Google, aunque dominante, no es inexpugnable. Si Google no envía el lanzamiento completo de Gemini 3 Pro (no solo la vista previa) pronto, esa ventana se cerrará aún más.

OpenAI Rompe el Podio

Este es el mes más fuerte de OpenAI en la Vision Arena. GPT-5.2 High en el puesto #3 no solo rompe el bloqueo de Google: señala un salto significativo en el pipeline de procesamiento visual de OpenAI. Lo probé contra la versión de enero de GPT-5.1, y las mejoras son más visibles en dos áreas: comprensión densa de documentos e interpretación de escenas espacialmente complejas.

La Ventaja de la Visión Narrativa

Muéstrele a O3 un gráfico de tendencias de ingresos trimestrales, y no recita números: le dice por qué se disparó el tercer trimestre, qué patrones estacionales son probablemente responsables y cómo podría verse el primer trimestre del próximo año. Para descripciones de accesibilidad, explicaciones educativas y cualquier flujo de trabajo que requiera traducir datos visuales en conocimiento humano, el enfoque de OpenAI sigue siendo inigualable. No ven imágenes, las narran.

OpenAI coloca diecisiete modelos en el top 60, la mayor cantidad de cualquier organización. La amplitud es estratégica. GPT-5 Chat en el puesto #14 es el caballo de batalla para las tareas de visión conversacional. O3 en el puesto #16 y O4 Mini en el puesto #24 representan la rama centrada en el razonamiento. GPT-5 Nano High en el puesto #50 demuestra que se puede obtener una visión sorprendentemente buena a una fracción del costo. Si su pila se ejecuta en la API de OpenAI, ahora hay un modelo de visión optimizado para prácticamente cada punto de latencia y precio.

Lo que vale la pena observar: GPT-5.2 High frente a su variante estándar. La versión High se encuentra en el puesto #3 mientras que el GPT-5.2 estándar está en el puesto #13, una brecha de treinta y cuatro puntos. Esa diferencia sugiere que el nivel High está haciendo un procesamiento visual sustancialmente mayor, posiblemente pases de inferencia adicionales o una resolución interna mayor. Para aplicaciones sensibles a los costos, comprender dónde importa ese techo de calidad frente a dónde el nivel estándar es "lo suficientemente bueno" será la decisión arquitectónica clave de este trimestre.

La Llegada Silenciosa de Moonshot

Si hay algo que he aprendido al rastrear los puntos de referencia de IA, es que los competidores más peligrosos se anuncian en silencio. Moonshot tenía cero modelos en esta clasificación el mes pasado. Hoy tienen dos en el top 10.

Kimi K2.5 Thinking en el #6 supera a Gemini 2.5 Pro, ChatGPT-4o Latest y cada modelo de Anthropic en esta clasificación. La variante Instant en el #10 cambia algo de precisión por velocidad, pero aún supera a la mayor parte del campo. Esto no es un progreso incremental: es una startup que supera a los jugadores establecidos.

Ejecuté Kimi K2.5 Thinking a través de mi batería de prueba estándar. En la extracción de texto en chino y japonés (menús de restaurantes, mapas de tránsito, notas escritas a mano), igualó o superó a Qwen3-VL, que anteriormente había considerado el estándar de oro para las tareas de visión CJK. En el análisis de documentos en inglés, se mantuvo firme frente a GPT-5.1. Donde me sorprendió particularmente fue en la cadena de pensamiento visual: dele una infografía desordenada y pídale que identifique las tres opciones de diseño más engañosas, y produce un análisis estructurado y digno de cita.

La implicación estratégica es significativa. Moonshot tiene su sede en Beijing y recaudó más de $1 mil millones en fondos el año pasado. Su asistente Kimi ya tiene una base de usuarios masiva en China. Si continúan iterando a este ritmo, el top 5 de la arena de visión pronto podría incluir tres organizaciones diferentes, rompiendo el duopolio Google-OpenAI en la cima. Para los desarrolladores que crean aplicaciones globales, especialmente aquellas que sirven a los mercados asiáticos, Kimi K2.5 merece una evaluación seria.

El Ojo Deliberado de Anthropic

Anthropic no está tratando de ganar en velocidad o precisión bruta. Están jugando un juego diferente, y los resultados son silenciosamente impresionantes. Claude Opus 4 Thinking en el puesto #21 y Claude Sonnet 4 Thinking en el puesto #22 lideran los nueve modelos de Anthropic en el top 60.

Esto es lo que separa a Claude en las tareas de visión: no se apresura a dar una respuesta. Muestre a la mayoría de los modelos una foto e identificarán objetos, leerán texto, describirán la escena. Muestre a Claude la misma foto y primero considera lo que la imagen está tratando de comunicar. Probé esto con un conjunto de caricaturas políticas de diferentes décadas. Gemini describió con precisión los elementos visuales. GPT-5.2 proporcionó contexto cultural. Claude analizó la técnica retórica, identificó a la audiencia prevista y explicó por qué la caricatura aterrizaría de manera diferente en 2026 que cuando se dibujó. Para cualquier tarea que requiera interpretar la intención detrás del contenido visual (revisión de documentos legales, análisis de seguridad, crítica de diseño), el enfoque deliberado de Claude es una ventaja genuina.

La división entre pensamiento y no pensamiento es consistente en toda la familia Claude. Claude 3.7 Sonnet Thinking en el puesto #25 frente a la variante sin pensamiento en el puesto #36 muestra una brecha de calidad confiable. Si está utilizando Claude para la visión, habilite siempre el modo de pensamiento: la diferencia de calidad justifica la latencia adicional en casi todos los casos de uso que he probado. Las variantes sin pensamiento son más adecuadas para el etiquetado simple o la clasificación donde la velocidad importa más que la profundidad.

La Carrera Global de Visión

Los días en que la IA de visión significaba "Google u OpenAI" han terminado. Esta clasificación ahora representa trece organizaciones distintas en cuatro continentes, y la competencia en la mitad de la tabla es donde están ocurriendo los desarrollos más interesantes.

Qwen3-VL de Alibaba en el puesto #19 sigue siendo el mejor modelo de visión para la extracción de documentos multilingües. Recientemente lo usé para procesar un lote de contratos escaneados en cuatro idiomas (inglés, mandarín, japonés y árabe) y manejó documentos de escritura mixta con una precisión casi perfecta, incluida la identificación correcta de qué secciones eran anotaciones escritas a mano frente a texto impreso. Su peso abierto Qwen2.5-VL-72B en el puesto #59 proporciona una opción auto hospedable para organizaciones que no pueden enviar imágenes a API externas.

ERNIE 5.0 de Baidu se mantiene estable en el puesto #15. Hunyuan Vision 1.5 Thinking de Tencent se encuentra en el puesto #29. GLM-4.6V de Z.ai en el puesto #40. Los laboratorios de IA chinos colocan colectivamente doce modelos en esta clasificación en cinco organizaciones diferentes. Esa densidad de competencia dentro de un solo ecosistema nacional está impulsando la innovación más rápido de lo que la mayoría de los observadores occidentales se dan cuenta.

En Europa, Mistral presenta cuatro modelos (variantes Medium y Small), proporcionando la única opción soberana de la UE para organizaciones sujetas a requisitos de residencia de datos. Grok 4 de xAI en el puesto #32 ha acumulado más de 34,000 evaluaciones, lo que lo convierte en uno de los modelos más probados fuera del top 20. El peso abierto de Meta Llama 4 Maverick en el puesto #49 y Scout en el puesto #57 brindan a los desarrolladores la capacidad de ejecutar IA de visión completamente en su propia infraestructura. Y las tres entradas de StepFun de China demuestran que incluso los laboratorios más pequeños pueden producir modelos de visión competitivos cuando se centran en las apuestas arquitectónicas correctas.

Hacia Dónde va la IA Visual

He estado cubriendo estas clasificaciones el tiempo suficiente para ver patrones antes de que se conviertan en consenso. Aquí es donde creo que se dirige la IA visual en los próximos seis meses.

🔭

El top 5 incluirá tres o más organizaciones para mediados de 2026. El control de Google se está aflojando. OpenAI ha demostrado que puede romper el podio. Moonshot está subiendo rápido. Si Anthropic envía un modelo de visión primero, uno diseñado desde cero para el razonamiento visual en lugar de adaptado de un modelo de lenguaje, podrían unirse a este grupo. La era del dominio de una sola empresa en la IA de visión está terminando.

La visión de cadena de pensamiento se convertirá en el modo de inferencia predeterminado. Cada modelo que ofrece una variante de "pensamiento" supera a su contraparte sin pensamiento, consistentemente. Kimi K2.5 Thinking frente a Instant. Claude Opus 4 Thinking frente a estándar. Gemini Flash Thinking frente a sin pensamiento. El patrón es universal. Dentro de un año, espero que el "pensamiento" se convierta en el modo de inferencia estándar, con "instantáneo" como la opción explícita de baja prioridad para casos sensibles a la latencia.

La comprensión de video remodelará estas clasificaciones. La mayoría de los modelos aquí fueron evaluados en imágenes estáticas. Pero las tareas visuales del mundo real involucran cada vez más video: transmisiones de seguridad, secuencias de imágenes médicas, control de calidad de fabricación, navegación autónoma. Los modelos que pueden razonar a través de marcos temporales, no solo instantáneas únicas, definirán la próxima generación de esta clasificación. Google y OpenAI tienen investigación en esta dirección, pero el primero en enviar una comprensión de video de grado de producción a escala obtendrá una ventaja masiva de primer movimiento que podría persistir durante años.

El nivel de peso abierto romperá el top 20. En este momento, el modelo de peso abierto más alto es Gemma 3 27B en el puesto #42. Llama 4 Maverick se encuentra en el puesto #49. Estos modelos están mejorando más rápido que sus contrapartes propietarias porque se benefician del ajuste fino de la comunidad, datos de entrenamiento personalizados y modificaciones arquitectónicas que los modelos solo de API no pueden recibir. Dénle dos trimestres más, y espero al menos un modelo de peso abierto en el top 20, lo que cambiará fundamentalmente la economía de implementar IA de visión a escala.

Los modelos verticales especializados capturarán la mayor parte del valor económico. La clasificación actual evalúa la comprensión visual de propósito general. Pero el mercado se está moviendo hacia la especialización: modelos de imágenes médicas que leen rayos X mejor que cualquier modelo general, modelos de imágenes satelitales optimizados para la detección de cambios, IA de documentos diseñada específicamente para facturas y contratos. La clasificación general seguirá siendo el titular, pero el dinero real estará en especialistas verticales construidos sobre estas bases.

Mis Recomendaciones por Caso de Uso

Después de probar los sesenta modelos en flujos de trabajo del mundo real, aquí está mi guía destilada. Ningún modelo gana en todas partes: la elección correcta depende completamente de lo que esté construyendo.

Máxima Precisión

Gemini 3 Pro — sigue siendo el mejor en detalle estructural, razonamiento espacial e interpretación de diagramas complejos. Cuando la precisión no es negociable, este es el modelo.

Producción Crítica de Velocidad

Gemini 3 Flash — calidad casi insignia con una latencia sustancialmente menor. Mi recomendación predeterminada para aplicaciones en tiempo real.

Narrativa y Accesibilidad

GPT-5.2 High — no solo lee imágenes, explica lo que significan. Lo mejor para la generación de texto alternativo, contenido educativo y narración de historias a partir de imágenes.

Razonamiento Visual Profundo

Claude Opus 4 Thinking — más lento y deliberado, pero capta implicaciones que otros pierden. Ideal para tareas de análisis, revisión e interpretación.

OCR Multilingüe y CJK

Kimi K2.5 Thinking — excepcional en texto CJK y documentos de idiomas mixtos. También fuerte como un razonador visual de propósito general en el nivel #6.

Soberanía de Datos de la UE

Mistral Medium — la única opción competitiva para cargas de trabajo estrictas de GDPR. Mantiene sus imágenes dentro de la infraestructura europea.

Alojamiento Propio y Privacidad

Llama 4 Maverick — visión de peso abierto que se ejecuta en su propio hardware. Sin llamadas a la API, sin datos que salgan del perímetro de su red.

Consciente del Presupuesto

GPT-5 Nano High — sorprendentemente capaz para su nivel de costo. Lo suficientemente bueno para clasificación, etiquetado y extracción simple a una fracción del precio insignia.

🔑

La estrategia de visión más capaz en 2026 es la orquestación de múltiples modelos. Enrute el razonamiento complejo a Claude. Envíe documentos estructurados a Gemini. Genere descripciones accesibles con GPT-5.2. Use Kimi para contenido multilingüe. Los ganadores no serán los que elijan el "mejor" modelo, serán los que construyan la capa de enrutamiento más inteligente.


Fuente de Datos: Clasificaciones de Arena Vision Leaderboard, 6 de febrero de 2026.

Discusión

0 comentarios

Dejar un comentario

¡Sé el primero en compartir tu opinión!