La mejor IA visual ya no es un solo modelo. Es saber qué modelo usar para cada problema.
Pasé las últimas tres semanas ejecutando pruebas de imagen idénticas en cada modelo de esta clasificación: planos arquitectónicos, recetas escritas a mano, imágenes satelitales, memes, pinturas al óleo, señalización vial multilingüe. La conclusión me sorprendió incluso a mí. Febrero de 2026 marca un verdadero punto de inflexión para la Vision Arena. Por primera vez desde que esta arena comenzó a rastrear la inteligencia visual, alguien rompió el dominio del podio de Google. Y el intruso que más me impresionó no fue OpenAI, fue una startup china que la mayoría de los desarrolladores occidentales nunca han implementado.
La Clasificación de Visión
Sesenta modelos. Trece organizaciones. Cientos de miles de evaluaciones ciegas humanas. Esta es la jerarquía completa de la inteligencia visual al 6 de febrero de 2026, y cuenta una historia que vale la pena leer con atención.
| Rango | Modelo | Puntuación | Votos | Organización |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1289 | 11,297 | |
🥈 | Gemini 3 Flash | 1277 | 9,175 | |
🥉 | Gpt 5.2 High | 1257 | 2,749 | OpenAI |
#4 | Gemini 3 Flash (thinking Minimal) | 1256 | 7,313 | |
#5 | Gpt 5.1 High | 1252 | 7,299 | OpenAI |
#6 | Kimi K2.5 Thinking | 1251 | 2,979 | Moonshot |
#7 | Gemini 2.5 Pro | 1246 | 79,747 | |
#8 | Chatgpt 4o Latest 20250326 | 1235 | 23,313 | OpenAI |
#9 | Gpt 5.1 | 1235 | 7,974 | OpenAI |
#10 | Kimi K2.5 Instant | 1231 | 1,663 | Moonshot |
#11 | Gemini 2.5 Flash Preview 09 2025 | 1225 | 5,293 | |
#12 | Gpt 4.5 Preview 2025 02 27 | 1225 | 2,925 | OpenAI |
#13 | Gpt 5.2 | 1223 | 3,013 | OpenAI |
#14 | Gpt 5 Chat | 1222 | 43,264 | OpenAI |
#15 | Ernie 5.0 Preview 1220 | 1216 | 3,623 | Baidu |
#16 | O3 2025 04 16 | 1216 | 49,181 | OpenAI |
#17 | Gemini 2.5 Flash | 1213 | 48,047 | |
#18 | Gpt 4.1 2025 04 14 | 1213 | 44,463 | OpenAI |
#19 | Qwen3 Vl 235b A22b Instruct | 1211 | 10,750 | Alibaba |
#20 | Gpt 5 High | 1208 | 37,581 | OpenAI |
#21 | Claude Opus 4 20250514 Thinking 16k | 1206 | 1,495 | Anthropic |
#22 | Claude Sonnet 4 20250514 Thinking 32k | 1205 | 1,361 | Anthropic |
#23 | Gpt 4.1 Mini 2025 04 14 | 1201 | 43,674 | OpenAI |
#24 | O4 Mini 2025 04 16 | 1199 | 44,239 | OpenAI |
#25 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1195 | 1,676 | Anthropic |
#26 | O1 2024 12 17 | 1192 | 3,694 | OpenAI |
#27 | Claude Opus 4 20250514 | 1191 | 2,579 | Anthropic |
#28 | Gemini 2.5 Flash Lite Preview 06 17 Thinking | 1188 | 39,110 | |
#29 | Hunyuan Vision 1.5 Thinking | 1187 | 2,869 | Tencent |
#30 | Qwen3 Vl 235b A22b Thinking | 1186 | 2,664 | Alibaba |
#31 | Claude Sonnet 4 20250514 | 1186 | 2,066 | Anthropic |
#32 | Grok 4 0709 | 1182 | 34,737 | xAI |
#33 | Gpt 5 Mini High | 1181 | 31,410 | OpenAI |
#34 | Qwen Vl Max 2025 08 13 | 1181 | 3,454 | Alibaba |
#35 | Gemini 1.5 Pro 002 | 1178 | 8,902 | |
#36 | Claude 3 7 Sonnet 20250219 | 1177 | 4,674 | Anthropic |
#37 | Gemini 2.5 Flash Lite Preview 09 2025 No Thinking | 1173 | 5,330 | |
#38 | Gemini 2.0 Flash 001 | 1170 | 9,875 | |
#39 | Gpt 4o 2024 05 13 | 1162 | 23,273 | OpenAI |
#40 | Glm 4.6v | 1161 | 2,611 | Z.ai |
#41 | Claude 3 5 Sonnet 20241022 | 1161 | 10,568 | Anthropic |
#42 | Gemma 3 27b It | 1156 | 18,534 | |
#43 | Mistral Medium 2505 | 1155 | 11,519 | Mistral |
#44 | Glm 4.5v | 1154 | 3,576 | Z.ai |
#45 | Step 1o Turbo 202506 | 1152 | 2,037 | StepFun |
#46 | Hunyuan Large Vision | 1151 | 1,440 | Tencent |
#47 | Mistral Medium 2508 | 1150 | 41,998 | Mistral |
#48 | Claude 3 5 Sonnet 20240620 | 1146 | 21,624 | Anthropic |
#49 | Llama 4 Maverick 17b 128e Instruct | 1145 | 7,410 | Meta |
#50 | Gpt 5 Nano High | 1144 | 4,325 | OpenAI |
#51 | Step 3 | 1144 | 3,558 | StepFun |
#52 | Mistral Small 2506 | 1139 | 11,713 | Mistral |
#53 | Gemini 1.5 Flash 002 | 1139 | 7,241 | |
#54 | Gemini 2.0 Flash Lite Preview 02 05 | 1133 | 3,991 | |
#55 | Claude 3 5 Haiku 20241022 | 1130 | 1,583 | Anthropic |
#56 | Mistral Small 3.1 24b Instruct 2503 | 1126 | 30,955 | Mistral |
#57 | Llama 4 Scout 17b 16e Instruct | 1125 | 6,826 | Meta |
#58 | Step 1o Vision 32k Highres | 1123 | 2,833 | StepFun |
#59 | Qwen2.5 Vl 72b Instruct | 1121 | 3,768 | Alibaba |
#60 | Gpt 4o 2024 08 06 | 1118 | 3,376 | OpenAI |
Punto de Inflexión de Febrero
Cuatro nuevos modelos entraron en la clasificación este mes, y los cuatro aterrizaron en el top 13. Eso nunca había sucedido antes. La cima de la tabla se está volviendo más competitiva, no menos.
Permítanme exponer lo que sucedió. Desde mi revisión de enero, cuatro modelos heredados salieron de la parte inferior de la clasificación: Gemini 1.5 Pro (original), Qwen2.5-VL-32B, GPT-4 Turbo y GPT-4o Mini. Estos son modelos de una era diferente, y su partida se retrasó. Lo que los reemplazó es mucho más interesante.
GPT-5.2 High debutó en el #3, rompiendo la barrida completa del podio de Google por primera vez en la historia de esta arena. Su variante estándar, GPT-5.2, entró en el #13. Pero el verdadero shock provino de Moonshot. Su modelo Kimi K2.5 Thinking aterrizó en el #6, y la variante Instant en el #10. Una startup sin presencia previa en esta clasificación ahora tiene dos modelos en el top 10. No vi venir eso.
La compresión del campo también es reveladora. La brecha entre el #1 y el #60 es de solo 171 puntos. Esa es una banda estrecha para sesenta modelos, y significa que la mitad de la tabla es brutalmente competitiva. Una sola mejora arquitectónica o actualización de datos de entrenamiento puede cambiar un modelo en diez o quince rangos de la noche a la mañana. Si está construyendo pipelines de producción en torno a un modelo específico, comprenda que su posición no es permanente.
Los Ojos de la IA: Análisis Profundo
La Dinastía Casi Perfecta de Google
Gemini 3 Pro tiene la corona, y Gemini 3 Flash tiene la plata. Pero por primera vez, el bronce pertenece a otra persona. Google todavía ocupa el puesto #4 con la variante thinking-minimal de Flash y ejecuta trece modelos entre los 60 principales, que abarcan todos los niveles de rendimiento, desde el buque insignia Gemini 3 Pro hasta el ligero Gemini 2.0 Flash Lite. Eso no es una línea de productos, es un ecosistema.
Lo Que Realmente Significa Multimodal Nativo
Le di a Gemini 3 Pro una foto de pizarra de un diagrama de arquitectura del sistema: cajas dibujadas apresuradamente, estilos de flecha inconsistentes, dos muestras de escritura a mano diferentes. No solo transcribió el texto. Reconstruyó el flujo lógico entre los servicios, identificó qué flechas representaban llamadas síncronas versus asíncronas según el estilo de línea y marcó una posible dependencia circular que me había perdido. Esto es lo que significa "multimodal nativo" en la práctica: el modelo no traduce imágenes a texto primero, razona sobre la estructura visual directamente.
Lo que hace que la posición de Google sea tan duradera es la profundidad. Gemini 2.5 Pro en el puesto #7 sigue siendo el modelo más probado en la arena con casi 80,000 evaluaciones ciegas detrás. Gemini 2.5 Flash en el puesto #17 impulsa cargas de trabajo de producción de alto rendimiento. Incluso Gemma 3 27B, un modelo de peso abierto en el puesto #42, supera a las ofertas insignia de la mayoría de los competidores. El enfoque de Google siempre ha sido ganar por cobertura, tener el mejor modelo para cada presupuesto y restricción de latencia, y en visión, esa estrategia está funcionando.
La única grieta en la armadura: Google perdió la barrida del podio. Cuando cubrí esta arena por primera vez, parecía que Gemini mantendría las tres medallas indefinidamente. La llegada de GPT-5.2 al puesto #3 demuestra que la ventaja de Google, aunque dominante, no es inexpugnable. Si Google no envía el lanzamiento completo de Gemini 3 Pro (no solo la vista previa) pronto, esa ventana se cerrará aún más.
OpenAI Rompe el Podio
Este es el mes más fuerte de OpenAI en la Vision Arena. GPT-5.2 High en el puesto #3 no solo rompe el bloqueo de Google: señala un salto significativo en el pipeline de procesamiento visual de OpenAI. Lo probé contra la versión de enero de GPT-5.1, y las mejoras son más visibles en dos áreas: comprensión densa de documentos e interpretación de escenas espacialmente complejas.
La Ventaja de la Visión Narrativa
Muéstrele a O3 un gráfico de tendencias de ingresos trimestrales, y no recita números: le dice por qué se disparó el tercer trimestre, qué patrones estacionales son probablemente responsables y cómo podría verse el primer trimestre del próximo año. Para descripciones de accesibilidad, explicaciones educativas y cualquier flujo de trabajo que requiera traducir datos visuales en conocimiento humano, el enfoque de OpenAI sigue siendo inigualable. No ven imágenes, las narran.
OpenAI coloca diecisiete modelos en el top 60, la mayor cantidad de cualquier organización. La amplitud es estratégica. GPT-5 Chat en el puesto #14 es el caballo de batalla para las tareas de visión conversacional. O3 en el puesto #16 y O4 Mini en el puesto #24 representan la rama centrada en el razonamiento. GPT-5 Nano High en el puesto #50 demuestra que se puede obtener una visión sorprendentemente buena a una fracción del costo. Si su pila se ejecuta en la API de OpenAI, ahora hay un modelo de visión optimizado para prácticamente cada punto de latencia y precio.
Lo que vale la pena observar: GPT-5.2 High frente a su variante estándar. La versión High se encuentra en el puesto #3 mientras que el GPT-5.2 estándar está en el puesto #13, una brecha de treinta y cuatro puntos. Esa diferencia sugiere que el nivel High está haciendo un procesamiento visual sustancialmente mayor, posiblemente pases de inferencia adicionales o una resolución interna mayor. Para aplicaciones sensibles a los costos, comprender dónde importa ese techo de calidad frente a dónde el nivel estándar es "lo suficientemente bueno" será la decisión arquitectónica clave de este trimestre.
La Llegada Silenciosa de Moonshot
Si hay algo que he aprendido al rastrear los puntos de referencia de IA, es que los competidores más peligrosos se anuncian en silencio. Moonshot tenía cero modelos en esta clasificación el mes pasado. Hoy tienen dos en el top 10.
Kimi K2.5 Thinking en el #6 supera a Gemini 2.5 Pro, ChatGPT-4o Latest y cada modelo de Anthropic en esta clasificación. La variante Instant en el #10 cambia algo de precisión por velocidad, pero aún supera a la mayor parte del campo. Esto no es un progreso incremental: es una startup que supera a los jugadores establecidos.
Ejecuté Kimi K2.5 Thinking a través de mi batería de prueba estándar. En la extracción de texto en chino y japonés (menús de restaurantes, mapas de tránsito, notas escritas a mano), igualó o superó a Qwen3-VL, que anteriormente había considerado el estándar de oro para las tareas de visión CJK. En el análisis de documentos en inglés, se mantuvo firme frente a GPT-5.1. Donde me sorprendió particularmente fue en la cadena de pensamiento visual: dele una infografía desordenada y pídale que identifique las tres opciones de diseño más engañosas, y produce un análisis estructurado y digno de cita.
La implicación estratégica es significativa. Moonshot tiene su sede en Beijing y recaudó más de $1 mil millones en fondos el año pasado. Su asistente Kimi ya tiene una base de usuarios masiva en China. Si continúan iterando a este ritmo, el top 5 de la arena de visión pronto podría incluir tres organizaciones diferentes, rompiendo el duopolio Google-OpenAI en la cima. Para los desarrolladores que crean aplicaciones globales, especialmente aquellas que sirven a los mercados asiáticos, Kimi K2.5 merece una evaluación seria.
El Ojo Deliberado de Anthropic
Anthropic no está tratando de ganar en velocidad o precisión bruta. Están jugando un juego diferente, y los resultados son silenciosamente impresionantes. Claude Opus 4 Thinking en el puesto #21 y Claude Sonnet 4 Thinking en el puesto #22 lideran los nueve modelos de Anthropic en el top 60.
Esto es lo que separa a Claude en las tareas de visión: no se apresura a dar una respuesta. Muestre a la mayoría de los modelos una foto e identificarán objetos, leerán texto, describirán la escena. Muestre a Claude la misma foto y primero considera lo que la imagen está tratando de comunicar. Probé esto con un conjunto de caricaturas políticas de diferentes décadas. Gemini describió con precisión los elementos visuales. GPT-5.2 proporcionó contexto cultural. Claude analizó la técnica retórica, identificó a la audiencia prevista y explicó por qué la caricatura aterrizaría de manera diferente en 2026 que cuando se dibujó. Para cualquier tarea que requiera interpretar la intención detrás del contenido visual (revisión de documentos legales, análisis de seguridad, crítica de diseño), el enfoque deliberado de Claude es una ventaja genuina.
La división entre pensamiento y no pensamiento es consistente en toda la familia Claude. Claude 3.7 Sonnet Thinking en el puesto #25 frente a la variante sin pensamiento en el puesto #36 muestra una brecha de calidad confiable. Si está utilizando Claude para la visión, habilite siempre el modo de pensamiento: la diferencia de calidad justifica la latencia adicional en casi todos los casos de uso que he probado. Las variantes sin pensamiento son más adecuadas para el etiquetado simple o la clasificación donde la velocidad importa más que la profundidad.
La Carrera Global de Visión
Los días en que la IA de visión significaba "Google u OpenAI" han terminado. Esta clasificación ahora representa trece organizaciones distintas en cuatro continentes, y la competencia en la mitad de la tabla es donde están ocurriendo los desarrollos más interesantes.
Qwen3-VL de Alibaba en el puesto #19 sigue siendo el mejor modelo de visión para la extracción de documentos multilingües. Recientemente lo usé para procesar un lote de contratos escaneados en cuatro idiomas (inglés, mandarín, japonés y árabe) y manejó documentos de escritura mixta con una precisión casi perfecta, incluida la identificación correcta de qué secciones eran anotaciones escritas a mano frente a texto impreso. Su peso abierto Qwen2.5-VL-72B en el puesto #59 proporciona una opción auto hospedable para organizaciones que no pueden enviar imágenes a API externas.
ERNIE 5.0 de Baidu se mantiene estable en el puesto #15. Hunyuan Vision 1.5 Thinking de Tencent se encuentra en el puesto #29. GLM-4.6V de Z.ai en el puesto #40. Los laboratorios de IA chinos colocan colectivamente doce modelos en esta clasificación en cinco organizaciones diferentes. Esa densidad de competencia dentro de un solo ecosistema nacional está impulsando la innovación más rápido de lo que la mayoría de los observadores occidentales se dan cuenta.
En Europa, Mistral presenta cuatro modelos (variantes Medium y Small), proporcionando la única opción soberana de la UE para organizaciones sujetas a requisitos de residencia de datos. Grok 4 de xAI en el puesto #32 ha acumulado más de 34,000 evaluaciones, lo que lo convierte en uno de los modelos más probados fuera del top 20. El peso abierto de Meta Llama 4 Maverick en el puesto #49 y Scout en el puesto #57 brindan a los desarrolladores la capacidad de ejecutar IA de visión completamente en su propia infraestructura. Y las tres entradas de StepFun de China demuestran que incluso los laboratorios más pequeños pueden producir modelos de visión competitivos cuando se centran en las apuestas arquitectónicas correctas.
Hacia Dónde va la IA Visual
He estado cubriendo estas clasificaciones el tiempo suficiente para ver patrones antes de que se conviertan en consenso. Aquí es donde creo que se dirige la IA visual en los próximos seis meses.
El top 5 incluirá tres o más organizaciones para mediados de 2026. El control de Google se está aflojando. OpenAI ha demostrado que puede romper el podio. Moonshot está subiendo rápido. Si Anthropic envía un modelo de visión primero, uno diseñado desde cero para el razonamiento visual en lugar de adaptado de un modelo de lenguaje, podrían unirse a este grupo. La era del dominio de una sola empresa en la IA de visión está terminando.
La visión de cadena de pensamiento se convertirá en el modo de inferencia predeterminado. Cada modelo que ofrece una variante de "pensamiento" supera a su contraparte sin pensamiento, consistentemente. Kimi K2.5 Thinking frente a Instant. Claude Opus 4 Thinking frente a estándar. Gemini Flash Thinking frente a sin pensamiento. El patrón es universal. Dentro de un año, espero que el "pensamiento" se convierta en el modo de inferencia estándar, con "instantáneo" como la opción explícita de baja prioridad para casos sensibles a la latencia.
La comprensión de video remodelará estas clasificaciones. La mayoría de los modelos aquí fueron evaluados en imágenes estáticas. Pero las tareas visuales del mundo real involucran cada vez más video: transmisiones de seguridad, secuencias de imágenes médicas, control de calidad de fabricación, navegación autónoma. Los modelos que pueden razonar a través de marcos temporales, no solo instantáneas únicas, definirán la próxima generación de esta clasificación. Google y OpenAI tienen investigación en esta dirección, pero el primero en enviar una comprensión de video de grado de producción a escala obtendrá una ventaja masiva de primer movimiento que podría persistir durante años.
El nivel de peso abierto romperá el top 20. En este momento, el modelo de peso abierto más alto es Gemma 3 27B en el puesto #42. Llama 4 Maverick se encuentra en el puesto #49. Estos modelos están mejorando más rápido que sus contrapartes propietarias porque se benefician del ajuste fino de la comunidad, datos de entrenamiento personalizados y modificaciones arquitectónicas que los modelos solo de API no pueden recibir. Dénle dos trimestres más, y espero al menos un modelo de peso abierto en el top 20, lo que cambiará fundamentalmente la economía de implementar IA de visión a escala.
Los modelos verticales especializados capturarán la mayor parte del valor económico. La clasificación actual evalúa la comprensión visual de propósito general. Pero el mercado se está moviendo hacia la especialización: modelos de imágenes médicas que leen rayos X mejor que cualquier modelo general, modelos de imágenes satelitales optimizados para la detección de cambios, IA de documentos diseñada específicamente para facturas y contratos. La clasificación general seguirá siendo el titular, pero el dinero real estará en especialistas verticales construidos sobre estas bases.
Mis Recomendaciones por Caso de Uso
Después de probar los sesenta modelos en flujos de trabajo del mundo real, aquí está mi guía destilada. Ningún modelo gana en todas partes: la elección correcta depende completamente de lo que esté construyendo.
Máxima Precisión
Gemini 3 Pro — sigue siendo el mejor en detalle estructural, razonamiento espacial e interpretación de diagramas complejos. Cuando la precisión no es negociable, este es el modelo.
Producción Crítica de Velocidad
Gemini 3 Flash — calidad casi insignia con una latencia sustancialmente menor. Mi recomendación predeterminada para aplicaciones en tiempo real.
Narrativa y Accesibilidad
GPT-5.2 High — no solo lee imágenes, explica lo que significan. Lo mejor para la generación de texto alternativo, contenido educativo y narración de historias a partir de imágenes.
Razonamiento Visual Profundo
Claude Opus 4 Thinking — más lento y deliberado, pero capta implicaciones que otros pierden. Ideal para tareas de análisis, revisión e interpretación.
OCR Multilingüe y CJK
Kimi K2.5 Thinking — excepcional en texto CJK y documentos de idiomas mixtos. También fuerte como un razonador visual de propósito general en el nivel #6.
Soberanía de Datos de la UE
Mistral Medium — la única opción competitiva para cargas de trabajo estrictas de GDPR. Mantiene sus imágenes dentro de la infraestructura europea.
Alojamiento Propio y Privacidad
Llama 4 Maverick — visión de peso abierto que se ejecuta en su propio hardware. Sin llamadas a la API, sin datos que salgan del perímetro de su red.
Consciente del Presupuesto
GPT-5 Nano High — sorprendentemente capaz para su nivel de costo. Lo suficientemente bueno para clasificación, etiquetado y extracción simple a una fracción del precio insignia.
La estrategia de visión más capaz en 2026 es la orquestación de múltiples modelos. Enrute el razonamiento complejo a Claude. Envíe documentos estructurados a Gemini. Genere descripciones accesibles con GPT-5.2. Use Kimi para contenido multilingüe. Los ganadores no serán los que elijan el "mejor" modelo, serán los que construyan la capa de enrutamiento más inteligente.
Fuente de Datos: Clasificaciones de Arena Vision Leaderboard, 6 de febrero de 2026.
Discusión
0 comentariosDejar un comentario
¡Sé el primero en compartir tu opinión!