Una imagen estática. Treinta y un futuros diferentes. La IA que elijas para animarla determina qué realidad se despliega.
He estado alimentando la misma cartera de imágenes de prueba — retratos, paisajes, fotos de productos, pinturas al óleo, renders arquitectónicos — en cada modelo de esta tabla durante meses. Algunos convierten una fotografía en cine. Otros producen presentaciones de diapositivas con desenfoque de movimiento. La gran historia de este mes no es el progreso incremental. Es un cambio de régimen. Grok Imagine Video de xAI ha tomado el puesto #1, empujando al anteriormente intocable Veo 3.1 Audio de Google al segundo lugar. Mientras tanto, el campo se expandió de 27 a 31 modelos, Vidu de Shengshu dio un salto generacional al #5, y una entrada de código abierto de Lightricks demostró que no necesitas una API en la nube para animar imágenes. Esta es la Arena de Imagen a Video (Image-to-Video Arena), Febrero de 2026.
Clasificación Completa — 31 Modelos Clasificados
Cada clasificación a continuación proviene de comparaciones ciegas cara a cara realizadas por usuarios reales en la plataforma Arena. Sin selecciones a dedo, sin demos de marketing. He vinculado cada modelo a su documentación oficial para que puedas probarlos directamente.
| Rango | Modelo | Puntuación | Votos | Organización |
|---|---|---|---|---|
🥇 | Grok Imagine Video 720p | 1400 | — | xAI |
🥈 | Veo 3.1 Audio | 1395 | 23,432 | |
🥉 | Veo 3.1 Fast Audio | 1382 | 30,039 | |
#4 | Grok Imagine Video 480p | 1381 | 19,582 | xAI |
#5 | Vidu Q3 Pro | 1362 | 11,270 | Shengshu |
#6 | Wan2.5 I2v Preview | 1339 | 12,039 | Alibaba |
#7 | Veo 3 Audio | 1331 | 34,546 | |
#8 | Veo 3 Fast Audio | 1322 | 43,912 | |
#9 | Seedance V1.5 Pro | 1303 | 39,229 | Bytedance |
#10 | Kling 2.6 Pro | 1291 | 30,845 | KlingAI |
#11 | Seedance V1 Pro | 1272 | 36,475 | Bytedance |
#12 | Kling 2.5 Turbo 1080p | 1272 | 3,873 | KlingAI |
#13 | Veo 3 Fast | 1256 | 27,874 | |
#14 | Hailuo 2.3 | 1254 | 36,884 | MiniMax |
#15 | Veo 3 | 1254 | 27,736 | |
#16 | Vidu Q2 Turbo | 1244 | 2,481 | Shengshu |
#17 | Kling V2.1 Master | 1232 | 32,254 | KlingAI |
#18 | Hailuo 02 Pro | 1228 | 23,839 | MiniMax |
#19 | Kling V2.1 Standard | 1225 | 32,258 | KlingAI |
#20 | Vidu Q2 Pro | 1224 | 2,566 | Shengshu |
#21 | Hailuo 02 Standard | 1222 | 23,651 | MiniMax |
#22 | Ray 3 | 1222 | 1,580 | Luma AI |
#23 | Hailuo 02 Fast | 1194 | 24,578 | MiniMax |
#24 | Hunyuan Video 1.5 | 1193 | 5,429 | Tencent |
#25 | Seedance V1 Lite | 1183 | 36,129 | Bytedance |
#26 | Wan V2.2 A14b | 1167 | 29,450 | Alibaba |
#27 | Veo 2 | 1164 | 11,536 | |
#28 | Ltx 2 19b | 1111 | 22,315 | lightricks |
#29 | Ray2 | 1105 | 10,828 | Luma AI |
#30 | Runway Gen4 Turbo | 1047 | 7,506 | Runway |
#31 | Pika V2.2 | 994 | — | Pika |
La Disrupción de xAI
Nadie vio venir esto. Cuando actualicé esta clasificación por última vez hace tres semanas, Google mantenía tanto el #1 como el #2 sin oposición. No había ni un susurro público sobre la entrada de xAI en el espacio de imagen a video. Entonces apareció Grok Imagine Video — no una variante, sino dos — y el modelo 720p fue directo a la cima en las comparaciones ciegas.
He estado ejecutando Grok contra mi suite de pruebas estándar, y lo que salta a la vista inmediatamente es la coherencia temporal. Dale un retrato y el sujeto no se transforma a mitad de la animación. La física del cabello se mantiene consistente cuadro a cuadro. La dirección de los ojos sigue naturalmente los giros de la cabeza. Probé una de mis entradas más difíciles — un plano medio de alguien girando la cabeza mientras el viento atrapa su bufanda — y Grok mantuvo cada detalle durante todo el clip. La mayoría de los modelos pierden el patrón de la bufanda o distorsionan la cara durante el giro. Grok lo manejó con una estabilidad que solo he visto en los mejores renders de Veo.
La jugada estratégica aquí dice mucho sobre el enfoque de xAI. Lanzaron dos niveles de resolución simultáneamente: 720p en el #1 y 480p en el #4. La variante 480p ya ha acumulado comparaciones sustanciales en la Arena y se mantiene cerca de la cima. Esto significa que la arquitectura de movimiento de xAI es fundamentalmente fuerte — la calidad aparece incluso antes de que el escalado de resolución entre en escena. Si avanzan a 1080p nativo manteniendo este nivel de fidelidad temporal, la integración de audio de Google se convierte en el único diferenciador restante que mantiene a Veo en la conversación por la corona.
Qué observar: El modelo 720p de Grok todavía está en su fase más temprana en la Arena con datos de comparación limitados. A medida que lleguen miles de comparaciones más, esa clasificación #1 se solidificará — confirmando la fuerza del modelo en diversas entradas — o se ajustará a medida que los casos extremos revelen debilidades. De cualquier manera, xAI ha abierto una guerra en tres frentes: su fidelidad de movimiento frente a la integración de audio de Google frente a la velocidad de iteración implacable del ecosistema chino. La carrera de Imagen a Video se acaba de poner dramáticamente más interesante.
Google: Destronado Pero No Derrotado
Perder el puesto #1 no significa que Google haya perdido la guerra. Todavía comandan siete de las 31 posiciones — más que cualquier otra organización. Veo 3.1 Audio en el #2 y Veo 3.1 Fast Audio en el #3 siguen siendo formidables. Las variantes de Veo 3 Audio ocupan el #7 y el #8. Los motores Veo 3 sin audio se sitúan en el #13 y #15. Y el envejecido Veo 2 se aferra al #27.
La ventaja duradera de Google es una capacidad que ningún competidor ha replicado: generación de audio sincronizado. Cuando animo una escena de café con Veo 3.1, escucho máquinas de café expreso silbando, tazas tintineando, conversación ambiental — todo cronometrado con precisión con el movimiento visual. Una foto de playa obtiene olas rompiendo que coinciden con el ciclo de la espuma. Un camino forestal obtiene cantos de pájaros que cambian con la posición de la cámara virtual. Esto no es audio de postproducción superpuesto; es co-generado en la misma pasada que el video. En mi experiencia, el audio coincidente eleva la calidad percibida dramáticamente — tu cerebro confía más en el movimiento cuando lo escucha.
Pero Veo 2 sentado en el #27 cuenta una historia aleccionadora sobre la velocidad de depreciación. Hace doce meses, Veo 2 era el estándar de oro para I2V. Ahora es superado por veintiséis modelos, incluidos varios de empresas que no tenían productos de video hace un año. Cada generación en este espacio envejece en meses, no años, y los propios modelos más nuevos de Google han hecho que Veo 2 parezca infraestructura heredada. Esta rápida canibalización interna es tanto la mayor fortaleza de Google como su compromiso más costoso — tienen que seguir lanzando solo para mantenerse por delante de sí mismos.
El foso del audio es real, pero se está reduciendo. Espero que al menos otros dos proveedores lancen co-generación nativa de audio y video para el cuarto trimestre de 2026. Una vez que eso suceda, el diferenciador de Google pasará de la exclusividad de características a la calidad de ejecución. La pregunta estratégica es si Veo 4 llegará antes de que los competidores cierren esa brecha por completo.
La Potencia Oriental
Si solo rastreas los tres primeros, te estás perdiendo la historia estructural. Las empresas chinas de IA ocupan colectivamente diecisiete de las 31 posiciones en esta tabla — más de la mitad de toda la clasificación. Esto no es una presencia de nicho. Es un dominio a nivel de ecosistema de la capa media a superior, y tiene implicaciones directas para cualquiera que construya una tubería de producción en torno a la generación de imagen a video.
Shengshu: El Salto Generacional
Vidu Q3 Pro en el #5 es el modelo al que te diría que prestes más atención. La generación Q2 de Shengshu — Q2 Turbo y Q2 Pro — se sitúa en el #16 y #20. Respetable, pero no notable. El salto a Q3 no es incremental; es arquitectónico. En mis pruebas, Q3 Pro maneja escenas de múltiples sujetos con una precisión que sus predecesores no podían igualar. ¿Dos personas caminando en direcciones opuestas? Los modelos Q2 comenzarían a fusionar sus contornos en el cuadro 30. Q3 Pro los mantiene distintos durante toda la secuencia. Para la animación de retratos, conserva las texturas de la piel y las microexpresiones de una manera que se siente orgánica en lugar de sintética. Si Shengshu mantiene este ritmo de mejora generacional, un modelo Q4 podría desafiar a los tres primeros a finales de 2026.
Bytedance: El Especialista en Cámara
Seedance v1.5 Pro en el #9 se ha convertido en mi opción preferida para coreografías de cámara complejas — tomas dolly, panorámicas orbitales, transiciones de grúa a cámara en mano. Cuando la animación exige un movimiento de cámara intencional en lugar de un marco estático que se desplaza, Seedance cumple. Seedance v1 Pro en el #11 sigue siendo un caballo de batalla confiable para tareas de animación estándar, y v1 Lite en el #25 es la elección cuando la velocidad importa más que la calidad máxima. La estrategia de tres niveles de Bytedance te ofrece una tubería completa: Lite para experimentación, v1 Pro para una salida sólida, v1.5 Pro para la toma principal.
KlingAI: Cuatro Niveles, Un Ecosistema
Kling 2.6 Pro (#10), Kling 2.5 Turbo 1080p (#12), v2.1 Master (#17), v2.1 Standard (#19) — cuatro modelos que abarcan diferentes niveles de precio y capacidad. Kling 2.6 Pro es el destacado para la animación de personajes: movimiento corporal fluido con consistencia facial que no he visto igualada fuera de los cuatro primeros. Kling 2.5 Turbo 1080p es notable por su alta resolución nativa en un nivel de renderizado rápido — cuando tu formato de entrega exige recuento de píxeles y no puedes permitirte un paso de escalado, este modelo ahorra tiempo y dinero.
MiniMax, Alibaba, Tencent y Luma AI
La familia Hailuo de MiniMax ocupa cuatro puestos (#14, #18, #21, #23) que van desde niveles pro hasta rápidos — la máquina de iteración en la que confío para borradores rápidos antes de comprometer un renderizado costoso en otro lugar. Wan 2.5 I2V de Alibaba en el #6 sigue siendo la mejor opción cuando la preservación del estilo artístico no es negociable: aliméntalo con una pintura de acuarela y la anima como acuarela, no como una reinterpretación fotorrealista. Hunyuan Video 1.5 de Tencent en el #24 completa la lista china con mejoras silenciosas y constantes en cada ciclo.
Ray 3 de Luma AI en el #22 merece una mención especial por la animación consciente de 3D. Aliméntalo con una toma de producto o un render arquitectónico e infiere profundidad, generando un movimiento de cámara que respeta la estructura tridimensional — paralaje en objetos en primer plano, oclusión correcta en fondos. Para videos de productos de comercio electrónico y visualización inmobiliaria, Ray 3 es un especialista que vale la pena conocer. Su Ray 2 más antiguo en el #29 muestra cuánto se ha ampliado la brecha generacional incluso dentro de una sola empresa.
La Señal de Código Abierto
LTX-2-19b de Lightricks en el #28 es la entrada más significativa en esta lista para una audiencia específica: equipos que no pueden enviar imágenes propietarias a API externas. Disponible en HuggingFace con pesos abiertos, este modelo de 19 mil millones de parámetros se ejecuta localmente. La brecha de calidad entre LTX-2 y el top 10 es real — lo notarás en los detalles finos y la estabilidad temporal. Pero para flujos de trabajo donde la privacidad de los datos no es negociable — imágenes médicas, diseños de productos no lanzados, planos arquitectónicos clasificados — LTX-2 es actualmente la opción de peso abierto más fuerte para la generación de imagen a video.
La trayectoria más amplia importa aquí. Wan v2.2 en el #26 también está disponible abiertamente. A medida que más modelos capaces liberan sus pesos, el piso de lo que es posible sin una API en la nube sigue subiendo. Estimo que la imagen a video de código abierto está aproximadamente donde estaban los modelos de lenguaje de código abierto a mediados de 2024 — unos doce meses por detrás de la frontera, pero cerrando la brecha rápidamente. Para fines de 2026, espero que los modelos I2V de peso abierto rivalicen con las ofertas comerciales de nivel medio, cambiando fundamentalmente el cálculo de construir versus comprar para los equipos empresariales.
Elegir la Herramienta Adecuada
Mis Recomendaciones por Caso de Uso
Cinematográfico + Audio
Veo 3.1 Audio — sonido sincronizado que eleva cada cuadro. Inigualable.
Calidad de Animación Pura
Grok Imagine Video 720p — el nuevo #1, coherencia temporal y fidelidad de movimiento excepcionales.
Preservación del Estilo Artístico
Wan 2.5 I2V — anima pinturas como pinturas, no como renders fotorrealistas.
Coreografía de Cámara
Seedance v1.5 Pro — el mejor movimiento de dolly, panorámica, orbital y grúa en el campo.
Animación de Personajes
Kling 2.6 Pro — consistencia facial y dinámica de movimiento corporal fluida.
Borrador Rápido
Hailuo 02 Fast — iterar conceptos rápidamente antes de comprometerse con un render final.
Animación Consciente de 3D
Luma AI Ray 3 — inferencia de profundidad para fotos de productos y escenas arquitectónicas.
Local / Pesos Abiertos
LTX-2-19b — autohospedaje cuando los datos no pueden salir de tu infraestructura.
La verdadera habilidad en 2026 no es dominar un modelo — es saber qué herramienta elegir. Uso Veo cuando el clip necesita audio. Grok cuando la fidelidad pura de la animación es lo más importante. Wan cuando la fuente es artística. Seedance cuando la cámara tiene que moverse. Hailuo cuando necesito diez variaciones en una hora. Los mejores flujos de trabajo de imagen a video que he construido este año tratan estos modelos como instrumentos en una orquesta, no como alternativas entre sí.
Lo Que Viene Después
Habiendo seguido este espacio mes tras mes, aquí es hacia donde veo que se dirige el panorama durante el resto de 2026.
La co-generación de audio se vuelve convencional. Google fue pionero con Veo 3, y la brecha de calidad percibida que crea es demasiado grande para que los competidores la ignoren. Espero que al menos otros dos proveedores — probablemente xAI y Bytedance — lancen audio integrado para el cuarto trimestre. Una vez que eso suceda, la animación silenciosa se sentirá como un artefacto de una era anterior, de la misma manera que las miniaturas estáticas se sienten ahora en comparación con las vistas previas animadas.
La escalada de resolución se acelera. La mayoría de los mejores modelos actualmente alcanzan un máximo de 720p. Kling 2.5 Turbo ya empuja a 1080p nativo. Para fin de año, 1080p será el estándar para los niveles profesionales y veremos las primeras vistas previas en 4K de al menos un laboratorio. El costo de cómputo será punitivo, pero la demanda de los flujos de trabajo de transmisión y publicidad es innegable.
xAI escala agresivamente. Dos modelos en tres semanas — con la variante 720p reclamando el #1 a su llegada — señala una inversión seria. Esperaría variantes de mayor resolución y posiblemente integración de audio de Grok antes del verano. Si mantienen esta calidad de movimiento a 1080p, se convertirán en los claros favoritos.
Runway necesita un momento Gen5. Runway Gen4 Turbo en el #30 es una posición difícil para la empresa que esencialmente creó la categoría comercial de video IA. Sus herramientas creativas y experiencia de usuario siguen siendo las mejores de su clase, pero el modelo subyacente necesita un salto generacional. Si Gen5 no se lanza a mediados de 2026 con una calidad top 10, Runway corre el riesgo de convertirse en la empresa que definió el mercado y luego vio cómo todos los demás lo ganaban.
El código abierto reduce la brecha. LTX-2 demostró que los pesos abiertos pueden producir resultados viables de imagen a video hoy. La próxima ola — posiblemente un Wan 3 o LTX-3 — empujará hacia un territorio que rivaliza con los modelos comerciales de nivel medio. Para los equipos empresariales que construyen tuberías propietarias sin dependencias de API externas, esta es la tendencia que más importa.
Los jugadores ausentes. Meta, Apple y Amazon siguen notablemente ausentes de esta clasificación. Las publicaciones de investigación de video de Meta sugieren una capacidad que podría competir en el nivel superior, pero no han lanzado un producto I2V de cara al público. El momento en que Meta entre — especialmente si lanzan un modelo de peso abierto, como hicieron con Llama para el lenguaje — todo el panorama competitivo se reorganiza de la noche a la mañana.
Fuente de Datos: Clasificaciones de Arena Image-to-Video Leaderboard, 5 de Febrero de 2026.
Discusión
0 comentariosDejar un comentario
¡Sé el primero en compartir tu opinión!