Une image fixe. Trente et un futurs différents. L'IA que vous choisissez pour l'animer détermine quelle réalité se déploie.
J'ai nourri le même portefeuille d'images de test — portraits, paysages, photos de produits, peintures à l'huile, rendus architecturaux — dans chaque modèle de ce tableau depuis des mois. Certains transforment une photographie en cinéma. D'autres produisent des diaporamas avec flou de mouvement. La grande histoire de ce mois-ci n'est pas le progrès incrémental. C'est un changement de régime. Grok Imagine Video de xAI a pris la 1ère place, poussant le Veo 3.1 Audio de Google, auparavant intouchable, à la deuxième place. Pendant ce temps, le champ s'est élargi de 27 à 31 modèles, Vidu de Shengshu a fait un saut générationnel vers la 5ème place, et une entrée open-source de Lightricks a prouvé que vous n'avez plus besoin d'une API cloud pour animer des images. C'est l'Arène Image-vers-Vidéo (Image-to-Video Arena), février 2026.
Classement Complet — 31 Modèles Classés
Chaque classement ci-dessous provient de comparaisons à l'aveugle en tête-à-tête effectuées par de vrais utilisateurs sur la plateforme Arena. Pas de sélection triée sur le volet, pas de démos marketing. J'ai lié chaque modèle à sa documentation officielle pour que vous puissiez les tester directement.
| Rang | Modèle | Score | Votes | Organisation |
|---|---|---|---|---|
🥇 | Grok Imagine Video 720p | 1400 | — | xAI |
🥈 | Veo 3.1 Audio | 1395 | 23,432 | |
🥉 | Veo 3.1 Fast Audio | 1382 | 30,039 | |
#4 | Grok Imagine Video 480p | 1381 | 19,582 | xAI |
#5 | Vidu Q3 Pro | 1362 | 11,270 | Shengshu |
#6 | Wan2.5 I2v Preview | 1339 | 12,039 | Alibaba |
#7 | Veo 3 Audio | 1331 | 34,546 | |
#8 | Veo 3 Fast Audio | 1322 | 43,912 | |
#9 | Seedance V1.5 Pro | 1303 | 39,229 | Bytedance |
#10 | Kling 2.6 Pro | 1291 | 30,845 | KlingAI |
#11 | Seedance V1 Pro | 1272 | 36,475 | Bytedance |
#12 | Kling 2.5 Turbo 1080p | 1272 | 3,873 | KlingAI |
#13 | Veo 3 Fast | 1256 | 27,874 | |
#14 | Hailuo 2.3 | 1254 | 36,884 | MiniMax |
#15 | Veo 3 | 1254 | 27,736 | |
#16 | Vidu Q2 Turbo | 1244 | 2,481 | Shengshu |
#17 | Kling V2.1 Master | 1232 | 32,254 | KlingAI |
#18 | Hailuo 02 Pro | 1228 | 23,839 | MiniMax |
#19 | Kling V2.1 Standard | 1225 | 32,258 | KlingAI |
#20 | Vidu Q2 Pro | 1224 | 2,566 | Shengshu |
#21 | Hailuo 02 Standard | 1222 | 23,651 | MiniMax |
#22 | Ray 3 | 1222 | 1,580 | Luma AI |
#23 | Hailuo 02 Fast | 1194 | 24,578 | MiniMax |
#24 | Hunyuan Video 1.5 | 1193 | 5,429 | Tencent |
#25 | Seedance V1 Lite | 1183 | 36,129 | Bytedance |
#26 | Wan V2.2 A14b | 1167 | 29,450 | Alibaba |
#27 | Veo 2 | 1164 | 11,536 | |
#28 | Ltx 2 19b | 1111 | 22,315 | lightricks |
#29 | Ray2 | 1105 | 10,828 | Luma AI |
#30 | Runway Gen4 Turbo | 1047 | 7,506 | Runway |
#31 | Pika V2.2 | 994 | — | Pika |
Le Bouleversement xAI
Personne ne l'a vu venir. Lorsque j'ai mis à jour ce classement pour la dernière fois il y a trois semaines, Google détenait sans conteste la 1ère et la 2ème place. Il n'y avait aucune rumeur publique sur l'entrée de xAI dans l'espace image-vers-vidéo. Puis Grok Imagine Video est apparu — non pas une variante, mais deux — et le modèle 720p est allé directement au sommet des comparaisons à l'aveugle.
J'ai fait tourner Grok contre ma suite de tests standard, et ce qui saute aux yeux immédiatement est la cohérence temporelle. Donnez-lui un portrait et le sujet ne se transforme pas en pleine animation. La physique des cheveux reste cohérente d'une image à l'autre. La direction des yeux suit naturellement les mouvements de la tête. J'ai testé l'une de mes entrées les plus difficiles — un plan moyen de quelqu'un tournant la tête tandis que le vent attrape son écharpe — et Grok a maintenu chaque détail tout au long du clip. La plupart des modèles perdent le motif de l'écharpe ou déforment le visage pendant le tournant. Grok l'a géré avec une stabilité que je n'ai vue que dans les meilleurs rendus de Veo.
Le jeu stratégique ici en dit long sur l'approche de xAI. Ils ont expédié deux niveaux de résolution simultanément : 720p en 1ère place et 480p en 4ème place. La variante 480p a déjà accumulé des comparaisons substantielles dans l'Arène et tient son rang près du sommet. Cela signifie que l'architecture de mouvement de xAI est fondamentalement forte — la qualité apparaît avant même que la mise à l'échelle de la résolution n'entre en jeu. S'ils poussent vers le 1080p natif tout en maintenant ce niveau de fidélité temporelle, l'intégration audio de Google devient le seul différenciateur restant gardant Veo dans la conversation pour la couronne.
À surveiller : Le modèle 720p de Grok est encore dans sa phase Arena la plus précoce avec des données de comparaison limitées. À mesure que des milliers d'autres comparaisons arriveront, ce classement #1 va soit se solidifier — confirmant la force du modèle à travers divers inputs — soit s'ajuster à mesure que les cas limites révèlent des faiblesses. Quoi qu'il en soit, xAI a ouvert une guerre sur trois fronts : leur fidélité de mouvement contre l'intégration audio de Google contre la vitesse d'itération implacable de l'écosystème chinois. La course Image-vers-Vidéo vient de devenir considérablement plus intéressante.
Google : Détrôné Mais Pas Vaincu
Perdre la 1ère place ne signifie pas que Google a perdu la guerre. Ils commandent toujours sept des 31 positions — plus que toute autre organisation. Veo 3.1 Audio en #2 et Veo 3.1 Fast Audio en #3 restent redoutables. Les variantes Veo 3 Audio occupent les 7ème et 8ème places. Les moteurs Veo 3 non audio siègent aux 13ème et 15ème places. Et le vieillissant Veo 2 s'accroche à la 27ème place.
L'avantage durable de Google est une capacité qu'aucun concurrent n'a répliquée : la génération audio synchronisée. Lorsque j'anime une scène de café avec Veo 3.1, j'entends les machines à expresso siffler, les tasses s'entrechoquer, la conversation ambiante — tout cela chronométré précisément avec le mouvement visuel. Une photo de plage obtient des vagues s'écrasant correspondant au cycle de l'écume. Un chemin forestier obtient un chant d'oiseau qui change avec la position de la caméra virtuelle. Ce n'est pas de l'audio de post-production superposé ; c'est co-généré dans la même passe avant que la vidéo. D'après mon expérience, l'audio correspondant élève la qualité perçue de manière spectaculaire — votre cerveau fait plus confiance au mouvement quand il l'entend.
Mais Veo 2 siégeant à la 27ème place raconte une histoire qui donne à réfléchir sur la vitesse de dépréciation. Il y a douze mois, Veo 2 était l'étalon-or pour l'I2V. Maintenant, il est dépassé par vingt-six modèles, y compris plusieurs d'entreprises qui n'avaient pas de produits vidéo il y a un an. Chaque génération dans cet espace vieillit en mois, pas en années, et les propres modèles plus récents de Google ont fait ressembler Veo 2 à une infrastructure héritée. Cette cannibalisation interne rapide est à la fois la plus grande force de Google et son engagement le plus coûteux — ils doivent continuer à expédier juste pour rester devant eux-mêmes.
Le fossé de l'audio est réel, mais il se rétrécit. Je m'attends à ce qu'au moins deux autres fournisseurs expédient la co-génération native audio-vidéo d'ici le T4 2026. Une fois que cela se produira, le différenciateur de Google passera de l'exclusivité des fonctionnalités à la qualité d'exécution. La question stratégique est de savoir si Veo 4 arrivera avant que les concurrents ne comblent entièrement cet écart.
La Puissance Orientale
Si vous ne suivez que les trois premiers, vous manquez l'histoire structurelle. Les entreprises chinoises d'IA détiennent collectivement dix-sept des 31 positions sur ce tableau — plus de la moitié du classement entier. Ce n'est pas une présence de niche. C'est une domination au niveau de l'écosystème du tiers moyen à supérieur, et cela a des implications directes pour quiconque construit un pipeline de production autour de la génération image-vers-vidéo.
Shengshu : Le Saut Générationnel
Vidu Q3 Pro à la 5ème place est le modèle auquel je vous dirais de prêter la plus grande attention. La génération Q2 de Shengshu — Q2 Turbo et Q2 Pro — siège aux 16ème et 20ème places. Respectable, mais pas remarquable. Le saut vers Q3 n'est pas incrémental ; il est architectural. Dans mes tests, Q3 Pro gère les scènes multi-sujets avec une précision que ses prédécesseurs ne pouvaient égaler. Deux personnes marchant dans des directions opposées ? Les modèles Q2 commenceraient à fusionner leurs contours vers l'image 30. Q3 Pro les garde distincts tout au long de la séquence. Pour l'animation de portrait, il préserve les textures de peau et les micro-expressions d'une manière qui semble organique plutôt que synthétique. Si Shengshu maintient ce taux d'amélioration générationnelle, un modèle Q4 pourrait défier les trois premiers d'ici fin 2026.
Bytedance : Le Spécialiste de la Caméra
Seedance v1.5 Pro à la 9ème place est devenu mon incontournable pour les chorégraphies de caméra complexes — travelings, panoramiques orbitaux, transitions grue-à-poing. Lorsque l'animation exige un mouvement de caméra intentionnel plutôt qu'un cadre statique qui dérive, Seedance livre la marchandise. Seedance v1 Pro à la 11ème place reste un cheval de bataille fiable pour les tâches d'animation standard, et v1 Lite à la 25ème place est le choix lorsque la vitesse compte plus que la qualité maximale. La stratégie à trois niveaux de Bytedance vous donne un pipeline complet : Lite pour l'expérimentation, v1 Pro pour une sortie solide, v1.5 Pro pour le plan principal.
KlingAI : Quatre Niveaux, Un Écosystème
Kling 2.6 Pro (#10), Kling 2.5 Turbo 1080p (#12), v2.1 Master (#17), v2.1 Standard (#19) — quatre modèles couvrant différents niveaux de prix et de capacité. Kling 2.6 Pro est la vedette pour l'animation de personnages : mouvement corporel fluide avec une cohérence faciale que je n'ai pas vu égalée en dehors des quatre premiers. Kling 2.5 Turbo 1080p est notable pour la haute résolution native dans un niveau de rendu rapide — lorsque votre format de livraison exige un nombre de pixels et que vous ne pouvez pas vous permettre une étape de mise à l'échelle, ce modèle économise du temps et de l'argent.
MiniMax, Alibaba, Tencent et Luma AI
La famille Hailuo de MiniMax occupe quatre places (#14, #18, #21, #23) allant des niveaux pro aux rapides — la machine d'itération sur laquelle je compte pour des brouillons rapides avant d'engager un rendu coûteux ailleurs. Wan 2.5 I2V d'Alibaba à la 6ème place reste la meilleure option lorsque la préservation du style artistique est non négociable : donnez-lui une aquarelle et il l'anime comme une aquarelle, pas comme une réinterprétation photoréaliste. Hunyuan Video 1.5 de Tencent à la 24ème place complète la liste chinoise avec une amélioration calme et constante à chaque cycle.
Ray 3 de Luma AI à la 22ème place mérite une mention spéciale pour l'animation consciente de la 3D. Donnez-lui une photo de produit ou un rendu architectural et il déduit la profondeur, générant un mouvement de caméra qui respecte la structure tridimensionnelle — parallaxe sur les objets au premier plan, occlusion correcte sur les arrière-plans. Pour les vidéos de produits e-commerce et la visualisation immobilière, Ray 3 est un spécialiste à connaître. Leur plus ancien Ray 2 à la 29ème place montre à quel point l'écart générationnel s'est creusé même au sein d'une seule entreprise.
Le Signal Open-Source
LTX-2-19b de Lightricks à la 28ème place est l'entrée la plus significative sur cette liste pour un public spécifique : les équipes qui ne peuvent pas envoyer d'images propriétaires à des API externes. Disponible sur HuggingFace avec des poids ouverts, ce modèle de 19 milliards de paramètres fonctionne sur site. L'écart de qualité entre LTX-2 et le top 10 est réel — vous le remarquerez dans les détails fins et la stabilité temporelle. Mais pour les flux de travail où la confidentialité des données est non négociable — imagerie médicale, conceptions de produits non publiées, plans architecturaux classifiés — LTX-2 est actuellement l'option à poids ouverts la plus forte pour la génération image-vers-vidéo.
La trajectoire plus large compte ici. Wan v2.2 à la 26ème place est également disponible ouvertement. À mesure que des modèles plus capables publient leurs poids, le plancher de ce qui est réalisable sans API cloud continue de monter. J'estime que l'image-vers-vidéo open-source est à peu près là où les modèles de langage open-source étaient mi-2024 — environ douze mois derrière la frontière, mais se rapprochant rapidement. D'ici fin 2026, je m'attends à ce que les modèles I2V à poids ouverts rivalisent avec les offres commerciales de milieu de gamme, changeant fondamentalement le calcul "construire ou acheter" pour les équipes d'entreprise.
Choisir le Bon Outil
Mes Recommandations par Cas d'Usage
Cinématographique + Audio
Veo 3.1 Audio — son synchronisé qui élève chaque image. Inégalé.
Qualité d'Animation Pure
Grok Imagine Video 720p — le nouveau #1, cohérence temporelle et fidélité de mouvement exceptionnelles.
Préservation du Style Artistique
Wan 2.5 I2V — anime les peintures comme des peintures, pas comme des rendus photoréalistes.
Chorégraphie de Caméra
Seedance v1.5 Pro — meilleur mouvement de dolly, panoramique, orbital et grue sur le terrain.
Animation de Personnage
Kling 2.6 Pro — cohérence faciale et dynamique de mouvement corporel fluide.
Brouillon Rapide
Hailuo 02 Fast — itérer sur des concepts rapidement avant de s'engager sur un rendu final.
Animation Consciente de la 3D
Luma AI Ray 3 — inférence de profondeur pour photos de produits et scènes architecturales.
Sur Site / Poids Ouverts
LTX-2-19b — auto-hébergement lorsque les données ne peuvent pas quitter votre infrastructure.
La vraie compétence en 2026 n'est pas de maîtriser un modèle — c'est de savoir quel outil saisir. J'utilise Veo quand le clip a besoin d'audio. Grok quand la fidélité pure de l'animation compte le plus. Wan quand la source est artistique. Seedance quand la caméra doit bouger. Hailuo quand j'ai besoin de dix variations en une heure. Les meilleurs flux de travail image-vers-vidéo que j'ai construits cette année traitent ces modèles comme des instruments dans un orchestre, pas comme des alternatives les uns aux autres.
La Suite
Ayant suivi cet espace mois après mois, voici où je vois le paysage se diriger pour le reste de 2026.
La co-génération audio devient grand public. Google a été le pionnier avec Veo 3, et l'écart de qualité perçue qu'il crée est trop grand pour que les concurrents l'ignorent. Je m'attends à ce qu'au moins deux autres fournisseurs — probablement xAI et Bytedance — expédient de l'audio intégré d'ici le T4. Une fois que cela se produira, l'animation silencieuse semblera être un artefact d'une ère antérieure, de la même manière que les vignettes statiques le semblent maintenant par rapport aux aperçus animés.
L'escalade de la résolution s'accélère. La plupart des modèles de pointe plafonnent actuellement à 720p. Kling 2.5 Turbo pousse déjà le 1080p natif. D'ici la fin de l'année, le 1080p sera standard pour les niveaux pro et nous verrons les premiers aperçus 4K d'au moins un laboratoire. Le coût de calcul sera punitif, mais la demande des flux de travail de diffusion et de publicité est indéniable.
xAI monte en puissance agressivement. Deux modèles en trois semaines — avec la variante 720p revendiquant la 1ère place à l'arrivée — signalent un investissement sérieux. Je m'attendrais à des variantes à plus haute résolution et éventuellement à une intégration audio de Grok avant l'été. S'ils maintiennent cette qualité de mouvement à 1080p, ils deviennent le leader incontesté.
Runway a besoin d'un moment Gen5. Runway Gen4 Turbo à la 30ème place est une position difficile pour l'entreprise qui a essentiellement créé la catégorie vidéo IA commerciale. Leurs outils créatifs et leur expérience utilisateur restent les meilleurs de leur catégorie, mais le modèle sous-jacent a besoin d'un saut générationnel. Si Gen5 n'est pas expédié d'ici la mi-2026 avec une qualité top-10, Runway risque de devenir l'entreprise qui a défini le marché puis a regardé tous les autres le gagner.
L'open-source réduit l'écart. LTX-2 a prouvé que les poids ouverts peuvent produire des résultats image-vers-vidéo viables aujourd'hui. La prochaine vague — peut-être un Wan 3 ou LTX-3 — poussera dans un territoire qui rivalise avec les modèles commerciaux de milieu de gamme. Pour les équipes d'entreprise construisant des pipelines propriétaires sans dépendances API externes, c'est la tendance qui compte le plus.
Les joueurs manquants. Meta, Apple et Amazon restent ostensiblement absents de ce classement. Les publications de recherche vidéo de Meta suggèrent une capacité qui pourrait rivaliser au niveau supérieur, mais ils n'ont pas expédié de produit I2V grand public. Au moment où Meta entrera — surtout s'ils publient un modèle à poids ouverts, comme ils l'ont fait avec Llama pour le langage — tout le paysage concurrentiel sera remanié du jour au lendemain.
Source des Données : Classements de l'Arène Image-vers-Vidéo, 5 février 2026.
Discussion
0 commentairesLaisser un commentaire
Soyez le premier à partager vos pensées !