Jeden statický obrázek. Třicet jedna různých budoucností. AI, kterou zvolíte k jeho animaci, určuje, která realita se rozvine.
Celé měsíce krmím každý model na této tabuli stejným portfoliem testovacích obrázků — portréty, krajiny, produktové snímky, olejomalby, architektonické rendery. Některé promění fotografii v kino. Jiné vytvoří prezentace s pohybovým rozostřením. Velkým příběhem tohoto měsíce není postupný pokrok. Je to změna režimu. Grok Imagine Video od xAI převzal 1. místo a odsunul dříve nedotknutelné Veo 3.1 Audio od Googlu na druhé místo. Mezitím se pole rozšířilo z 27 na 31 modelů, Vidu od Shengshu udělalo generační skok na 5. místo a open-source příspěvek od Lightricks dokázal, že k animaci obrázků už nepotřebujete cloudové API. Toto je Arena Obrázek-na-Video (Image-to-Video Arena), únor 2026.
Kompletní Žebříček — 31 Hodnocených Modelů
Každé hodnocení níže pochází ze slepých srovnání head-to-head prováděných skutečnými uživateli na platformě Arena. Žádné pečlivě vybrané třešničky, žádná marketingová dema. Každý model jsem propojil s jeho oficiální dokumentací, abyste si je mohli přímo vyzkoušet.
| Pořadí | Model | Skóre | Hlasy | Organizace |
|---|---|---|---|---|
🥇 | Grok Imagine Video 720p | 1400 | — | xAI |
🥈 | Veo 3.1 Audio | 1395 | 23,432 | |
🥉 | Veo 3.1 Fast Audio | 1382 | 30,039 | |
#4 | Grok Imagine Video 480p | 1381 | 19,582 | xAI |
#5 | Vidu Q3 Pro | 1362 | 11,270 | Shengshu |
#6 | Wan2.5 I2v Preview | 1339 | 12,039 | Alibaba |
#7 | Veo 3 Audio | 1331 | 34,546 | |
#8 | Veo 3 Fast Audio | 1322 | 43,912 | |
#9 | Seedance V1.5 Pro | 1303 | 39,229 | Bytedance |
#10 | Kling 2.6 Pro | 1291 | 30,845 | KlingAI |
#11 | Seedance V1 Pro | 1272 | 36,475 | Bytedance |
#12 | Kling 2.5 Turbo 1080p | 1272 | 3,873 | KlingAI |
#13 | Veo 3 Fast | 1256 | 27,874 | |
#14 | Hailuo 2.3 | 1254 | 36,884 | MiniMax |
#15 | Veo 3 | 1254 | 27,736 | |
#16 | Vidu Q2 Turbo | 1244 | 2,481 | Shengshu |
#17 | Kling V2.1 Master | 1232 | 32,254 | KlingAI |
#18 | Hailuo 02 Pro | 1228 | 23,839 | MiniMax |
#19 | Kling V2.1 Standard | 1225 | 32,258 | KlingAI |
#20 | Vidu Q2 Pro | 1224 | 2,566 | Shengshu |
#21 | Hailuo 02 Standard | 1222 | 23,651 | MiniMax |
#22 | Ray 3 | 1222 | 1,580 | Luma AI |
#23 | Hailuo 02 Fast | 1194 | 24,578 | MiniMax |
#24 | Hunyuan Video 1.5 | 1193 | 5,429 | Tencent |
#25 | Seedance V1 Lite | 1183 | 36,129 | Bytedance |
#26 | Wan V2.2 A14b | 1167 | 29,450 | Alibaba |
#27 | Veo 2 | 1164 | 11,536 | |
#28 | Ltx 2 19b | 1111 | 22,315 | lightricks |
#29 | Ray2 | 1105 | 10,828 | Luma AI |
#30 | Runway Gen4 Turbo | 1047 | 7,506 | Runway |
#31 | Pika V2.2 | 994 | — | Pika |
Narušení xAI
Nikdo to nečekal. Když jsem naposledy aktualizoval tento žebříček před třemi týdny, Google držel 1. i 2. místo bez konkurence. O vstupu xAI do prostoru obrázek-na-video se veřejně nešeptalo. Pak se objevil Grok Imagine Video — ne jedna varianta, ale dvě — a model 720p zamířil přímo na vrchol slepých srovnání.
Pouštěl jsem Grok proti své standardní testovací sadě a co okamžitě vynikne, je časová koherence (temporal coherence). Dejte mu portrét a subjekt se uprostřed animace nezmění. Fyzika vlasů zůstává konzistentní snímek po snímku. Směr očí přirozeně sleduje otáčení hlavy. Testoval jsem jeden ze svých nejtěžších vstupů — střední záběr někoho, kdo otáčí hlavu, zatímco vítr zachytává jeho šálu — a Grok udržel každý detail v celém klipu. Většina modelů ztratí vzor šály nebo zkreslí obličej během otočení. Grok to zvládl se stabilitou, kterou jsem viděl pouze u nejlepších renderů Veo.
Strategický tah zde vypovídá mnohé o přístupu xAI. Dodali dvě úrovně rozlišení současně: 720p na 1. místě a 480p na 4. místě. Varianta 480p již nashromáždila značné množství srovnání v Areně a drží se poblíž samotného vrcholu. To znamená, že pohybová architektura xAI je fundamentálně silná — kvalita se projeví ještě předtím, než do hry vstoupí škálování rozlišení. Pokud dotlačí nativní 1080p při zachování této úrovně časové věrnosti, integrace audia od Googlu se stane jediným zbývajícím odlišovacím prvkem, který udrží Veo v konverzaci o korunu.
Na co si dát pozor: Model 720p od Groka je stále ve své nejranější fázi Areny s omezenými srovnávacími daty. Jak budou přicházet tisíce dalších srovnání, toto umístění na 1. místě se buď upevní — potvrdí sílu modelu napříč různorodými vstupy — nebo upraví, jakmile okrajové případy odhalí slabiny. Tak či onak, xAI otevřela válku na třech frontách: jejich věrnost pohybu versus integrace audia od Googlu versus neúprosná rychlost iterace čínského ekosystému. Závod Obrázek-na-Video se právě stal dramaticky zajímavějším.
Google: Sesazen, Ale Neporažen
Ztráta 1. místa neznamená, že Google prohrál válku. Stále ovládají sedm z 31 pozic — více než jakákoli jiná organizace. Veo 3.1 Audio na 2. místě a Veo 3.1 Fast Audio na 3. místě zůstávají impozantní. Varianty Veo 3 Audio drží 7. a 8. místo. Motory Veo 3 bez audia sedí na 13. a 15. místě. A stárnoucí Veo 2 se drží na 27. místě.
Trvalou výhodou Googlu je schopnost, kterou žádný konkurent nezreplikoval: synchronizované generování audia. Když animuji scénu v kavárně s Veo 3.1, slyším syčení kávovarů, cinkání šálků, okolní konverzaci — vše přesně načasované na vizuální pohyb. Fotografie pláže dostane tříštící se vlny odpovídající cyklu pěny. Lesní cesta dostane ptačí zpěv, který se mění s polohou virtuální kamery. Toto není audio z postprodukce vrstvené navrch; je spolu-generováno ve stejném dopředném průchodu jako video. Podle mých zkušeností odpovídající audio dramaticky zvyšuje vnímanou kvalitu — váš mozek více věří pohybu, když ho slyší.
Ale Veo 2 sedící na 27. místě vypráví střízlivý příběh o rychlosti zastarávání. Před dvanácti měsíci bylo Veo 2 zlatým standardem pro I2V. Nyní je překonáno dvaceti šesti modely, včetně několika od společností, které před rokem neměly video produkty. Každá generace v tomto prostoru stárne v měsících, ne letech, a vlastní novější modely Googlu způsobily, že Veo 2 působí jako zastaralá infrastruktura. Tato rychlá vnitřní kanibalizace je zároveň největší silou Googlu i jeho nejdražším závazkem — musí neustále dodávat nové verze, jen aby zůstali před sebou samými.
Audio příkop je skutečný, ale zužuje se. Očekávám, že alespoň dva další poskytovatelé dodají nativní ko-generaci audia a videa do 4. čtvrtletí 2026. Jakmile se tak stane, odlišovací prvek Googlu se posune od exkluzivity funkcí ke kvalitě provedení. Strategickou otázkou je, zda Veo 4 dorazí dříve, než konkurenti tuto mezeru zcela uzavřou.
Východní Velmoc
Pokud sledujete pouze první tři, uniká vám strukturální příběh. Čínské AI společnosti drží společně sedmnáct z 31 pozic na této tabuli — více než polovinu celého žebříčku. Toto není okrajová přítomnost. Je to dominance na úrovni ekosystému střední až vyšší vrstvy a má přímé důsledky pro kohokoli, kdo buduje produkční pipeline kolem generování videa z obrázku.
Shengshu: Generační Skok
Vidu Q3 Pro na 5. místě je model, u kterého bych vám řekl, abyste dávali největší pozor. Generace Q2 od Shengshu — Q2 Turbo a Q2 Pro — sedí na 16. a 20. místě. Úctyhodné, ale ne pozoruhodné. Skok na Q3 není inkrementální; je architektonický. V mých testech Q3 Pro zvládá scény s více subjekty s přesností, které se jeho předchůdci nemohli rovnat. Dva lidé kráčející opačným směrem? Modely Q2 by začaly spojovat jejich obrysy kolem snímku 30. Q3 Pro je udržuje zřetelné v celé sekvenci. U portrétní animace zachovává textury kůže a mikrovýrazy způsobem, který působí organicky spíše než synteticky. Pokud Shengshu udrží toto tempo generačního zlepšování, model Q4 by mohl vyzvat první trojku do konce roku 2026.
Bytedance: Specialista na Kameru
Seedance v1.5 Pro na 9. místě se stal mou volbou pro komplexní choreografii kamery — dolly záběry, orbitální švenky, přechody jeřáb-na-ruku. Když animace vyžaduje záměrný pohyb kamery namísto statického rámu, který se unáší, Seedance dodá výsledek. Seedance v1 Pro na 11. místě zůstává spolehlivým dříčem pro standardní animační úkoly a v1 Lite na 25. místě je volbou, když záleží více na rychlosti než na špičkové kvalitě. Tříúrovňová strategie Bytedance vám dává kompletní pipeline: Lite pro experimentování, v1 Pro pro solidní výstup, v1.5 Pro pro hrdinský záběr.
KlingAI: Čtyři Úrovně, Jeden Ekosystém
Kling 2.6 Pro (#10), Kling 2.5 Turbo 1080p (#12), v2.1 Master (#17), v2.1 Standard (#19) — čtyři modely pokrývající různé cenové a výkonnostní úrovně. Kling 2.6 Pro je výjimečný pro animaci postav: plynulý pohyb těla s konzistencí obličeje, kterou jsem neviděl vyrovnanou mimo první čtyřku. Kling 2.5 Turbo 1080p je pozoruhodný nativním vysokým rozlišením v rychlé renderovací úrovni — když váš formát dodání vyžaduje počet pixelů a nemůžete si dovolit krok upscalingu, tento model šetří čas a peníze.
MiniMax, Alibaba, Tencent a Luma AI
Rodina Hailuo od MiniMax okupuje čtyři místa (#14, #18, #21, #23) pokrývající úrovně od pro po fast — iterační stroj, na který spoléhám pro rychlé navrhování předtím, než se zavážu k drahému renderu jinde. Wan 2.5 I2V od Alibaby na 6. místě zůstává nejlepší volbou, když je zachování uměleckého stylu nekompromisní: nakrmte ho akvarelovou malbou a animuje ji jako akvarel, ne jako fotorealistickou reinterpretaci. Hunyuan Video 1.5 od Tencentu na 24. místě doplňuje čínskou soupisku tichým, stálým zlepšováním v každém cyklu.
Ray 3 od Luma AI na 22. místě si zaslouží zvláštní zmínku pro 3D-vědomou animaci. Nakrmte ho produktovým snímkem nebo architektonickým renderem a on odvodí hloubku, generuje pohyb kamery, který respektuje trojrozměrnou strukturu — paralaxa na objektech v popředí, správná okluze na pozadí. Pro produktová videa e-commerce a vizualizaci nemovitostí je Ray 3 specialistou, kterého stojí za to znát. Jejich starší Ray 2 na 29. místě ukazuje, jak daleko se rozšířila generační propast i v rámci jediné společnosti.
Signál Open-Source
LTX-2-19b od Lightricks na 28. místě je nejvýznamnějším zápisem na tomto seznamu pro specifické publikum: týmy, které nemohou posílat proprietární obrázky do externích API. K dispozici na HuggingFace s otevřenými vahami, tento model s 19 miliardami parametrů běží on-premise. Mezera v kvalitě mezi LTX-2 a top 10 je skutečná — všimnete si toho v jemných detailech a časové stabilitě. Ale pro pracovní postupy, kde je ochrana dat nekompromisní — lékařské zobrazování, nevydané návrhy produktů, tajné architektonické plány — je LTX-2 v současnosti nejsilnější možností s otevřenými vahami pro generování videa z obrázku.
Zde záleží na širší trajektorii. Wan v2.2 na 26. místě je také otevřeně dostupný. Jak schopnější modely uvolňují své váhy, dno toho, co je dosažitelné bez cloudového API, stále stoupá. Odhaduji, že open-source video z obrázku je zhruba tam, kde byly open-source jazykové modely v polovině roku 2024 — asi dvanáct měsíců za hranicí, ale rychle se přibližují. Do konce roku 2026 očekávám, že modely I2V s otevřenými vahami budou konkurovat komerčním nabídkám střední třídy, což zásadně změní kalkulaci "stavět vs. koupit" pro podnikové týmy.
Výběr Správného Nástroje
Má Doporučení podle Případu Užití
Filmové + Audio
Veo 3.1 Audio — synchronizovaný zvuk, který pozvedne každý snímek. Bezkonkurenční.
Surová Kvalita Animace
Grok Imagine Video 720p — nová jednička, výjimečná časová koherence a věrnost pohybu.
Zachování Uměleckého Stylu
Wan 2.5 I2V — animuje malby jako malby, ne jako fotorealistické rendery.
Choreografie Kamery
Seedance v1.5 Pro — nejlepší dolly, pan, orbitální a jeřábový pohyb v poli.
Animace Postav
Kling 2.6 Pro — konzistence obličeje a dynamika plynulého pohybu těla.
Rychlý Návrh
Hailuo 02 Fast — rychlá iterace konceptů před závazkem k finálnímu renderu.
3D-vědomá Animace
Luma AI Ray 3 — hloubková inference pro produktové snímky a architektonické scény.
On-Premise / Otevřené Váhy
LTX-2-19b — vlastní hosting, když data nemohou opustit vaši infrastrukturu.
Skutečnou dovedností v roce 2026 není zvládnutí jednoho modelu — je to vědět, po kterém nástroji sáhnout. Používám Veo, když klip potřebuje zvuk. Grok, když na čisté věrnosti animace záleží nejvíce. Wan, když je zdroj umělecký. Seedance, když se kamera musí pohybovat. Hailuo, když potřebuji deset variant za hodinu. Nejlepší pracovní postupy obrázek-na-video, které jsem letos vytvořil, zacházejí s těmito modely jako s nástroji v orchestru, ne jako s alternativami k sobě navzájem.
Co Přijde Dál
Po sledování tohoto prostoru měsíc po měsíci, zde je, kam vidím směřovat krajinu po zbytek roku 2026.
Ko-generace audia se stává mainstreamem. Google s tím byl průkopníkem u Veo 3 a mezera vnímané kvality, kterou to vytváří, je příliš velká na to, aby ji konkurenti ignorovali. Očekávám, že nejméně dva další poskytovatelé — pravděpodobně xAI a Bytedance — dodají integrované audio do 4. čtvrtletí. Jakmile se to stane, tichá animace bude působit jako artefakt z dřívější éry, stejně jako statické miniatury nyní působí ve srovnání s animovanými náhledy.
Eskalace rozlišení zrychluje. Většina špičkových modelů má v současné době maximum na 720p. Kling 2.5 Turbo již tlačí nativní 1080p. Do konce roku bude 1080p standardem pro profesionální úrovně a uvidíme první 4K náhledy od alespoň jedné laboratoře. Výpočetní náklady budou trestající, ale poptávka z vysílacích a reklamních pracovních postupů je nepopiratelná.
xAI agresivně škáluje. Dva modely za tři týdny — s variantou 720p, která si nárokuje 1. místo při příjezdu — signalizují vážné investice. Očekával bych varianty s vyšším rozlišením a možná integraci audia od Groka před létem. Pokud udrží tuto kvalitu pohybu při 1080p, stanou se jasným favoritem.
Runway potřebuje moment Gen5. Runway Gen4 Turbo na 30. místě je obtížná pozice pro společnost, která v podstatě vytvořila kategorii komerčního AI videa. Jejich kreativní nástroje a uživatelská zkušenost zůstávají nejlepší ve své třídě, ale podkladový model potřebuje generační skok. Pokud Gen5 nedorazí do poloviny roku 2026 s kvalitou top 10, Runway riskuje, že se stane společností, která definovala trh a pak sledovala, jak ho všichni ostatní vyhrávají.
Open-source zmenšuje mezeru. LTX-2 dokázal, že otevřené váhy mohou dnes produkovat životaschopné výsledky obrázek-na-video. Další vlna — možná Wan 3 nebo LTX-3 — pronikne do teritoria, které soupeří s komerčními modely střední třídy. Pro podnikové týmy budující proprietární pipeline bez závislostí na externím API je toto trend, na kterém záleží nejvíce.
Chybějící hráči. Meta, Apple a Amazon zůstávají na tomto žebříčku nápadně nepřítomní. Výzkumné publikace Mety o videu naznačují schopnosti, které by mohly konkurovat na nejvyšší úrovni, ale nevydali veřejně přístupný I2V produkt. V okamžiku, kdy Meta vstoupí — zejména pokud vydají model s otevřenými vahami, jako to udělali s Llama pro jazyk — celá konkurenční krajina se přes noc přeskupí.
Zdroj Dat: Žebříčky z Arena Image-to-Video Leaderboard, 5. února 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!