Ena statična slika. Enaintrideset različnih prihodnosti. Umetna inteligenca, ki jo izberete za animacijo, določa, katera resničnost se bo odvila.
Že mesece hranim isti portfelj testnih slik — portrete, pokrajine, posnetke izdelkov, oljne slike, arhitekturne upodobitve — v vsak model na tej lestvici. Nekateri spremenijo fotografijo v kino. Drugi ustvarijo diaprojekcije z zameglitvijo gibanja. Velika zgodba tega meseca ni postopen napredek. To je sprememba režima. Grok Imagine Video podjetja xAI je prevzel 1. mesto in potisnil Googlov prej nedotakljivi Veo 3.1 Audio na drugo mesto. Medtem se je polje razširilo s 27 na 31 modelov, Vidu podjetja Shengshu je naredil generacijski skok na 5. mesto, odprtokodni vnos podjetja Lightricks pa je dokazal, da za animiranje slik ne potrebujete več API-ja v oblaku. To je Arena Slika-v-Video (Image-to-Video Arena), februar 2026.
Celotna lestvica — 31 razvrščenih modelov
Vsaka spodnja uvrstitev izhaja iz slepih primerjav ena na ena, ki jih izvajajo resnični uporabniki na platformi Arena. Brez skrbno izbranih primerov, brez marketinških predstavitev. Vsak model sem povezal z njegovo uradno dokumentacijo, da jih lahko neposredno preizkusite.
| Mesto | Model | Rezultat | Glasovi | Organizacija |
|---|---|---|---|---|
🥇 | Grok Imagine Video 720p | 1400 | — | xAI |
🥈 | Veo 3.1 Audio | 1395 | 23,432 | |
🥉 | Veo 3.1 Fast Audio | 1382 | 30,039 | |
#4 | Grok Imagine Video 480p | 1381 | 19,582 | xAI |
#5 | Vidu Q3 Pro | 1362 | 11,270 | Shengshu |
#6 | Wan2.5 I2v Preview | 1339 | 12,039 | Alibaba |
#7 | Veo 3 Audio | 1331 | 34,546 | |
#8 | Veo 3 Fast Audio | 1322 | 43,912 | |
#9 | Seedance V1.5 Pro | 1303 | 39,229 | Bytedance |
#10 | Kling 2.6 Pro | 1291 | 30,845 | KlingAI |
#11 | Seedance V1 Pro | 1272 | 36,475 | Bytedance |
#12 | Kling 2.5 Turbo 1080p | 1272 | 3,873 | KlingAI |
#13 | Veo 3 Fast | 1256 | 27,874 | |
#14 | Hailuo 2.3 | 1254 | 36,884 | MiniMax |
#15 | Veo 3 | 1254 | 27,736 | |
#16 | Vidu Q2 Turbo | 1244 | 2,481 | Shengshu |
#17 | Kling V2.1 Master | 1232 | 32,254 | KlingAI |
#18 | Hailuo 02 Pro | 1228 | 23,839 | MiniMax |
#19 | Kling V2.1 Standard | 1225 | 32,258 | KlingAI |
#20 | Vidu Q2 Pro | 1224 | 2,566 | Shengshu |
#21 | Hailuo 02 Standard | 1222 | 23,651 | MiniMax |
#22 | Ray 3 | 1222 | 1,580 | Luma AI |
#23 | Hailuo 02 Fast | 1194 | 24,578 | MiniMax |
#24 | Hunyuan Video 1.5 | 1193 | 5,429 | Tencent |
#25 | Seedance V1 Lite | 1183 | 36,129 | Bytedance |
#26 | Wan V2.2 A14b | 1167 | 29,450 | Alibaba |
#27 | Veo 2 | 1164 | 11,536 | |
#28 | Ltx 2 19b | 1111 | 22,315 | lightricks |
#29 | Ray2 | 1105 | 10,828 | Luma AI |
#30 | Runway Gen4 Turbo | 1047 | 7,506 | Runway |
#31 | Pika V2.2 | 994 | — | Pika |
xAI preboj
Tega ni nihče pričakoval. Ko sem pred tremi tedni zadnjič posodobil to lestvico, je Google brez konkurence držal 1. in 2. mesto. O vstopu xAI v prostor slika-v-video ni bilo javnih šepetanj. Nato se je pojavil Grok Imagine Video — ne ena različica, ampak dve — in model 720p se je povzpel naravnost na vrh slepih primerjav.
Grok sem poganjal proti svojemu standardnemu testnemu nizu in tisto, kar takoj izstopa, je časovna koherenca (temporal coherence). Dajte mu portret in subjekt se sredi animacije ne spremeni. Fizika las ostane dosledna od slike do slike. Smer oči naravno sledi obračanju glave. Preizkusil sem enega svojih najtežjih vnosov — srednji posnetek nekoga, ki obrača glavo, medtem ko veter ujame njegov šal — in Grok je ohranil vsako podrobnost skozi celoten posnetek. Večina modelov izgubi vzorec šala ali popači obraz med obračanjem. Grok je to obvladal s stabilnostjo, ki sem jo videl le pri najboljših upodobitvah Veo.
Strateška poteza tukaj vam pove veliko o pristopu xAI. Hkrati so poslali dve ravni ločljivosti: 720p na 1. mestu in 480p na 4. mestu. Različica 480p je že zbrala precej primerjav v Areni in se drži blizu samega vrha. To pomeni, da je arhitektura gibanja xAI v osnovi močna — kakovost se pokaže še preden pride do skaliranja ločljivosti. Če potisnejo na narivnih 1080p, hkrati pa ohranijo to raven časovne zvestobe, Googlova avdio integracija postane edini preostali razlikovalni element, ki Veo ohranja v pogovoru za krono.
Na kaj biti pozoren: Grokov model 720p je še vedno v najzgodnejši fazi Arene z omejenimi podatki za primerjavo. Ko bo prispelo na tisoče dodatnih primerjav, se bo ta uvrstitev na 1. mestu bodisi utrdila — kar bo potrdilo moč modela pri različnih vnosih — ali prilagodila, ko bodo robni primeri razkrili slabosti. Kakorkoli že, xAI je odprl vojno na treh frontah: njihova zvestoba gibanja proti Googlovi avdio integraciji proti neizprosni hitrosti iteracije kitajskega ekosistema. Dirka Slika-v-Video je pravkar postala dramatično bolj zanimiva.
Google: Odstavljen, a ne poražen
Izguba 1. mesta ne pomeni, da je Google izgubil vojno. Še vedno obvladujejo sedem od 31 položajev — več kot katera koli druga organizacija. Veo 3.1 Audio na 2. mestu in Veo 3.1 Fast Audio na 3. mestu ostajata mogočna. Različice Veo 3 Audio držijo 7. in 8. mesto. Motorji Veo 3 brez zvoka so na 13. in 15. mestu. In starajoči se Veo 2 se oklepa 27. mesta.
Googlova trajna prednost je zmožnost, ki je ni ponovil noben tekmec: sinhronizirano ustvarjanje zvoka. Ko animiram prizor v kavarni z Veo 3.1, slišim sikanje espresso aparatov, žvenketanje skodelic, pogovor v okolici — vse natančno časovno usklajeno z vizualnim gibanjem. Fotografija plaže dobi lomljenje valov, ki ustreza ciklu pene. Gozdna pot dobi ptičje petje, ki se spreminja s položajem virtualne kamere. To ni postprodukcijski zvok, naložen na vrh; soustvarjen je v istem prehodu naprej kot video. Po mojih izkušnjah ujemajoči se zvok dramatično dvigne zaznano kakovost — vaši možgani bolj zaupajo gibanju, ko ga slišijo.
Toda Veo 2 na 27. mestu pripoveduje streznitveno zgodbo o hitrosti zastaranja. Pred dvanajstimi meseci je bil Veo 2 zlati standard za I2V. Zdaj ga prekaša šestindvajset modelov, vključno z več modeli podjetij, ki pred enim letom niso imela video izdelkov. Vsaka generacija v tem prostoru se postara v mesecih, ne letih, in Googlovi lastni novejši modeli so povzročili, da se Veo 2 zdi kot zapuščena infrastruktura. Ta hitra notranja kanibalizacija je hkrati Googlova največja moč in njegova najdražja zaveza — nenehno morajo pošiljati nove izdelke, samo da ostanejo pred samimi seboj.
Zvočni jarek je resničen, vendar se oži. Pričakujem, da bosta vsaj dva druga ponudnika do 4. četrtletja 2026 poslala izvorno soustvarjanje zvoka in videa. Ko se to zgodi, se Googlov razlikovalni element premakne z ekskluzivnosti funkcij na kakovost izvedbe. Strateško vprašanje je, ali bo Veo 4 prispel, preden tekmeci popolnoma zaprejo to vrzel.
Vzhodna velesila
Če spremljate le prve tri, zamujate strukturno zgodbo. Kitajska podjetja z umetno inteligenco skupaj zasedajo sedemnajst od 31 mest na tej plošči — več kot polovico celotne lestvice. To ni nišna prisotnost. Gre za prevlado na ravni ekosistema srednjega do višjega sloja, kar ima neposredne posledice za vsakogar, ki gradi proizvodni cevovod okoli generiranja videa iz slik.
Shengshu: Generacijski skok
Vidu Q3 Pro na 5. mestu je model, na katerega bi vam rekel, da bodite najbolj pozorni. Generacija Q2 podjetja Shengshu — Q2 Turbo in Q2 Pro — sta na 16. in 20. mestu. Ugledno, a ne izjemno. Skok na Q3 ni postopen; je arhitekturen. V mojih testih Q3 Pro obravnava prizore z več subjekti z natančnostjo, ki ji predhodniki niso mogli parirati. Dve osebi hodita v nasprotnih smereh? Modeli Q2 bi začeli združevati njune obrise okoli 30. sličice. Q3 Pro ju ohranja ločena skozi celotno sekvenco. Pri portretni animaciji ohranja teksture kože in mikroizraze na način, ki deluje organsko in ne sintetično. Če bo Shengshu ohranil to stopnjo generacijskih izboljšav, bi lahko model Q4 do konca leta 2026 izzval prve tri.
Bytedance: Specialist za kamero
Seedance v1.5 Pro na 9. mestu je postal moja izbira za kompleksno koreografijo kamere — vožnje (dolly shots), orbitalni zasuki, prehodi z žerjava na ročno kamero. Ko animacija zahteva namerno gibanje kamere namesto statičnega okvirja, ki drsi, Seedance dostavi. Seedance v1 Pro na 11. mestu ostaja zanesljiv delovni konj za standardne naloge animacije, v1 Lite na 25. mestu pa je izbira, ko je hitrost pomembnejša od vrhunske kakovosti. Trostopenjska strategija Bytedance vam daje popoln cevovod: Lite za eksperimentiranje, v1 Pro za soliden izhod, v1.5 Pro za glavni posnetek.
KlingAI: Štiri ravni, en ekosistem
Kling 2.6 Pro (#10), Kling 2.5 Turbo 1080p (#12), v2.1 Master (#17), v2.1 Standard (#19) — štirje modeli, ki zajemajo različne cenovne in zmogljivostne ravni. Kling 2.6 Pro izstopa pri animaciji likov: tekoče gibanje telesa s konsistenco obraza, ki je nisem videl primerljive zunaj prvih štirih. Kling 2.5 Turbo 1080p je opazen zaradi izvirne visoke ločljivosti na hitri ravni renderiranja — ko vaš format dostave zahteva število pikslov in si ne morete privoščiti koraka povečave, ta model prihrani čas in denar.
MiniMax, Alibaba, Tencent in Luma AI
Družina Hailuo podjetja MiniMax zaseda štiri mesta (#14, #18, #21, #23), ki segajo od profesionalnih do hitrih ravni — iteracijski stroj, na katerega se zanašam za hitro osnutke, preden se zavežem dragemu renderiranju drugje. Alibaba Wan 2.5 I2V na 6. mestu ostaja najboljša možnost, ko ohranjanje umetniškega sloga ni predmet pogajanj: nahranite ga z akvarelno sliko in animiral jo bo kot akvarel, ne kot fotorealistično reinterpretacijo. Tencentov Hunyuan Video 1.5 na 24. mestu zaokrožuje kitajski seznam s tihim, enakomernim izboljšanjem v vsakem ciklu.
Luma AI Ray 3 na 22. mestu si zasluži posebno omembo zaradi 3D-zavedne animacije. Nahranite ga s posnetkom izdelka ali arhitekturnim renderjem in sklepal bo o globini ter ustvaril gibanje kamere, ki spoštuje tridimenzionalno strukturo — paralaksa na predmetih v ospredju, pravilna okluzija na ozadjih. Za videoposnetke izdelkov v e-trgovini in vizualizacijo nepremičnin je Ray 3 specialist, ki ga je vredno poznati. Njihov starejši Ray 2 na 29. mestu kaže, kako daleč se je generacijska vrzel razširila celo znotraj enega podjetja.
Odprtokodni signal
LTX-2-19b podjetja Lightricks na 28. mestu je najpomembnejši vnos na tem seznamu za določeno občinstvo: ekipe, ki ne morejo pošiljati lastniških slik zunanjim API-jem. Ta model z 19 milijardami parametrov, ki je na voljo na HuggingFace z odprtimi utežmi, deluje lokalno (on-premise). Kakovostna vrzel med LTX-2 in prvih 10 je resnična — opazili jo boste v finih podrobnostih in časovni stabilnosti. Toda za delovne tokove, kjer je zasebnost podatkov nujna — medicinsko slikanje, neobjavljeni dizajni izdelkov, tajni arhitekturni načrti — je LTX-2 trenutno najmočnejša možnost z odprtimi utežmi za generiranje videa iz slik.
Širša pot je tukaj pomembna. Wan v2.2 na 26. mestu je prav tako javno dostopen. Ker vse bolj sposobni modeli sproščajo svoje uteži, se dno tistega, kar je mogoče doseči brez API-ja v oblaku, še naprej dviguje. Ocenjujem, da je odprtokodni video iz slik približno tam, kjer so bili odprtokodni jezikovni modeli sredi leta 2024 — približno dvanajst mesecev za mejo, vendar se hitro približujejo. Do konca leta 2026 pričakujem, da bodo modeli I2V z odprtimi utežmi tekmovali s komercialnimi ponudbami srednjega razreda, kar bo temeljito spremenilo izračun "izdelati ali kupiti" za podjetniške ekipe.
Izbira pravega orodja
Moja priporočila po primerih uporabe
Kinematografsko + Avdio
Veo 3.1 Audio — sinhroniziran zvok, ki povzdigne vsak kader. Neprekašljiv.
Surova kakovost animacije
Grok Imagine Video 720p — novi št. 1, izjemna časovna koherenca in zvestoba gibanja.
Ohranjanje umetniškega sloga
Wan 2.5 I2V — animira slike kot slike, ne kot fotorealistične renderje.
Koreografija kamere
Seedance v1.5 Pro — najboljše gibanje dolly, pan, orbital in žerjav na terenu.
Animacija likov
Kling 2.6 Pro — konsistenca obraza in dinamika tekočega gibanja telesa.
Hitro osnutkovanje
Hailuo 02 Fast — hitro ponavljanje konceptov pred zavezo končnemu renderju.
3D-zavedna animacija
Luma AI Ray 3 — sklepanje o globini za posnetke izdelkov in arhitekturne prizore.
Lokalno / Odprte uteži
LTX-2-19b — samo-gostovanje, ko podatki ne smejo zapustiti vaše infrastrukture.
Prava veščina v letu 2026 ni obvladovanje enega modela — ampak vedeti, po katerem orodju poseči. Uporabljam Veo, ko posnetek potrebuje zvok. Grok, ko je najpomembnejša čista zvestoba animacije. Wan, ko je vir umetniški. Seedance, ko se mora kamera premikati. Hailuo, ko potrebujem deset različic v eni uri. Najboljši delovni tokovi slika-v-video, ki sem jih zgradil letos, obravnavajo te modele kot inštrumente v orkestru, ne kot alternative drug drugemu.
Kaj sledi
Po spremljanju tega prostora iz meseca v mesec, tukaj vidim, kam se pokrajina usmerja v preostanku leta 2026.
Soustvarjanje zvoka postaja prevladujoče. Google je to uvedel z Veo 3 in vrzel v zaznani kakovosti, ki jo ustvarja, je prevelika, da bi jo tekmeci lahko prezrli. Pričakujem, da bosta vsaj dva druga ponudnika — verjetno xAI in Bytedance — do 4. četrtletja poslala integriran zvok. Ko se to zgodi, se bo tiha animacija zdela kot artefakt iz prejšnje dobe, tako kot se statične sličice zdaj počutijo v primerjavi z animiranimi predogledi.
Eskalacija ločljivosti se pospešuje. Večina vrhunskih modelov trenutno doseže vrh pri 720p. Kling 2.5 Turbo že potiska naravnih 1080p. Do konca leta bo 1080p standard za profesionalne ravni in videli bomo prve 4K predoglede iz vsaj enega laboratorija. Stroški računanja bodo kaznovalni, vendar je povpraševanje iz oddajnih in oglaševalskih delovnih tokov nesporno.
xAI se agresivno širi. Dva modela v treh tednih — pri čemer varianta 720p ob prihodu zahteva 1. mesto — signalizirata resne naložbe. Pričakoval bi različice z višjo ločljivostjo in morda zvočno integracijo od Groka pred poletjem. Če ohranijo to kakovost gibanja pri 1080p, postanejo jasen favorit.
Runway potrebuje Gen5 trenutek. Runway Gen4 Turbo na 30. mestu je težak položaj za podjetje, ki je v bistvu ustvarilo komercialno kategorijo AI videa. Njihova ustvarjalna orodja in uporabniška izkušnja ostajajo najboljši v razredu, vendar osnovni model potrebuje generacijski skok. Če Gen5 ne bo poslan do sredine leta 2026 s kakovostjo top-10, tvega Runway, da postane podjetje, ki je definiralo trg in nato opazovalo, kako ga vsi drugi osvajajo.
Odprtokodna koda zmanjšuje vrzel. LTX-2 je dokazal, da lahko odprte uteži danes proizvedejo izvedljive rezultate slika-v-video. Naslednji val — morda Wan 3 ali LTX-3 — bo potisnil na ozemlje, ki tekmuje s komercialnimi modeli srednjega razreda. Za podjetniške ekipe, ki gradijo lastniške cevovode brez odvisnosti od zunanjih API-jev, je to trend, ki najbolj šteje.
Manjkajoči igralci. Meta, Apple in Amazon ostajajo opazno odsotni s te lestvice. Metine video raziskovalne publikacije kažejo na zmogljivost, ki bi lahko tekmovala na najvišji ravni, vendar niso poslali javno dostopnega I2V izdelka. V trenutku, ko vstopi Meta — še posebej, če izdajo model z odprtimi utežmi, kot so to storili z Llamo za jezik — se celotna konkurenčna pokrajina premeša čez noč.
Vir podatkov: Uvrstitve iz Arena Image-to-Video Leaderboard, 5. februar 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!