Satu imej pegun. Tiga puluh satu masa depan yang berbeza. AI yang anda pilih untuk menganimasikannya menentukan realiti mana yang terungkap.
Saya telah memasukkan portfolio imej ujian yang sama — potret, landskap, gambar produk, lukisan minyak, render seni bina — ke dalam setiap model di papan ini selama berbulan-bulan. Sesetengah mengubah gambar menjadi sinema. Yang lain menghasilkan tayangan slaid dengan kekaburan gerakan. Cerita besar bulan ini bukanlah kemajuan beransur-ansur. Ia adalah perubahan rejim. Grok Imagine Video dari xAI telah mengambil tempat #1, menolak Veo 3.1 Audio dari Google yang sebelum ini tidak tersentuh ke tempat kedua. Sementara itu, padang berkembang dari 27 kepada 31 model, Vidu dari Shengshu membuat lonjakan generasi ke #5, dan entri sumber terbuka dari Lightricks membuktikan anda tidak lagi memerlukan API awan untuk menganimasikan imej. Ini adalah Arena Imej-ke-Video (Image-to-Video Arena), Februari 2026.
Papan Pendahulu Penuh — 31 Model Berperingkat
Setiap kedudukan di bawah datang daripada perbandingan buta satu-lawan-satu yang dijalankan oleh pengguna sebenar di platform Arena. Tiada pemilihan terpilih, tiada demo pemasaran. Saya telah memautkan setiap model ke dokumentasi rasminya supaya anda boleh mengujinya secara langsung.
| Pangkat | Model | Skor | Undian | Organisasi |
|---|---|---|---|---|
🥇 | Grok Imagine Video 720p | 1400 | — | xAI |
🥈 | Veo 3.1 Audio | 1395 | 23,432 | |
🥉 | Veo 3.1 Fast Audio | 1382 | 30,039 | |
#4 | Grok Imagine Video 480p | 1381 | 19,582 | xAI |
#5 | Vidu Q3 Pro | 1362 | 11,270 | Shengshu |
#6 | Wan2.5 I2v Preview | 1339 | 12,039 | Alibaba |
#7 | Veo 3 Audio | 1331 | 34,546 | |
#8 | Veo 3 Fast Audio | 1322 | 43,912 | |
#9 | Seedance V1.5 Pro | 1303 | 39,229 | Bytedance |
#10 | Kling 2.6 Pro | 1291 | 30,845 | KlingAI |
#11 | Seedance V1 Pro | 1272 | 36,475 | Bytedance |
#12 | Kling 2.5 Turbo 1080p | 1272 | 3,873 | KlingAI |
#13 | Veo 3 Fast | 1256 | 27,874 | |
#14 | Hailuo 2.3 | 1254 | 36,884 | MiniMax |
#15 | Veo 3 | 1254 | 27,736 | |
#16 | Vidu Q2 Turbo | 1244 | 2,481 | Shengshu |
#17 | Kling V2.1 Master | 1232 | 32,254 | KlingAI |
#18 | Hailuo 02 Pro | 1228 | 23,839 | MiniMax |
#19 | Kling V2.1 Standard | 1225 | 32,258 | KlingAI |
#20 | Vidu Q2 Pro | 1224 | 2,566 | Shengshu |
#21 | Hailuo 02 Standard | 1222 | 23,651 | MiniMax |
#22 | Ray 3 | 1222 | 1,580 | Luma AI |
#23 | Hailuo 02 Fast | 1194 | 24,578 | MiniMax |
#24 | Hunyuan Video 1.5 | 1193 | 5,429 | Tencent |
#25 | Seedance V1 Lite | 1183 | 36,129 | Bytedance |
#26 | Wan V2.2 A14b | 1167 | 29,450 | Alibaba |
#27 | Veo 2 | 1164 | 11,536 | |
#28 | Ltx 2 19b | 1111 | 22,315 | lightricks |
#29 | Ray2 | 1105 | 10,828 | Luma AI |
#30 | Runway Gen4 Turbo | 1047 | 7,506 | Runway |
#31 | Pika V2.2 | 994 | — | Pika |
Gangguan xAI
Tiada siapa yang nampak ini datang. Apabila saya terakhir mengemas kini papan pendahulu ini tiga minggu lalu, Google memegang kedua-dua #1 dan #2 tanpa pertandingan. Tiada bisikan awam tentang xAI memasuki ruang imej-ke-video. Kemudian Grok Imagine Video muncul — bukan satu varian, tetapi dua — dan model 720p terus ke puncak perbandingan buta.
Saya telah menjalankan Grok terhadap suite ujian standard saya, dan apa yang menonjol serta-merta ialah koheren temporal (temporal coherence). Berikan ia potret dan subjek tidak berubah bentuk di pertengahan animasi. Fizik rambut kekal konsisten dari bingkai ke bingkai. Arah mata menjejaki secara semula jadi melalui pusingan kepala. Saya menguji salah satu input paling sukar saya — tangkapan sederhana seseorang memusingkan kepala semasa angin menangkap selendang mereka — dan Grok mengekalkan setiap butiran sepanjang klip. Kebanyakan model kehilangan corak selendang atau memesongkan wajah semasa pusingan. Grok menanganinya dengan kestabilan yang hanya saya lihat dari render terbaik Veo.
Langkah strategik di sini memberitahu anda banyak tentang pendekatan xAI. Mereka menghantar dua tahap resolusi serentak: 720p di #1 dan 480p di #4. Varian 480p telah mengumpul perbandingan Arena yang besar dan bertahan berhampiran puncak. Ini bermakna seni bina gerakan xAI secara asasnya kuat — kualiti muncul sebelum penskalaan resolusi masuk ke dalam gambar. Jika mereka menolak ke 1080p asli sambil mengekalkan tahap kesetiaan temporal ini, integrasi audio Google menjadi satu-satunya pembeza yang tinggal mengekalkan Veo dalam perbualan untuk mahkota.
Apa yang perlu diperhatikan: Model 720p Grok masih dalam fasa Arena terawalnya dengan data perbandingan terhad. Apabila beribu-ribu lagi perbandingan masuk, kedudukan #1 itu sama ada akan kukuh — mengesahkan kekuatan model merentasi pelbagai input — atau menyesuaikan apabila kes tepi mendedahkan kelemahan. Sama ada cara, xAI telah membuka perang tiga penjuru: kesetiaan gerakan mereka lawan integrasi audio Google lawan kelajuan lelaran tanpa henti ekosistem China. Perlumbaan Imej-ke-Video baru sahaja menjadi jauh lebih menarik secara dramatik.
Google: Digulingkan Tetapi Tidak Dikalahkan
Kehilangan tempat #1 tidak bermakna Google kalah perang. Mereka masih menguasai tujuh daripada 31 kedudukan — lebih daripada mana-mana organisasi lain. Veo 3.1 Audio di #2 dan Veo 3.1 Fast Audio di #3 kekal hebat. Varian Veo 3 Audio memegang #7 dan #8. Enjin Veo 3 bukan audio duduk di #13 dan #15. Dan Veo 2 yang semakin tua bertahan di #27.
Kelebihan abadi Google ialah keupayaan yang tiada pesaing replikasi: penjanaan audio disegerakkan. Apabila saya menganimasikan adegan kafe dengan Veo 3.1, saya mendengar mesin espresso mendesis, cawan berdenting, perbualan ambien — semuanya ditetapkan masanya dengan tepat kepada gerakan visual. Foto pantai mendapat ombak yang memecah sepadan dengan kitaran buih. Laluan hutan mendapat kicauan burung yang beralih dengan kedudukan kamera maya. Ini bukan audio pasca-pengeluaran yang dilapis di atas; ia dijana bersama dalam laluan hadapan yang sama seperti video. Dalam pengalaman saya, audio yang sepadan meningkatkan kualiti yang dirasakan secara dramatik — otak anda lebih mempercayai gerakan apabila mendengarnya.
Tetapi Veo 2 duduk di #27 menceritakan kisah yang menyedarkan tentang kelajuan susut nilai. Dua belas bulan lalu, Veo 2 adalah standard emas untuk I2V. Sekarang ia diatasi oleh dua puluh enam model, termasuk beberapa dari syarikat yang tidak mempunyai produk video setahun lalu. Setiap generasi dalam ruang ini menua dalam bulan, bukan tahun, dan model baharu Google sendiri telah menjadikan Veo 2 terasa seperti infrastruktur warisan. Kanibalisasi dalaman yang pantas ini adalah kekuatan terbesar Google dan juga komitmen paling mahalnya — mereka perlu terus menghantar hanya untuk kekal di hadapan diri mereka sendiri.
Parit audio adalah nyata, tetapi ia semakin mengecil. Saya menjangkakan sekurang-kurangnya dua pembekal lain akan menghantar penjanaan bersama audio-video asli menjelang Q4 2026. Sebaik sahaja itu berlaku, pembeza Google beralih daripada eksklusiviti ciri kepada kualiti pelaksanaan. Soalan strategik ialah sama ada Veo 4 tiba sebelum pesaing menutup jurang itu sepenuhnya.
Kuasa Timur
Jika anda hanya menjejaki tiga teratas, anda kehilangan cerita struktur. Syarikat AI China secara kolektif memegang tujuh belas daripada 31 kedudukan di papan ini — lebih daripada separuh keseluruhan papan pendahulu. Ini bukan kehadiran khusus. Ia adalah dominasi peringkat ekosistem bagi peringkat pertengahan hingga atas, dan ia mempunyai implikasi langsung bagi sesiapa yang membina saluran pengeluaran di sekitar penjanaan imej-ke-video.
Shengshu: Lonjakan Generasi
Vidu Q3 Pro di #5 ialah model yang saya akan beritahu anda untuk perhatikan paling dekat. Generasi Q2 Shengshu — Q2 Turbo dan Q2 Pro — duduk di #16 dan #20. Dihormati, tetapi tidak luar biasa. Lonjakan ke Q3 bukan beransur-ansur; ia adalah seni bina. Dalam ujian saya, Q3 Pro mengendalikan adegan pelbagai subjek dengan ketepatan yang tidak dapat ditandingi pendahulunya. Dua orang berjalan ke arah bertentangan? Model Q2 akan mula menggabungkan garis besar mereka menjelang bingkai 30. Q3 Pro mengekalkan mereka berbeza melalui keseluruhan urutan. Untuk animasi potret, ia memelihara tekstur kulit dan ekspresi mikro dengan cara yang terasa organik dan bukannya sintetik. Jika Shengshu mengekalkan kadar peningkatan generasi ini, model Q4 boleh mencabar tiga teratas menjelang akhir 2026.
Bytedance: Pakar Kamera
Seedance v1.5 Pro di #9 telah menjadi pilihan saya untuk koreografi kamera yang kompleks — tangkapan dolly, pan orbit, peralihan kren-ke-genggam. Apabila animasi menuntut gerakan kamera yang disengajakan dan bukannya bingkai statik yang hanyut, Seedance menyampaikannya. Seedance v1 Pro di #11 kekal sebagai kuda kerja yang boleh dipercayai untuk tugas animasi standard, dan v1 Lite di #25 ialah pilihan apabila kelajuan lebih penting daripada kualiti puncak. Strategi tiga peringkat Bytedance memberikan anda saluran paip lengkap: Lite untuk percubaan, v1 Pro untuk output pepejal, v1.5 Pro untuk tangkapan wira.
KlingAI: Empat Peringkat, Satu Ekosistem
Kling 2.6 Pro (#10), Kling 2.5 Turbo 1080p (#12), v2.1 Master (#17), v2.1 Standard (#19) — empat model merangkumi peringkat harga dan keupayaan yang berbeza. Kling 2.6 Pro ialah yang menonjol untuk animasi watak: gerakan badan bendalir dengan konsistensi muka yang saya tidak lihat ditandingi di luar empat teratas. Kling 2.5 Turbo 1080p terkenal dengan resolusi tinggi asli dalam peringkat rendering pantas — apabila format penghantaran anda menuntut kiraan piksel dan anda tidak mampu menanggung langkah peningkatan (upscale), model ini menjimatkan masa dan wang.
MiniMax, Alibaba, Tencent, dan Luma AI
Keluarga Hailuo dari MiniMax menduduki empat tempat (#14, #18, #21, #23) merangkumi peringkat pro hingga pantas — mesin lelaran yang saya harapkan untuk draf pantas sebelum melakukan render mahal di tempat lain. Wan 2.5 I2V dari Alibaba di #6 kekal sebagai pilihan terbaik apabila pemeliharaan gaya artistik tidak boleh dirunding: berikan ia lukisan cat air dan ia menganimasikannya sebagai cat air, bukan sebagai tafsiran semula fotorealistik. Hunyuan Video 1.5 dari Tencent di #24 melengkapkan senarai China dengan peningkatan yang tenang dan mantap setiap kitaran.
Ray 3 dari Luma AI di #22 patut disebut khas untuk animasi sedar 3D. Berikan ia tangkapan produk atau render seni bina dan ia menyimpulkan kedalaman, menjana gerakan kamera yang menghormati struktur tiga dimensi — paralaks pada objek latar depan, oklusi yang betul pada latar belakang. Untuk video produk e-dagang dan visualisasi hartanah, Ray 3 ialah pakar yang patut diketahui. Ray 2 lama mereka di #29 menunjukkan betapa jauh jurang generasi telah melebar walaupun dalam satu syarikat.
Isyarat Sumber Terbuka
LTX-2-19b dari Lightricks di #28 ialah entri paling penting dalam senarai ini untuk khalayak tertentu: pasukan yang tidak boleh menghantar imej proprietari ke API luaran. Tersedia di HuggingFace dengan berat terbuka, model 19 bilion parameter ini berjalan di premis. Jurang kualiti antara LTX-2 dan 10 teratas adalah nyata — anda akan perasan dalam butiran halus dan kestabilan temporal. Tetapi untuk aliran kerja di mana privasi data tidak boleh dirunding — pengimejan perubatan, reka bentuk produk yang belum dikeluarkan, pelan seni bina rahsia — LTX-2 kini merupakan pilihan berat terbuka terkuat untuk penjanaan imej-ke-video.
Trajektori yang lebih luas penting di sini. Wan v2.2 di #26 juga tersedia secara terbuka. Apabila lebih banyak model berkebolehan melepaskan berat mereka, lantai untuk apa yang boleh dicapai tanpa API awan terus meningkat. Saya menganggarkan imej-ke-video sumber terbuka kira-kira berada di mana model bahasa sumber terbuka berada pada pertengahan 2024 — kira-kira dua belas bulan di belakang sempadan, tetapi menutup jurang dengan pantas. Menjelang akhir 2026, saya menjangkakan model I2V berat terbuka akan menyaingi tawaran komersial peringkat pertengahan, secara asasnya mengubah kalkulus bina-lawan-beli untuk pasukan perusahaan.
Memilih Alat yang Betul
Cadangan Saya Mengikut Kes Penggunaan
Sinematik + Audio
Veo 3.1 Audio — bunyi disegerakkan yang mengangkat setiap bingkai. Tiada tandingan.
Kualiti Animasi Mentah
Grok Imagine Video 720p — #1 baharu, koheren temporal dan kesetiaan gerakan yang luar biasa.
Pemeliharaan Gaya Artistik
Wan 2.5 I2V — menganimasikan lukisan sebagai lukisan, bukan render fotorealistik.
Koreografi Kamera
Seedance v1.5 Pro — gerakan dolly, pan, orbit, dan kren terbaik di padang.
Animasi Watak
Kling 2.6 Pro — konsistensi muka dan dinamik gerakan badan bendalir.
Draf Pantas
Hailuo 02 Fast — lelaran konsep dengan cepat sebelum komited kepada render akhir.
Animasi Sedar 3D
Luma AI Ray 3 — inferens kedalaman untuk gambar produk dan adegan seni bina.
Di Premis / Berat Terbuka
LTX-2-19b — hos sendiri apabila data tidak boleh meninggalkan infrastruktur anda.
Kemahiran sebenar pada 2026 bukanlah menguasai satu model — ia mengetahui alat mana yang perlu dicapai. Saya menggunakan Veo apabila klip memerlukan audio. Grok apabila kesetiaan animasi tulen paling penting. Wan apabila sumbernya artistik. Seedance apabila kamera mesti bergerak. Hailuo apabila saya memerlukan sepuluh variasi dalam satu jam. Aliran kerja imej-ke-video terbaik yang saya bina tahun ini menganggap model-model ini sebagai instrumen dalam orkestra, bukan alternatif antara satu sama lain.
Apa Yang Akan Datang
Setelah menjejaki ruang ini bulan demi bulan, inilah ke mana saya melihat landskap menuju sepanjang baki 2026.
Penjanaan bersama audio menjadi arus perdana. Google memeloporinya dengan Veo 3, dan jurang kualiti yang dirasakan yang diciptakannya terlalu besar untuk diabaikan oleh pesaing. Saya menjangkakan sekurang-kurangnya dua pembekal lain — kemungkinan xAI dan Bytedance — akan menghantar audio bersepadu menjelang Q4. Sebaik sahaja itu berlaku, animasi senyap akan terasa seperti artifak dari era terdahulu, cara lakaran kenit statik terasa sekarang berbanding pratonton animasi.
Peningkatan resolusi semakin pantas. Kebanyakan model teratas pada masa ini maksima pada 720p. Kling 2.5 Turbo sudah menolak 1080p asli. Menjelang akhir tahun, 1080p akan menjadi standard untuk peringkat pro dan kita akan melihat pratonton 4K pertama dari sekurang-kurangnya satu makmal. Kos pengkomputeran akan menghukum, tetapi permintaan dari aliran kerja penyiaran dan pengiklanan tidak dapat dinafikan.
xAI berskala secara agresif. Dua model dalam tiga minggu — dengan varian 720p menuntut #1 semasa ketibaan — menandakan pelaburan serius. Saya menjangkakan varian resolusi lebih tinggi dan mungkin integrasi audio dari Grok sebelum musim panas. Jika mereka mengekalkan kualiti gerakan ini pada 1080p, mereka menjadi pendahulu yang jelas.
Runway memerlukan momen Gen5. Runway Gen4 Turbo di #30 ialah kedudukan sukar bagi syarikat yang pada dasarnya mencipta kategori video AI komersial. Alat kreatif dan pengalaman pengguna mereka kekal terbaik dalam kelasnya, tetapi model asas memerlukan lonjakan generasi. Jika Gen5 tidak dihantar menjelang pertengahan 2026 dengan kualiti 10 teratas, Runway berisiko menjadi syarikat yang mentakrifkan pasaran dan kemudian melihat orang lain memenanginya.
Sumber terbuka mengecilkan jurang. LTX-2 membuktikan berat terbuka boleh menghasilkan keputusan imej-ke-video yang boleh dilaksanakan hari ini. Gelombang seterusnya — mungkin Wan 3 atau LTX-3 — akan menolak ke wilayah yang menyaingi model komersial peringkat pertengahan. Bagi pasukan perusahaan yang membina saluran paip proprietari tanpa pergantungan API luaran, ini adalah trend yang paling penting.
Pemain yang hilang. Meta, Apple, dan Amazon kekal tidak hadir dalam papan pendahulu ini. Penerbitan penyelidikan video Meta mencadangkan keupayaan yang boleh bersaing di peringkat teratas, tetapi mereka belum menghantar produk I2V yang menghadap awam. Saat Meta masuk — terutamanya jika mereka mengeluarkan model berat terbuka, seperti yang mereka lakukan dengan Llama untuk bahasa — keseluruhan landskap persaingan berubah semalaman.
Sumber Data: Kedudukan daripada Arena Image-to-Video Leaderboard, 5 Februari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!