一張靜圖,三十一種未來。你選擇的 AI 決定了哪種現實將會展開。
幾個月來,我一直在用同一套測試圖庫——人像、風景、產品圖、油畫、建築渲染圖——餵給榜單上的每一個模型。有些把照片變成了電影,有些則生成了帶動態模糊的幻燈片。本月的大新聞不是漸進式的進步,而是政權更迭。xAI 的 Grok Imagine Video 拿下了第一名,將 Google 此前不可撼動的 Veo 3.1 Audio 推到了第二位。與此同時,參賽模型從 27 個擴展到了 31 個,生數科技的 Vidu 實現了代際飛躍升至第五,來自 Lightricks 的開源選手證明了即使沒有雲端 API 也能製作動畫。這就是 2026 年 2 月的 圖生影片競技場 (Image-to-Video Arena)。
完整排行榜 — 31 款模型排名
以下每一個排名都源自 Arena 平台上真實用戶的盲測對比。沒有精心挑選的櫻桃,沒有行銷演示。我已將每個模型連結到其官方文件,以便您直接測試。
| 排名 | 模型 | 得分 | 票數 | 機構 |
|---|---|---|---|---|
🥇 | Grok Imagine Video 720p | 1400 | — | xAI |
🥈 | Veo 3.1 Audio | 1395 | 23,432 | |
🥉 | Veo 3.1 Fast Audio | 1382 | 30,039 | |
#4 | Grok Imagine Video 480p | 1381 | 19,582 | xAI |
#5 | Vidu Q3 Pro | 1362 | 11,270 | Shengshu |
#6 | Wan2.5 I2v Preview | 1339 | 12,039 | Alibaba |
#7 | Veo 3 Audio | 1331 | 34,546 | |
#8 | Veo 3 Fast Audio | 1322 | 43,912 | |
#9 | Seedance V1.5 Pro | 1303 | 39,229 | Bytedance |
#10 | Kling 2.6 Pro | 1291 | 30,845 | KlingAI |
#11 | Seedance V1 Pro | 1272 | 36,475 | Bytedance |
#12 | Kling 2.5 Turbo 1080p | 1272 | 3,873 | KlingAI |
#13 | Veo 3 Fast | 1256 | 27,874 | |
#14 | Hailuo 2.3 | 1254 | 36,884 | MiniMax |
#15 | Veo 3 | 1254 | 27,736 | |
#16 | Vidu Q2 Turbo | 1244 | 2,481 | Shengshu |
#17 | Kling V2.1 Master | 1232 | 32,254 | KlingAI |
#18 | Hailuo 02 Pro | 1228 | 23,839 | MiniMax |
#19 | Kling V2.1 Standard | 1225 | 32,258 | KlingAI |
#20 | Vidu Q2 Pro | 1224 | 2,566 | Shengshu |
#21 | Hailuo 02 Standard | 1222 | 23,651 | MiniMax |
#22 | Ray 3 | 1222 | 1,580 | Luma AI |
#23 | Hailuo 02 Fast | 1194 | 24,578 | MiniMax |
#24 | Hunyuan Video 1.5 | 1193 | 5,429 | Tencent |
#25 | Seedance V1 Lite | 1183 | 36,129 | Bytedance |
#26 | Wan V2.2 A14b | 1167 | 29,450 | Alibaba |
#27 | Veo 2 | 1164 | 11,536 | |
#28 | Ltx 2 19b | 1111 | 22,315 | lightricks |
#29 | Ray2 | 1105 | 10,828 | Luma AI |
#30 | Runway Gen4 Turbo | 1047 | 7,506 | Runway |
#31 | Pika V2.2 | 994 | — | Pika |
xAI 的顛覆
沒人預料到這一幕。三週前我上次更新這個排行榜時,Google 還穩坐第一和第二,無人挑戰。關於 xAI 進入圖生影片領域沒有任何風聲。然後 Grok Imagine Video 出現了——不是一個版本,而是兩個——720p 模型直接在盲測中登頂。
我一直在用我的標準測試套件運行 Grok,最引人注目的是時間連貫性 (temporal coherence)。給它一張肖像,人物不會在動畫中途變形。頭髮的物理效果在幀與幀之間保持一致。眼睛的轉動方向隨頭部轉動自然變化。我測試了一個最難的輸入——一個中景鏡頭,人物轉頭時風吹動圍巾——Grok 在整個片段中保持了所有細節。大多數模型會在轉頭時丟失圍巾的圖案或扭曲臉部。Grok 處理得非常穩定,這種穩定性我之前只在 Veo 最好的渲染中見過。
這裡的戰略佈局揭示了 xAI 的路徑。他們同時發布了兩個解析度層級:排名第一的 720p 和排名第四的 480p。480p 變體已經積累了大量的競技場對比數據,並穩居前列。這意味著 xAI 的運動架構從根本上就是強大的——在解析度縮放介入之前,品質就已經顯現。如果他們能推到原生 1080p 並保持這種時間保真度,那麼 Google 的音訊整合將成為 Veo 爭奪王座的唯一差異化優勢。
觀察重點: Grok 的 720p 模型仍處於早期競技場階段,比較數據有限。隨著成千上萬次對比數據的湧入,那個第一名的排名要么會鞏固——確認模型在多樣化輸入下的實力——要么會隨著邊緣案例暴露弱點而調整。無論如何,xAI 已經開啟了一場三線戰爭:他們的運動保真度 vs Google 的音訊整合 vs 中國生態系統的極速迭代。圖生影片的競爭剛剛變得更加有趣了。
Google:雖敗猶榮
失去第一名並不意味著 Google 輸掉了戰爭。他們仍然佔據了 31 個席位中的 7 個——比任何其他機構都多。排名第二的 Veo 3.1 Audio 和排名第三的 Veo 3.1 Fast Audio 依然強大。Veo 3 Audio 變體佔據第 7 和第 8 位。無音訊的 Veo 3 引擎位於第 13 和第 15 位。而老舊的 Veo 2 堅守在第 27 位。
Google 持久的優勢在於一種競爭對手尚未複製的能力:同步音訊生成。當我用 Veo 3.1 製作一個咖啡館場景動畫時,我能聽到濃縮咖啡機的嘶嘶聲、杯子的碰撞聲、環境對話聲——所有這些都與視覺動作精確同步。一張海灘照片會配上與泡沫週期匹配的海浪撞擊聲。一條森林小徑會伴隨著隨虛擬攝影機位置移動的鳥鳴聲。這不是後期疊加的音訊;它是在影片生成的同一個前向傳遞中共同生成的。根據我的經驗,匹配的音訊能極大地提升感知品質——當你的大腦聽到動作時,它會更相信看到的動作。
但 Veo 2 坐在第 27 位講述了一個關於淘汰速度的清醒故事。十二個月前,Veo 2 是 I2V 的黃金標準。現在它的排名已被 26 個模型超越,其中包括幾家一年前還沒有影片產品的公司的模型。這個領域的每一代產品都是以月為單位老化的,而不是年,Google 自己的新模型讓 Veo 2 感覺像是遺留的基礎設施。這種快速的內部蠶食既是 Google 最大的優勢,也是其最昂貴的承諾——他們必須不斷出貨才能保持領先於自己。
音訊護城河是真實的,但正在縮小。 我預計至少有兩家其他供應商將在 2026 年第四季度之前推出原生音訊影片協同生成功能。一旦發生這種情況,Google 的差異化將從功能獨佔性轉向執行品質。戰略問題是 Veo 4 是否能在競爭對手完全縮小差距之前到來。
東方力量
如果你只關注前三名,你會錯過結構性的故事。中國 AI 公司在榜單上總共佔據了 31 個席位中的 17 個——超過了整個排行榜的一半。這不是一個小眾的存在。這是中高層級的生態系統級統治,對於任何圍繞圖生影片生成構建生產管道的人來說,這都有直接的影響。
生數科技 (Shengshu):代際飛躍
排名第 5 的 Vidu Q3 Pro 是我建議你最密切關注的模型。生數科技的 Q2 一代——Q2 Turbo 和 Q2 Pro——分別位於第 16 和第 20 位。值得尊敬,但並不突出。向 Q3 的飛躍不是漸進式的;它是架構性的。在我的測試中,Q3 Pro 處理多主體場景的精度是其前代無法比擬的。兩個朝相反方向走的人?Q2 模型會在第 30 幀左右開始合併他們的輪廓。Q3 Pro 在整個序列中保持他們的清晰區分。對於人像動畫,它保留皮膚紋理和微表情的方式感覺是有機的,而不是合成的。如果生數科技保持這種代際改進速度,Q4 模型可能會在 2026 年底挑戰前三名。
字節跳動 (Bytedance):運鏡專家
排名第 9 的 Seedance v1.5 Pro 已經成為我處理複雜運鏡編排的首選——推拉鏡頭、軌道平移、搖臂到手持的過渡。當動畫需要有意的攝影機運動而不是靜態漂移時,Seedance 能夠勝任。Seedance v1 Pro (第 11 名) 仍然是標準動畫任務的可靠主力,而 v1 Lite (第 25 名) 是在速度重於極致品質時的選擇。字節跳動的三層策略為你提供了一個完整的管道:Lite 用於實驗,v1 Pro 用於穩定輸出,v1.5 Pro 用於主鏡頭。
快手 (KlingAI):四層級,一個生態
Kling 2.6 Pro (#10), Kling 2.5 Turbo 1080p (#12), v2.1 Master (#17), v2.1 Standard (#19) —— 四個模型跨越不同的價格和能力層級。Kling 2.6 Pro 是角色動畫的佼佼者:流暢的身體運動和面部一致性,我在前四名之外沒見過能與之匹敵的。Kling 2.5 Turbo 1080p 值得注意的是在快速渲染層級中的原生高解析度——當你的交付格式要求像素數量而你又無法承擔放大步驟的成本時,這個模型能節省時間和金錢。
MiniMax, 阿里巴巴, 騰訊, 和 Luma AI
MiniMax 的 Hailuo (海螺) 家族佔據了四個席位 (#14, #18, #21, #23),涵蓋了專業到快速層級——這是我在去其他地方進行昂貴渲染之前,用於快速起草的迭代機器。阿里巴巴的 Wan 2.5 I2V 在第 6 位,當藝術風格保留是不可協商時,它仍然是最佳選擇:給它一幅水彩畫,它會像水彩畫一樣製作動畫,而不是像照片寫實主義的重新詮釋。騰訊的 Hunyuan (混元) Video 1.5 在第 24 位,以每個週期安靜、穩定的改進完善了中國選手的名單。
Luma AI 的 Ray 3 在第 22 位,值得特別提及的是3D 感知動畫。給它一個產品照或建築渲染圖,它能推斷深度,生成尊重三維結構的攝影機運動——前景物體的視差,背景的正確遮擋。對於電子商務產品影片和房地產視覺化,Ray 3 是一個值得了解的專家。他們較舊的 Ray 2 在第 29 位,顯示了即使在一家公司內部,代際差距也已經拉大到了什麼程度。
開源訊號
來自 Lightricks 的 LTX-2-19b 排名第 28,對於特定受眾來說,這是榜單上最重要的條目:那些不能將專有圖像發送到外部 API 的團隊。這個 190 億參數的模型在 HuggingFace 上提供開放權重,可在本地運行。LTX-2 與前 10 名之間的品質差距是真實的——你會在細節和時間穩定性上注意到這一點。但對於數據隱私不可協商的工作流——醫療影像、未發布的產品設計、機密建築圖紙——LTX-2 目前是圖生影片生成中最強的開放權重選項。
更廣泛的軌跡很重要。Wan v2.2 在第 26 位也是公開可用的。隨著越來越多的能力模型發布其權重,無需雲端 API 即可實現的下限不斷提高。我估計開源圖生影片大概處於開源語言模型在 2024 年年中的水平——落後前沿約 12 個月,但正在迅速追趕。到 2026 年底,我預計開放權重 I2V 模型將通過競爭對手的中層商業產品,從根本上改變企業團隊「自建還是購買」的計算。
選擇合適的工具
場景化推薦
電影感 + 音訊
Veo 3.1 Audio — 同步的聲音提升了每一幀。無可匹敵。
原始動畫品質
Grok Imagine Video 720p — 新的第一名,卓越的時間連貫性和運動保真度。
藝術風格保留
Wan 2.5 I2V — 將畫作作為畫作動畫化,而不是照片級渲染。
運鏡編排
Seedance v1.5 Pro — 領域內最佳的推拉、平移、軌道和搖臂運動。
角色動畫
Kling 2.6 Pro — 面部一致性和流暢的身體運動動力學。
快速起草
Hailuo 02 Fast — 在致力於最終渲染之前快速迭代概念。
3D 感知動畫
Luma AI Ray 3 — 用於產品照和建築場景的深度推斷。
本地部署 / 開放權重
LTX-2-19b — 當數據不能離開你的基礎設施時的自託管選擇。
2026 年真正的技能不是掌握一個模型,而是知道該用哪個工具。 當片段需要音訊時,我用 Veo。當純粹的動畫保真度最重要時,用 Grok。當源素材是藝術作品時,用 Wan。當攝影機必須移動時,用 Seedance。當我需要在一小時內獲得十個變體時,用 Hailuo。我今年建立的最好的圖生影片工作流將這些模型視為管弦樂隊中的樂器,而不是彼此的替代品。
未來展望
在逐月跟踪這個領域後,以下是我對 2026 年剩餘時間格局走向的看法。
音訊協同生成走向主流。 Google 在 Veo 3 中率先推出了這一功能,它創造的感知品質差距太大,競爭對手無法忽視。我預計至少有兩家其他供應商——可能是 xAI 和字節跳動——將在第四季度推出整合音訊。一旦發生這種情況,無聲動畫將感覺像是早期時代的產物,就像現在的靜態縮圖與動態預覽相比一樣。
解析度升級加速。 大多數頂級模型目前最高只有 720p。Kling 2.5 Turbo 已經推動了原生 1080p。到年底,1080p 將成為專業層級的標準,我們將看到至少一個實驗室推出的首批 4K 預覽。計算成本將是懲罰性的,但來自廣播和廣告工作流的需求是不可否認的。
xAI 積極擴張。 三週內發布兩個模型——720p 變體一經推出就奪得第一——通過這種方式,它發出了認真投資的訊號。我預計 Grok 會在夏季之前推出更高解析度的變體,甚至可能整合音訊。如果他們在 1080p 下保持這種運動品質,他們將成為無可爭議的領跑者。
Runway 需要一個 Gen5 時刻。 Runway Gen4 Turbo 排名第 30,對於這家基本開創了商業 AI 影片類別的公司來說,這是一個艱難的位置。他們的創意工具和用戶體驗仍然是一流的,但底層模型需要代際飛躍。如果 Gen5 不能在 2026 年中期以進入前 10 名的品質發布,Runway 可能會變成一家定義了市場然後看著別人贏得市場的公司。
開源縮小差距。 LTX-2 證明了開放權重今天就可以產生可行的圖生影片結果。下一波浪潮——可能是 Wan 3 或 LTX-3——將進入與中層商業模型相抗衡的領域。對於構建沒有外部 API 依賴的專有管道的企業團隊來說,這是最重要的趨勢。
缺席的玩家。 Meta、Apple 和 Amazon 在這個排行榜上仍然明顯缺席。Meta 的影片研究出版物表明其能力可以在頂級層級競爭,但他們尚未推出面向公眾的 I2V 產品。一旦 Meta 進入——特別是如果他們像對待語言模型的 Llama 那樣發布開放權重模型——整個競爭格局將在一夜之間重新洗牌。
數據來源:排名來自 競技場圖生影片排行榜 (Arena Image-to-Video Leaderboard),2026 年 2 月 5 日。
討論
0 條評論留下評論
成為第一個分享您想法的人!