一张静图,三十一种未来。你选择的 AI 决定了哪种现实将会展开。
几个月来,我一直在用同一套测试图库——人像、风景、产品图、油画、建筑渲染图——喂给榜单上的每一个模型。有些把照片变成了电影,有些则生成了带动态模糊的幻灯片。本月的大新闻不是渐进式的进步,而是政权更迭。xAI 的 Grok Imagine Video 拿下了第一名,将谷歌此前不可撼动的 Veo 3.1 Audio 推到了第二位。与此同时,参赛模型从 27 个扩展到了 31 个,生数科技的 Vidu 实现了代际飞跃升至第五,来自 Lightricks 的开源选手证明了即使没有云 API 也能制作动画。这就是 2026 年 2 月的 图生视频竞技场 (Image-to-Video Arena)。
完整排行榜 — 31 款模型排名
以下每一个排名都源自 Arena 平台上真实用户的盲测对比。没有精心挑选的樱桃,没有营销演示。我已将每个模型链接到其官方文档,以便您直接测试。
| 排名 | 模型 | 得分 | 票数 | 机构 |
|---|---|---|---|---|
🥇 | Grok Imagine Video 720p | 1400 | — | xAI |
🥈 | Veo 3.1 Audio | 1395 | 23,432 | |
🥉 | Veo 3.1 Fast Audio | 1382 | 30,039 | |
#4 | Grok Imagine Video 480p | 1381 | 19,582 | xAI |
#5 | Vidu Q3 Pro | 1362 | 11,270 | Shengshu |
#6 | Wan2.5 I2v Preview | 1339 | 12,039 | Alibaba |
#7 | Veo 3 Audio | 1331 | 34,546 | |
#8 | Veo 3 Fast Audio | 1322 | 43,912 | |
#9 | Seedance V1.5 Pro | 1303 | 39,229 | Bytedance |
#10 | Kling 2.6 Pro | 1291 | 30,845 | KlingAI |
#11 | Seedance V1 Pro | 1272 | 36,475 | Bytedance |
#12 | Kling 2.5 Turbo 1080p | 1272 | 3,873 | KlingAI |
#13 | Veo 3 Fast | 1256 | 27,874 | |
#14 | Hailuo 2.3 | 1254 | 36,884 | MiniMax |
#15 | Veo 3 | 1254 | 27,736 | |
#16 | Vidu Q2 Turbo | 1244 | 2,481 | Shengshu |
#17 | Kling V2.1 Master | 1232 | 32,254 | KlingAI |
#18 | Hailuo 02 Pro | 1228 | 23,839 | MiniMax |
#19 | Kling V2.1 Standard | 1225 | 32,258 | KlingAI |
#20 | Vidu Q2 Pro | 1224 | 2,566 | Shengshu |
#21 | Hailuo 02 Standard | 1222 | 23,651 | MiniMax |
#22 | Ray 3 | 1222 | 1,580 | Luma AI |
#23 | Hailuo 02 Fast | 1194 | 24,578 | MiniMax |
#24 | Hunyuan Video 1.5 | 1193 | 5,429 | Tencent |
#25 | Seedance V1 Lite | 1183 | 36,129 | Bytedance |
#26 | Wan V2.2 A14b | 1167 | 29,450 | Alibaba |
#27 | Veo 2 | 1164 | 11,536 | |
#28 | Ltx 2 19b | 1111 | 22,315 | lightricks |
#29 | Ray2 | 1105 | 10,828 | Luma AI |
#30 | Runway Gen4 Turbo | 1047 | 7,506 | Runway |
#31 | Pika V2.2 | 994 | — | Pika |
xAI 的颠覆
没人预料到这一幕。三周前我上次更新这个排行榜时,谷歌还稳坐第一和第二,无人挑战。关于 xAI 进入图生视频领域没有任何风声。然后 Grok Imagine Video 出现了——不是一个版本,而是两个——720p 模型直接在盲测中登顶。
我一直在用我的标准测试套件运行 Grok,最引人注目的是时间连贯性 (temporal coherence)。给它一张肖像,人物不会在动画中途变形。头发的物理效果在帧与帧之间保持一致。眼睛的转动方向随头部转动自然变化。我测试了一个最难的输入——一个中景镜头,人物转头时风吹动围巾——Grok 在整个片段中保持了所有细节。大多数模型会在转头时丢失围巾的图案或扭曲脸部。Grok 处理得非常稳定,这种稳定性我之前只在 Veo 最好的渲染中见过。
这里的战略布局揭示了 xAI 的路径。他们同时发布了两个分辨率层级:排名第一的 720p 和排名第四的 480p。480p 变体已经积累了大量的竞技场对比数据,并稳居前列。这意味着 xAI 的运动架构从根本上就是强大的——在分辨率缩放介入之前,质量就已经显现。如果他们能推到原生 1080p 并保持这种时间保真度,那么谷歌的音频集成将成为 Veo 争夺王座的唯一差异化优势。
观察重点: Grok 的 720p 模型仍处于早期竞技场阶段,比较数据有限。随着成千上万次对比数据的涌入,那个第一名的排名要么会巩固——确认模型在多样化输入下的实力——要么会随着边缘案例暴露弱点而调整。无论如何,xAI 已经开启了一场三线战争:他们的运动保真度 vs 谷歌的音频集成 vs 中国生态系统的极速迭代。图生视频的竞争刚刚变得更加有趣了。
谷歌:虽败犹荣
失去第一名并不意味着谷歌输掉了战争。他们仍然占据了 31 个席位中的 7 个——比任何其他机构都多。排名第二的 Veo 3.1 Audio 和排名第三的 Veo 3.1 Fast Audio 依然强大。Veo 3 Audio 变体占据第 7 和第 8 位。无音频的 Veo 3 引擎位于第 13 和第 15 位。而老旧的 Veo 2 坚守在第 27 位。
谷歌持久的优势在于一种竞争对手尚未复制的能力:同步音频生成。当我用 Veo 3.1 制作一个咖啡馆场景动画时,我能听到浓缩咖啡机的嘶嘶声、杯子的碰撞声、环境对话声——所有这些都与视觉动作精确同步。一张海滩照片会配上与泡沫周期匹配的海浪撞击声。一条森林小径会伴随着随虚拟摄像机位置移动的鸟鸣声。这不是后期叠加的音频;它是在视频生成的同一个前向传递中共同生成的。根据我的经验,匹配的音频能极大地提升感知质量——当你的大脑听到动作时,它会更相信看到的动作。
但 Veo 2 坐在第 27 位讲述了一个关于淘汰速度的清醒故事。十二个月前,Veo 2 是 I2V 的黄金标准。现在它的排名已被 26 个模型超越,其中包括几家一年前还没有视频产品的公司的模型。这个领域的每一代产品都是以月为单位老化的,而不是年,谷歌自己的新模型让 Veo 2 感觉像是遗留的基础设施。这种快速的内部蚕食既是谷歌最大的优势,也是其最昂贵的承诺——他们必须不断出货才能保持领先于自己。
音频护城河是真实的,但正在缩小。 我预计至少有两家其他提供商将在 2026 年第四季度之前推出原生音视频协同生成功能。一旦发生这种情况,谷歌的差异化将从功能独占性转向执行质量。战略问题是 Veo 4 是否能在竞争对手完全缩小差距之前到来。
东方力量
如果你只关注前三名,你会错过结构性的故事。中国 AI 公司在榜单上总共占据了 31 个席位中的 17 个——超过了整个排行榜的一半。这不是一个小众的存在。这是中高层级的生态系统级统治,对于任何围绕图生视频生成构建生产管道的人来说,这都有直接的影响。
生数科技 (Shengshu):代际飞跃
排名第 5 的 Vidu Q3 Pro 是我建议你最密切关注的模型。生数科技的 Q2 一代——Q2 Turbo 和 Q2 Pro——分别位于第 16 和第 20 位。值得尊敬,但并不突出。向 Q3 的飞跃不是渐进式的;它是架构性的。在我的测试中,Q3 Pro 处理多主体场景的精度是其前代无法比拟的。两个朝相反方向走的人?Q2 模型会在第 30 帧左右开始合并他们的轮廓。Q3 Pro 在整个序列中保持他们的清晰区分。对于人像动画,它保留皮肤纹理和微表情的方式感觉是有机的,而不是合成的。如果生数科技保持这种代际改进速度,Q4 模型可能会在 2026 年底挑战前三名。
字节跳动 (Bytedance):运镜专家
排名第 9 的 Seedance v1.5 Pro 已经成为我处理复杂运镜编排的首选——推拉镜头、轨道平移、摇臂到手持的过渡。当动画需要有意的摄像机运动而不是静态漂移时,Seedance 能够胜任。Seedance v1 Pro (第 11 名) 仍然是标准动画任务的可靠主力,而 v1 Lite (第 25 名) 是在速度重于极致质量时的选择。字节跳动的三层策略为你提供了一个完整的管道:Lite 用于实验,v1 Pro 用于稳定输出,v1.5 Pro 用于主镜头。
快手 (KlingAI):四层级,一个生态
Kling 2.6 Pro (#10), Kling 2.5 Turbo 1080p (#12), v2.1 Master (#17), v2.1 Standard (#19) —— 四个模型跨越不同的价格和能力层级。Kling 2.6 Pro 是角色动画的佼佼者:流畅的身体运动和面部一致性,我在前四名之外没见过能与之匹敌的。Kling 2.5 Turbo 1080p 值得注意的是在快速渲染层级中的原生高分辨率——当你的交付格式要求像素数量而你又无法承担放大步骤的成本时,这个模型能节省时间和金钱。
MiniMax, 阿里巴巴, 腾讯, 和 Luma AI
MiniMax 的 Hailuo (海螺) 家族占据了四个席位 (#14, #18, #21, #23),涵盖了专业到快速层级——这是我在去其他地方进行昂贵渲染之前,用于快速起草的迭代机器。阿里巴巴的 Wan 2.5 I2V 在第 6 位,当艺术风格保留是不可协商时,它仍然是最佳选择:给它一幅水彩画,它会像水彩画一样制作动画,而不是像照片写实主义的重新诠释。腾讯的 Hunyuan (混元) Video 1.5 在第 24 位,以每个周期安静、稳定的改进完善了中国选手的名单。
Luma AI 的 Ray 3 在第 22 位,值得特别提及的是3D 感知动画。给它一个产品照或建筑渲染图,它能推断深度,生成尊重三维结构的摄像机运动——前景物体的视差,背景的正确遮挡。对于电子商务产品视频和房地产可视化,Ray 3 是一个值得了解的专家。他们较旧的 Ray 2 在第 29 位,显示了即使在一家公司内部,代际差距也已经拉大到了什么程度。
开源信号
来自 Lightricks 的 LTX-2-19b 排名第 28,对于特定受众来说,这是榜单上最重要的条目:那些不能将专有图像发送到外部 API 的团队。这个 190 亿参数的模型在 HuggingFace 上提供开放权重,可在本地运行。LTX-2 与前 10 名之间的质量差距是真实的——你会在细节和时间稳定性上注意到这一点。但对于数据隐私不可协商的工作流——医疗影像、未发布的产品设计、机密建筑图纸——LTX-2 目前是图生视频生成中最强的开放权重选项。
更广泛的轨迹很重要。Wan v2.2 在第 26 位也是公开可用的。随着越来越多的能力模型发布其权重,无需云 API 即可实现的下限不断提高。我估计开源图生视频大概处于开源语言模型在 2024 年年中的水平——落后前沿约 12 个月,但正在迅速追赶。到 2026 年底,我预计开放权重 I2V 模型将通过竞争对手的中层商业产品,从根本上改变企业团队“自建还是购买”的计算。
选择合适的工具
场景化推荐
电影感 + 音频
Veo 3.1 Audio — 同步的声音提升了每一帧。无可匹敌。
原始动画质量
Grok Imagine Video 720p — 新的第一名,卓越的时间连贯性和运动保真度。
艺术风格保留
Wan 2.5 I2V — 将画作作为画作动画化,而不是照片级渲染。
运镜编排
Seedance v1.5 Pro — 领域内最佳的推拉、平移、轨道和摇臂运动。
角色动画
Kling 2.6 Pro — 面部一致性和流畅的身体运动动力学。
快速起草
Hailuo 02 Fast — 在致力于最终渲染之前快速迭代概念。
3D 感知动画
Luma AI Ray 3 — 用于产品照和建筑场景的深度推断。
本地部署 / 开放权重
LTX-2-19b — 当数据不能离开你的基础设施时的自托管选择。
2026 年真正的技能不是掌握一个模型,而是知道该用哪个工具。 当片段需要音频时,我用 Veo。当纯粹的动画保真度最重要时,用 Grok。当源素材是艺术作品时,用 Wan。当摄像机必须移动时,用 Seedance。当我需要在一小时内获得十个变体时,用 Hailuo。我今年建立的最好的图生视频工作流将这些模型视为管弦乐队中的乐器,而不是彼此的替代品。
未来展望
在逐月跟踪这个领域后,以下是我对 2026 年剩余时间格局走向的看法。
音频协同生成走向主流。 谷歌在 Veo 3 中率先推出了这一功能,它创造的感知质量差距太大,竞争对手无法忽视。我预计至少有两家其他供应商——可能是 xAI 和字节跳动——将在第四季度推出集成音频。一旦发生这种情况,无声动画将感觉像是早期时代的产物,就像现在的静态缩略图与动态预览相比一样。
分辨率升级加速。 大多数顶级模型目前最高只有 720p。Kling 2.5 Turbo 已经推动了原生 1080p。到年底,1080p 将成为专业层级的标准,我们将看到至少一个实验室推出的首批 4K 预览。计算成本将是惩罚性的,但来自广播和广告工作流的需求是不可否认的。
xAI 积极扩张。 三周内发布两个模型——720p 变体一经推出就夺得第一——通过这种方式,它发出了认真投资的信号。我预计 Grok 会在夏季之前推出更高分辨率的变体,甚至可能集成音频。如果他们在 1080p 下保持这种运动质量,他们将成为无可争议的领跑者。
Runway 需要一个 Gen5 时刻。 Runway Gen4 Turbo 排名第 30,对于这家基本开创了商业 AI 视频类别的公司来说,这是一个艰难的位置。他们的创意工具和用户体验仍然是一流的,但底层模型需要代际飞跃。如果 Gen5 不能在 2026 年中期以进入前 10 名的质量发布,Runway 可能会变成一家定义了市场然后看着别人赢得市场的公司。
开源缩小差距。 LTX-2 证明了开放权重今天就可以产生可行的图生视频结果。下一波浪潮——可能是 Wan 3 或 LTX-3——将进入与中层商业模型相抗衡的领域。对于构建没有外部 API 依赖的专有管道的企业团队来说,这是最重要的趋势。
缺席的玩家。 Meta、Apple 和 Amazon 在这个排行榜上仍然明显缺席。Meta 的视频研究出版物表明其能力可以在顶级层级竞争,但他们尚未推出面向公众的 I2V 产品。一旦 Meta 进入——特别是如果他们像对待语言模型的 Llama 那样发布开放权重模型——整个竞争格局将在一夜之间重新洗牌。
数据来源:排名来自 竞技场图生视频排行榜 (Arena Image-to-Video Leaderboard),2026 年 2 月 5 日。
讨论
0 条评论留下评论
成为第一个分享您想法的人!