1枚の静止画。31の異なる未来。あなたがアニメーション化するために選ぶAIが、どの現実が展開されるかを決定します。
私は何ヶ月もの間、同じテスト画像ポートフォリオ — ポートレート、風景、製品ショット、油絵、建築レンダリング — をこのボード上のすべてのモデルに投入し続けてきました。あるものは写真を映画に変えます。またあるものは、モーションブラーのあるスライドショーを作成します。今月の大きなニュースは、漸進的な進歩ではありません。それは政権交代です。xAIのGrok Imagine Videoが1位を獲得し、以前は触れることのできなかったGoogleのVeo 3.1 Audioを2位に押しやりました。一方、フィールドは27から31モデルに拡大し、ShengshuのViduは5位への世代的な飛躍を遂げ、Lightricksからのオープンソースエントリーは、画像をアニメーション化するためにクラウドAPIがもはや必要ないことを証明しました。これは2026年2月のImage-to-Videoアリーナ (Image-to-Video Arena)です。
完全なリーダーボード — 31のランク付けされたモデル
以下のすべてのランキングは、Arenaプラットフォーム上で実際のユーザーによって実行されたブラインド対決比較に基づいています。厳選されたチェリーピッキングや、マーケティングデモはありません。各モデルを公式ドキュメントにリンクしたので、直接テストすることができます。
| 順位 | モデル | スコア | 投票数 | 組織 |
|---|---|---|---|---|
🥇 | Grok Imagine Video 720p | 1400 | — | xAI |
🥈 | Veo 3.1 Audio | 1395 | 23,432 | |
🥉 | Veo 3.1 Fast Audio | 1382 | 30,039 | |
#4 | Grok Imagine Video 480p | 1381 | 19,582 | xAI |
#5 | Vidu Q3 Pro | 1362 | 11,270 | Shengshu |
#6 | Wan2.5 I2v Preview | 1339 | 12,039 | Alibaba |
#7 | Veo 3 Audio | 1331 | 34,546 | |
#8 | Veo 3 Fast Audio | 1322 | 43,912 | |
#9 | Seedance V1.5 Pro | 1303 | 39,229 | Bytedance |
#10 | Kling 2.6 Pro | 1291 | 30,845 | KlingAI |
#11 | Seedance V1 Pro | 1272 | 36,475 | Bytedance |
#12 | Kling 2.5 Turbo 1080p | 1272 | 3,873 | KlingAI |
#13 | Veo 3 Fast | 1256 | 27,874 | |
#14 | Hailuo 2.3 | 1254 | 36,884 | MiniMax |
#15 | Veo 3 | 1254 | 27,736 | |
#16 | Vidu Q2 Turbo | 1244 | 2,481 | Shengshu |
#17 | Kling V2.1 Master | 1232 | 32,254 | KlingAI |
#18 | Hailuo 02 Pro | 1228 | 23,839 | MiniMax |
#19 | Kling V2.1 Standard | 1225 | 32,258 | KlingAI |
#20 | Vidu Q2 Pro | 1224 | 2,566 | Shengshu |
#21 | Hailuo 02 Standard | 1222 | 23,651 | MiniMax |
#22 | Ray 3 | 1222 | 1,580 | Luma AI |
#23 | Hailuo 02 Fast | 1194 | 24,578 | MiniMax |
#24 | Hunyuan Video 1.5 | 1193 | 5,429 | Tencent |
#25 | Seedance V1 Lite | 1183 | 36,129 | Bytedance |
#26 | Wan V2.2 A14b | 1167 | 29,450 | Alibaba |
#27 | Veo 2 | 1164 | 11,536 | |
#28 | Ltx 2 19b | 1111 | 22,315 | lightricks |
#29 | Ray2 | 1105 | 10,828 | Luma AI |
#30 | Runway Gen4 Turbo | 1047 | 7,506 | Runway |
#31 | Pika V2.2 | 994 | — | Pika |
xAIの破壊的革新
誰もこれを予想していませんでした。私が3週間前にこのリーダーボードを最後に更新したとき、Googleは1位と2位の両方を独占していました。xAIが画像から動画への領域に参入するという公の噂はありませんでした。その後、Grok Imagine Videoが登場しました — 1つのバリエーションではなく、2つ — そして720pモデルはブラインド比較のトップに直行しました。
私はGrokを標準テストスイートに対して実行してきましたが、すぐに際立ったのは時間的一貫性 (temporal coherence)です。ポートレートを与えると、被写体はアニメーションの途中で変形しません。髪の物理挙動はフレームごとに一貫性を保ちます。目の方向は頭の回転を自然に追跡します。私は最も難しい入力の1つ — 風がスカーフを捉えている間に頭を回す人のミディアムショット — をテストしましたが、Grokはクリップ全体を通してすべての詳細を保持しました。ほとんどのモデルは、回転中にスカーフのパターンを失うか、顔を歪めます。Grokは、私がVeoの最高のレンダリングでしか見たことのない安定性でそれを処理しました。
ここでの戦略的な動きは、xAIのアプローチについて多くを語っています。彼らは2つの解像度層を同時に出荷しました:1位の720pと4位の480p。480pバリアントはすでにかなりのArena比較を蓄積しており、トップ近くで持ちこたえています。これは、xAIのモーションアーキテクチャが根本的に強力であることを意味します — 品質は解像度のスケーリングが画像に入る前でさえ現れます。もし彼らがこのレベルの時間的忠実度を維持しながらネイティブ1080pにプッシュすれば、Googleのオーディオ統合は、Veoを王座争いに留める唯一の残りの差別化要因になります。
注目すべき点: Grokの720pモデルは、まだ限られた比較データしかない最も初期のArenaフェーズにあります。さらに数千の比較が入ってくるにつれて、その1位のランキングは固まるか — 多様な入力にわたるモデルの強さを確認する — あるいはエッジケースが弱点を明らかにするにつれて調整されるでしょう。いずれにせよ、xAIは3つの戦線を開きました:彼らのモーション忠実度 対 Googleのオーディオ統合 対 中国のエコシステムの容赦ない反復速度。Image-to-Videoレースは劇的に面白くなりました。
Google: 王座を追われるも敗北せず
1位を失ったからといって、Googleが戦争に負けたわけではありません。彼らは依然として31のポジションのうち7つを指揮しています — 他のどの組織よりも多い数です。Veo 3.1 Audioは2位、Veo 3.1 Fast Audioは3位で依然として強力です。Veo 3 Audioバリアントは7位と8位を保持しています。非オーディオのVeo 3エンジンは13位と15位に位置しています。そして、古くなったVeo 2は27位にしがみついています。
Googleの永続的な利点は、競合他社が複製していない機能です:同期されたオーディオ生成。Veo 3.1でカフェのシーンをアニメーション化すると、エスプレッソマシンのシューッという音、カップのカチャカチャいう音、周囲の会話が聞こえます — すべて視覚的な動きに正確にタイミングが合わされています。ビーチの写真は、泡のサイクルに合った砕ける波の音を得ます。森の小道は、仮想カメラの位置によって変化する鳥のさえずりを得ます。これは上に重ねられたポストプロダクションオーディオではありません。ビデオと同じフォワードパスで共同生成されます。私の経験では、一致するオーディオは知覚される品質を劇的に高めます — 脳はそれを聞くと動きをより信頼します。
しかし、27位に座っているVeo 2は、減価償却の速度についての冷静な物語を語っています。12ヶ月前、Veo 2はI2Vのゴールドスタンダードでした。今では26のモデルに抜かれています。その中には、1年前にはビデオ製品を持っていなかった企業のモデルも含まれています。このスペースの各世代は、年単位ではなく月単位で古くなり、Google自身の新しいモデルはVeo 2をレガシーインフラストラクチャのように感じさせました。この急速な内部共食いは、Googleの最大の強みであると同時に、最も高価なコミットメントでもあります — 彼らはただ自分の前に留まるために出荷し続けなければなりません。
オーディオの堀は本物ですが、狭まっています。 私は、少なくとも2つの他のプロバイダーが2026年第4四半期までにネイティブなオーディオ・ビデオ共同生成を出荷すると予想しています。それが起こると、Googleの差別化要因は機能の独占性から実行品質へとシフトします。戦略的な問題は、競合他社がそのギャップを完全に埋める前にVeo 4が到着するかどうかです。
東洋の原動力
トップ3だけを追跡していると、構造的なストーリーを見逃してしまいます。中国のAI企業は、このボード上の31のポジションのうち17をまとめて保持しています — ランキング全体の半分以上です。これはニッチな存在ではありません。それは中層から上層のエコシステムレベルの支配であり、画像から動画への生成を中心に制作パイプラインを構築するすべての人に直接的な影響を与えます。
Shengshu: 世代的な飛躍
5位のVidu Q3 Proは、私が最も注目するように言うモデルです。ShengshuのQ2世代 — Q2 TurboとQ2 Pro — は16位と20位に位置しています。立派ですが、目立ちません。Q3へのジャンプは漸進的ではありません。それはアーキテクチャ的です。私のテストでは、Q3 Proは前任者が匹敵できなかった精度で複数被写体のシーンを処理します。反対方向に歩く2人?Q2モデルはフレーム30あたりで輪郭を融合し始めました。Q3 Proはシーケンス全体を通してそれらを明確に保ちます。ポートレートアニメーションでは、合成ではなく有機的に感じる方法で肌の質感と微細な表情を保持します。もしShengshuがこの世代的な改善率を維持すれば、Q4モデルは2026年後半までにトップ3に挑戦する可能性があります。
Bytedance: カメラのスペシャリスト
9位のSeedance v1.5 Proは、複雑なカメラの振り付け — ドリーショット、軌道パン、クレーンから手持ちへの移行 — における私の頼れる存在になりました。アニメーションが漂う静的なフレームではなく、意図的なカメラの動きを要求するとき、Seedanceは期待に応えます。11位のSeedance v1 Proは標準的なアニメーションタスクの信頼できる主力であり続け、25位のv1 Liteは、最高品質よりも速度が重要な場合の選択肢です。Bytedanceの3層戦略は、完全なパイプラインを提供します:実験用のLite、堅実な出力用のv1 Pro、ヒーローショット用のv1.5 Pro。
KlingAI: 4つの層、1つのエコシステム
Kling 2.6 Pro (10位)、Kling 2.5 Turbo 1080p (12位)、v2.1 Master (17位)、v2.1 Standard (19位) — さまざまな価格と機能の層にまたがる4つのモデル。Kling 2.6 Proはキャラクターアニメーションで際立っています:トップ4以外では匹敵するものを見たことがない顔の一貫性を伴う流動的な身体の動き。Kling 2.5 Turbo 1080pは、高速レンダリング層でのネイティブ高解像度で注目に値します — 配信フォーマットがピクセル数を要求し、アップスケールのステップを支払う余裕がない場合、このモデルは時間とお金を節約します。
MiniMax、Alibaba、Tencent、そしてLuma AI
MiniMaxのHailuoファミリーは4つのスポット (14位、18位、21位、23位) を占め、プロからファスト層まで広がっています — 他で高価なレンダリングにコミットする前の迅速なドラフト作成に私が頼る反復マシンです。6位のAlibabaのWan 2.5 I2Vは、芸術的スタイルの保存が譲れない場合に依然として最良の選択肢です:水彩画を供給すると、フォトリアリスティックな再解釈ではなく、水彩画としてアニメーション化します。24位のTencentのHunyuan Video 1.5は、各サイクルでの静かで着実な改善で中国のロースターを締めくくります。
22位のLuma AIのRay 3は、3D認識アニメーションについて特筆に値します。製品ショットや建築レンダリングを供給すると、深度を推測し、3次元構造を尊重するカメラの動きを生成します — 前景オブジェクトの視差、背景の正しい遮蔽。eコマース製品ビデオや不動産の視覚化において、Ray 3は知っておく価値のあるスペシャリストです。29位の彼らの古いRay 2は、単一の企業内でさえ世代間のギャップがどれだけ広がったかを示しています。
オープンソースのシグナル
28位のLightricksのLTX-2-19bは、特定の視聴者にとってこのリストで最も重要なエントリーです:独自の画像を外部APIに送信できないチーム。HuggingFaceでオープンウェイトとして利用可能なこの190億パラメータのモデルは、オンプレミスで実行されます。LTX-2とトップ10の間の品質格差は本物です — 細部と時間的安定性でそれに気づくでしょう。しかし、データのプライバシーが譲れないワークフロー — 医療画像、未発表の製品デザイン、機密の建築計画 — において、LTX-2は現在、画像から動画への生成のための最も強力なオープンウェイトオプションです。
ここでのより広い軌跡が重要です。26位のWan v2.2もオープンに利用可能です。より有能なモデルがウェイトを公開するにつれて、クラウドAPIなしで達成できることの底上げが続いています。オープンソースの画像から動画への技術は、オープンソースの言語モデルが2024年半ばにあった場所 — フロンティアの約12ヶ月後ろだが、急速に差を縮めている — にあると見積もっています。2026年末までに、オープンウェイトI2Vモデルが中層の商用製品に匹敵し、企業チームの「構築か購入か」の計算を根本的に変えることを期待しています。
適切なツールの選択
ユースケース別の私の推奨事項
シネマティック + オーディオ
Veo 3.1 Audio — すべてのフレームを高める同期されたサウンド。比類なし。
生の動画品質
Grok Imagine Video 720p — 新しい1位、並外れた時間的コヒーレンスとモーション忠実度。
芸術的スタイルの保存
Wan 2.5 I2V — 絵画をフォトリアリスティックなレンダリングではなく、絵画としてアニメーション化します。
カメラの振り付け
Seedance v1.5 Pro — フィールドで最高のドリー、パン、オービタル、クレーンの動き。
キャラクターアニメーション
Kling 2.6 Pro — 顔の一貫性と流動的な身体動作のダイナミクス。
高速ドラフト作成
Hailuo 02 Fast — 最終的なレンダリングにコミットする前にコンセプトを素早く反復。
3D認識アニメーション
Luma AI Ray 3 — 製品ショットや建築シーンの深度推論。
オンプレミス / オープンウェイト
LTX-2-19b — データがインフラストラクチャを離れることができない場合のセルフホスティング。
2026年の真のスキルは、1つのモデルを習得することではなく、どのツールに手を伸ばすべきかを知ることです。 クリップにオーディオが必要なときはVeoを使います。純粋なアニメーションの忠実度が最も重要なときはGrok。ソースが芸術的なときはWan。カメラが動かなければならないときはSeedance。1時間で10のバリエーションが必要なときはHailuo。私が今年構築した最高の画像から動画へのワークフローは、これらのモデルを互いの代替品としてではなく、オーケストラの楽器として扱っています。
次に来るもの
このスペースを毎月追跡してきた結果、2026年の残りの期間に風景がどこに向かうと見ているかを示します。
オーディオ共同生成が主流になります。 GoogleはVeo 3でこれを開拓し、それが生み出す知覚される品質のギャップは、競合他社が無視するには大きすぎます。少なくとも他の2つのプロバイダー — おそらくxAIとBytedance — が第4四半期までに統合オーディオを出荷すると予想しています。それが起こると、静かなアニメーションは、静的なサムネイルが今のアニメーションプレビューと比較して感じるように、以前の時代の遺物のように感じるでしょう。
解像度のエスカレーションが加速します。 ほとんどのトップモデルは現在720pで最大になります。Kling 2.5 Turboはすでにネイティブ1080pを推進しています。年末までに、1080pはプロ層の標準になり、少なくとも1つのラボから最初の4Kプレビューが見られるでしょう。計算コストは厳しいものになりますが、放送および広告ワークフローからの需要は否定できません。
xAIは積極的に拡大します。 3週間で2つのモデル — 720pバリアントが到着時に1位を主張 — は深刻な投資を示しています。夏前にGrokからより高解像度のバリアントとおそらくオーディオ統合が期待されます。もし彼らが1080pでこのモーション品質を維持すれば、彼らは明確なフロントランナーになります。
RunwayにはGen5の瞬間が必要です。 30位のRunway Gen4 Turboは、本質的に商用AIビデオカテゴリを作成した企業にとって困難な立場です。彼らのクリエイティブツールとユーザーエクスペリエンスはクラス最高のままですが、基礎となるモデルには世代的な飛躍が必要です。もしGen5が2026年半ばまでにトップ10品質で出荷されなければ、Runwayは市場を定義し、その後他の全員がそれを勝ち取るのを見守る企業になるリスクがあります。
オープンソースがギャップを縮めます。 LTX-2は、オープンウェイトが今日、実行可能な画像から動画への結果を生み出すことができることを証明しました。次の波 — おそらくWan 3またはLTX-3 — は、中層の商用モデルに匹敵する領域に押し入るでしょう。外部API依存なしで独自のパイプラインを構築する企業チームにとって、これが最も重要なトレンドです。
不在のプレイヤー。 Meta、Apple、Amazonはこのリーダーボードから目立って不在のままです。Metaのビデオ研究出版物は、トップティアで競争できる能力を示唆していますが、彼らは一般向けのI2V製品を出荷していません。Metaが参入する瞬間 — 特に彼らが言語のLlamaで行ったようにオープンウェイトモデルをリリースする場合 — 競争環境全体が一夜にして再編されます。
データソース: ランキングはArena Image-to-Video Leaderboardより、2026年2月5日時点。
ディスカッション
0 コメントコメントを残す
この記事についてご感想をお聞かせください!