صورة ثابتة واحدة. واحد وثلاثون مستقبلاً مختلفاً. الذكاء الاصطناعي الذي تختاره لتحريكها يحدد أي واقع سيتكشف.
لقد قمت بتغذية نفس المحفظة من الصور الاختبارية — صور شخصية، مناظر طبيعية، لقطات منتجات، لوحات زيتية، عروض معمارية — في كل نموذج على هذه اللوحة لعدة أشهر. البعض يحول الصورة الفوتوغرافية إلى سينما. والبعض الآخر ينتج عروض شرائح مع ضبابية الحركة. القصة الكبيرة لهذا الشهر ليست التقدم التدريجي. إنه تغيير في النظام. احتل Grok Imagine Video من xAI المركز الأول، دافعاً Veo 3.1 Audio من جوجل، الذي كان لا يمكن المساس به سابقاً، إلى المركز الثاني. في الوقت نفسه، توسع المجال من 27 إلى 31 نموذجاً، وحقق Vidu من Shengshu قفزة جيلية إلى المركز الخامس، وأثبت دخول مفتوح المصدر من Lightricks أنك لم تعد بحاجة إلى واجهة برمجة تطبيقات سحابية لتحريك الصور. هذه هي ساحة تحويل الصورة إلى فيديو (Image-to-Video Arena)، فبراير 2026.
الترتيب الكامل — 31 نموذجاً مصنفاً
يأتي كل تصنيف أدناه من مقارنات عمياء وجهاً لوجه يتم إجراؤها بواسطة مستخدمين حقيقيين على منصة Arena. لا توجد اختيارات منتقاة بعناية، ولا عروض تسويقية. لقد قمت بربط كل نموذج بوثائقه الرسمية حتى تتمكن من اختبارها مباشرة.
| المركز | النموذج | النتيجة | الأصوات | المؤسسة |
|---|---|---|---|---|
🥇 | Grok Imagine Video 720p | 1400 | — | xAI |
🥈 | Veo 3.1 Audio | 1395 | 23,432 | |
🥉 | Veo 3.1 Fast Audio | 1382 | 30,039 | |
#4 | Grok Imagine Video 480p | 1381 | 19,582 | xAI |
#5 | Vidu Q3 Pro | 1362 | 11,270 | Shengshu |
#6 | Wan2.5 I2v Preview | 1339 | 12,039 | Alibaba |
#7 | Veo 3 Audio | 1331 | 34,546 | |
#8 | Veo 3 Fast Audio | 1322 | 43,912 | |
#9 | Seedance V1.5 Pro | 1303 | 39,229 | Bytedance |
#10 | Kling 2.6 Pro | 1291 | 30,845 | KlingAI |
#11 | Seedance V1 Pro | 1272 | 36,475 | Bytedance |
#12 | Kling 2.5 Turbo 1080p | 1272 | 3,873 | KlingAI |
#13 | Veo 3 Fast | 1256 | 27,874 | |
#14 | Hailuo 2.3 | 1254 | 36,884 | MiniMax |
#15 | Veo 3 | 1254 | 27,736 | |
#16 | Vidu Q2 Turbo | 1244 | 2,481 | Shengshu |
#17 | Kling V2.1 Master | 1232 | 32,254 | KlingAI |
#18 | Hailuo 02 Pro | 1228 | 23,839 | MiniMax |
#19 | Kling V2.1 Standard | 1225 | 32,258 | KlingAI |
#20 | Vidu Q2 Pro | 1224 | 2,566 | Shengshu |
#21 | Hailuo 02 Standard | 1222 | 23,651 | MiniMax |
#22 | Ray 3 | 1222 | 1,580 | Luma AI |
#23 | Hailuo 02 Fast | 1194 | 24,578 | MiniMax |
#24 | Hunyuan Video 1.5 | 1193 | 5,429 | Tencent |
#25 | Seedance V1 Lite | 1183 | 36,129 | Bytedance |
#26 | Wan V2.2 A14b | 1167 | 29,450 | Alibaba |
#27 | Veo 2 | 1164 | 11,536 | |
#28 | Ltx 2 19b | 1111 | 22,315 | lightricks |
#29 | Ray2 | 1105 | 10,828 | Luma AI |
#30 | Runway Gen4 Turbo | 1047 | 7,506 | Runway |
#31 | Pika V2.2 | 994 | — | Pika |
ثورة xAI
لم يتوقع أحد حدوث ذلك. عندما قمت بتحديث لوحة الصدارة هذه لآخر مرة قبل ثلاثة أسابيع، كانت جوجل تحتل المركزين الأول والثاني دون منازع. لم يكن هناك همس علني حول دخول xAI إلى مساحة تحويل الصورة إلى فيديو. ثم ظهر Grok Imagine Video — ليس بمتغير واحد، بل اثنين — وذهب نموذج 720p مباشرة إلى قمة المقارنات العمياء.
لقد كنت أقوم بتشغيل Grok مقابل مجموعة الاختبار القياسية الخاصة بي، وما يبرز على الفور هو الاتساق الزمني (temporal coherence). قم بتغذيته بصورة شخصية ولن يتحول الموضوع في منتصف الرسوم المتحركة. تظل فيزياء الشعر متسقة من إطار إلى إطار. يتبع اتجاه العين حركات الرأس بشكل طبيعي. لقد اختبرت أحد أصعب المدخلات لدي — لقطة متوسطة لشخص يدير رأسه بينما تمسك الرياح بوشاحه — واحتفظ Grok بكل التفاصيل خلال المقطع بأكمله. تفقد معظم النماذج نمط الوشاح أو تشوه الوجه أثناء الدوران. تعامل Grok مع الأمر باستقرار لم أره إلا من أفضل عروض Veo.
اللعب الاستراتيجي هنا يخبرك الكثير عن نهج xAI. لقد قاموا بشحن مستويين من الدقة في وقت واحد: 720p في المركز الأول و 480p في المركز الرابع. لقد جمع متغير 480p بالفعل مقارنات كبيرة في Arena وحافظ على مكانته بالقرب من القمة. هذا يعني أن بنية الحركة في xAI قوية بشكل أساسي — تظهر الجودة حتى قبل أن يدخل تحجيم الدقة في الصورة. إذا دفعوا إلى 1080p الأصلي مع الحفاظ على هذا المستوى من الدقة الزمنية، فإن تكامل الصوت من جوجل يصبح العامل الوحيد المتبقي الذي يبقي Veo في المحادثة من أجل التاج.
ما يجب مراقبته: لا يزال نموذج Grok بدقة 720p في مرحلة Arena المبكرة مع بيانات مقارنة محدودة. مع تدفق آلاف المقارنات الأخرى، فإن تصنيف المركز الأول إما سيتماسك — مما يؤكد قوة النموذج عبر مدخلات متنوعة — أو سيتعدل مع كشف الحالات الحرجة لنقاط الضعف. وفي كلتا الحالتين، فتحت xAI حرباً على ثلاث جبهات: دقة حركتها مقابل تكامل الصوت من جوجل مقابل سرعة التكرار التي لا هوادة فيها للنظام البيئي الصيني. أصبح سباق تحويل الصورة إلى فيديو أكثر إثارة للاهتمام بشكل كبير.
جوجل: أزيحت عن العرش لكن لم تهزم
فقدان المركز الأول لا يعني أن جوجل خسرت الحرب. لا يزالون يسيطرون على سبعة من أصل 31 مركزاً — أكثر من أي منظمة أخرى. لا يزال Veo 3.1 Audio في المركز الثاني و Veo 3.1 Fast Audio في المركز الثالث هائلين. تحتل متغيرات Veo 3 Audio المركزين السابع والثامن. وتستقر محركات Veo 3 غير الصوتية في المركزين 13 و 15. ويتمسك Veo 2 القديم بالمركز 27.
ميزة جوجل الدائمة هي قدرة لم يكررها أي منافس: توليد الصوت المتزامن. عندما أقوم بتحريك مشهد مقهى باستخدام Veo 3.1، أسمع آلات الإسبريسو وهي تصدر صفيراً، وفناجين تقرع، ومحادثات محيطة — وكلها موقوتة بدقة مع الحركة المرئية. تحصل صورة الشاطئ على أمواج متلاطمة تتناسب مع دورة الرغوة. يحصل مسار الغابة على تغريد الطيور الذي يتغير مع موقع الكاميرا الافتراضية. هذا ليس صوتاً ما بعد الإنتاج يتم وضعه في طبقات في الأعلى؛ يتم إنشاؤه بشكل مشترك في نفس المسار الأمامي للفيديو. في تجربتي، يرفع الصوت المطابق الجودة المدركة بشكل كبير — يثق عقلك في الحركة أكثر عندما يسمعها.
لكن جلوس Veo 2 في المركز 27 يروي قصة واقعية عن سرعة التقادم. قبل اثني عشر شهراً، كان Veo 2 هو المعيار الذهبي لـ I2V. الآن تفوق عليه ستة وعشرون نموذجاً، بما في ذلك العديد من النماذج من الشركات التي لم تكن لديها منتجات فيديو قبل عام. كل جيل في هذا الفضاء يتقدم في العمر بالأشهر، وليس بالسنوات، وقد جعلت نماذج جوجل الأحدث Veo 2 يبدو وكأنه بنية تحتية قديمة. هذا الافتراس الداخلي السريع هو أعظم قوة لجوجل وأكثر التزاماتها تكلفة — عليهم الاستمرار في الشحن لمجرد البقاء في المقدمة على أنفسهم.
خندق الصوت حقيقي، لكنه يضيق. أتوقع أن يقوم مزودان آخران على الأقل بشحن التوليد المشترك الأصلي للصوت والفيديو بحلول الربع الرابع من عام 2026. بمجرد حدوث ذلك، يتحول عامل التمييز لدى جوجل من حصرية الميزات إلى جودة التنفيذ. السؤال الاستراتيجي هو ما إذا كان Veo 4 سيصل قبل أن يغلق المنافسون هذه الفجوة تماماً.
القوة الشرقية
إذا كنت تتبع الثلاثة الأوائل فقط، فأنت تفقد القصة الهيكلية. تحتل شركات الذكاء الاصطناعي الصينية مجتمعة سبعة عشر مركزاً من أصل 31 على هذه اللوحة — أي أكثر من نصف الترتيب بالكامل. هذا ليس وجوداً متخصصاً. إنها هيمنة على مستوى النظام البيئي من الطبقة المتوسطة إلى العليا، ولها آثار مباشرة على أي شخص يقوم ببناء خط إنتاج حول توليد الصور إلى فيديو.
Shengshu: القفزة الجيلية
Vidu Q3 Pro في المركز الخامس هو النموذج الذي سأخبرك أن تولي اهتماماً وثيقاً به. جيل Q2 من Shengshu — Q2 Turbo و Q2 Pro — يقع في المركزين 16 و 20. محترم، لكنه غير ملحوظ. القفزة إلى Q3 ليست تدريجية؛ إنها معمارية. في اختباري، يتعامل Q3 Pro مع المشاهد متعددة الموضوعات بدقة لم يستطع سابقوه مطابقتها. شخصان يسيران في اتجاهين متعاكسين؟ ستبدأ نماذج Q2 في دمج معالمهما بحلول الإطار 30. يبقيهما Q3 Pro متميزين خلال التسلسل بأكمله. بالنسبة للرسوم المتحركة للصور الشخصية، فإنه يحافظ على قوام الجلد والتعبيرات الدقيقة بطريقة تبدو عضوية وليست اصطناعية. إذا حافظت Shengshu على هذا المعدل من التحسن الجيلي، فقد يتحدى نموذج Q4 الثلاثة الأوائل بحلول أواخر عام 2026.
Bytedance: متخصص الكاميرا
أصبح Seedance v1.5 Pro في المركز التاسع هو خياري المفضل لتصميم رقصات الكاميرا المعقدة — لقطات دوللي، والتحريك المداري، والانتقالات من الرافعة إلى المحمولة باليد. عندما تتطلب الرسوم المتحركة حركة كاميرا مقصودة بدلاً من إطار ثابت ينجرف، فإن Seedance يفي بالغرض. يظل Seedance v1 Pro في المركز 11 عملاً موثوقاً لمهام الرسوم المتحركة القياسية، و v1 Lite في المركز 25 هو الخيار عندما تكون السرعة أهم من ذروة الجودة. تمنحك استراتيجية المستويات الثلاثة من Bytedance خطاً كاملاً: Lite للتجريب، و v1 Pro للإخراج القوي، و v1.5 Pro للقطة البطل.
KlingAI: أربعة مستويات، نظام بيئي واحد
Kling 2.6 Pro (#10)، Kling 2.5 Turbo 1080p (#12)، v2.1 Master (#17)، v2.1 Standard (#19) — أربعة نماذج تغطي مستويات مختلفة من الأسعار والقدرات. Kling 2.6 Pro هو النموذج البارز لتحريك الشخصيات: حركة جسم سلسة مع اتساق في الوجه لم أره مطابقاً خارج المراكز الأربعة الأولى. Kling 2.5 Turbo 1080p ملحوظ للدقة العالية الأصلية في مستوى عرض سريع — عندما يتطلب تنسيق التسليم الخاص بك عدد بكسلات ولا يمكنك تحمل خطوة رفع الدقة، فإن هذا النموذج يوفر الوقت والمال.
MiniMax و Alibaba و Tencent و Luma AI
تحتل عائلة Hailuo من MiniMax أربعة مراكز (#14، #18، #21، #23) تغطي مستويات المحترفين إلى السرعة — آلة التكرار التي أعتمد عليها للصياغة السريعة قبل الالتزام بتقديم مكلف في مكان آخر. يظل Wan 2.5 I2V من Alibaba في المركز السادس الخيار الأفضل عندما يكون الحفاظ على النمط الفني غير قابل للتفاوض: قم بتغذيته بلوحة مائية وسيقوم بتحريكها كألوان مائية، وليس كإعادة تفسير واقعية. يكمل Hunyuan Video 1.5 من Tencent في المركز 24 القائمة الصينية بتحسين هادئ وثابت في كل دورة.
يستحق Ray 3 من Luma AI في المركز 22 ذكراً خاصاً للرسوم المتحركة المدركة للأبعاد الثلاثة. قم بتغذيته بلقطة منتج أو عرض معماري وسيستنتج العمق، ويولد حركة كاميرا تحترم البنية ثلاثية الأبعاد — المنظر على كائنات المقدمة، والانسداد الصحيح على الخلفيات. بالنسبة لمقاطع فيديو منتجات التجارة الإلكترونية والتصور العقاري، فإن Ray 3 متخصص يستحق المعرفة. يظهر Ray 2 الأقدم في المركز 29 مدى اتساع الفجوة الجيلية حتى داخل شركة واحدة.
إشارة المصادر المفتوحة
يعد LTX-2-19b من Lightricks في المركز 28 أهم إدخال في هذه القائمة لجمهور محدد: الفرق التي لا يمكنها إرسال صور مملوكة لواجهات برمجة تطبيقات خارجية. يتوفر هذا النموذج ذو الـ 19 مليار معلمة على HuggingFace بأوزان مفتوحة، ويعمل محلياً. فجوة الجودة بين LTX-2 وأفضل 10 حقيقية — ستلاحظ ذلك في التفاصيل الدقيقة والاستقرار الزمني. ولكن بالنسبة لسير العمل حيث تكون خصوصية البيانات غير قابلة للتفاوض — الصور الطبية، تصميمات المنتجات غير المنشورة، الخطط المعمارية السرية — فإن LTX-2 هو حالياً أقوى خيار مفتوح الوزن لتوليد الفيديو من الصور.
المسار الأوسع مهم هنا. Wan v2.2 في المركز 26 متاح أيضاً بشكل مفتوح. مع إطلاق المزيد من النماذج القادرة لأوزانها، يستمر الحد الأدنى لما يمكن تحقيقه بدون واجهة برمجة تطبيقات سحابية في الارتفاع. أقدر أن تحويل الصورة إلى فيديو مفتوح المصدر هو تقريباً حيث كانت نماذج اللغة مفتوحة المصدر في منتصف عام 2024 — حوالي اثني عشر شهراً خلف الحدود، لكنها تغلق الفجوة بسرعة. بحلول أواخر عام 2026، أتوقع أن تنافس نماذج I2V مفتوحة الوزن العروض التجارية متوسطة المستوى، مما يغير بشكل جذري حسابات البناء مقابل الشراء لفرق المؤسسات.
اختيار الأداة المناسبة
توصياتي حسب حالة الاستخدام
سينمائي + صوت
Veo 3.1 Audio — صوت متزامن يرفع كل إطار. لا مثيل له.
جودة رسوم متحركة خام
Grok Imagine Video 720p — المركز الأول الجديد، اتساق زمني استثنائي ودقة حركة.
الحفاظ على النمط الفني
Wan 2.5 I2V — يحرك اللوحات كلوحات، وليس كعروض واقعية.
تصميم رقصات الكاميرا
Seedance v1.5 Pro — أفضل حركة دوللي، وتحريك، ومداري، ورافعة في الميدان.
تحريك الشخصيات
Kling 2.6 Pro — اتساق الوجه وديناميكيات حركة الجسم السائلة.
صياغة سريعة
Hailuo 02 Fast — تكرار المفاهيم بسرعة قبل الالتزام بتقديم نهائي.
رسوم متحركة مدركة للأبعاد الثلاثة
Luma AI Ray 3 — استنتاج العمق لصور المنتجات والمشاهد المعمارية.
محلي / أوزان مفتوحة
LTX-2-19b — استضافة ذاتية عندما لا يمكن للبيانات مغادرة بنيتك التحتية.
المهارة الحقيقية في عام 2026 ليست إتقان نموذج واحد — بل معرفة الأداة التي يجب الوصول إليها. أستخدم Veo عندما يحتاج المقطع إلى صوت. و Grok عندما تكون دقة الرسوم المتحركة النقية هي الأكثر أهمية. و Wan عندما يكون المصدر فنياً. و Seedance عندما يتعين على الكاميرا التحرك. و Hailuo عندما أحتاج إلى عشرة متغيرات في الساعة. تتعامل أفضل سير عمل لتحويل الصور إلى فيديو قمت ببنائها هذا العام مع هذه النماذج كأدوات في أوركسترا، وليس كبدائل لبعضها البعض.
ما الذي سيأتي بعد ذلك
بعد تتبع هذا الفضاء شهراً تلو الآخر، إليكم إلى أين أرى المشهد يتجه خلال بقية عام 2026.
يصبح التوليد المشترك للصوت سائداً. كانت جوجل رائدة فيه مع Veo 3، وفجوة الجودة المدركة التي يخلقها كبيرة جداً بحيث لا يمكن للمنافسين تجاهلها. أتوقع أن يقوم مزودان آخران على الأقل — من المحتمل أن يكونا xAI و Bytedance — بشحن صوت مدمج بحلول الربع الرابع. بمجرد حدوث ذلك، ستبدو الرسوم المتحركة الصامتة وكأنها قطعة أثرية من عصر سابق، بالطريقة التي تبدو بها الصور المصغرة الثابتة الآن مقارنة بالمعاينات المتحركة.
تتسارع وتيرة تصعيد الدقة. تصل معظم النماذج العليا حالياً إلى 720p كحد أقصى. يدفع Kling 2.5 Turbo بالفعل دقة 1080p الأصلية. بحلول نهاية العام، ستكون دقة 1080p قياسية للمستويات الاحترافية وسنرى أول معاينات بدقة 4K من مختبر واحد على الأقل. ستكون تكلفة الحوسبة قاسية، لكن الطلب من تدفقات عمل البث والإعلان لا يمكن إنكاره.
تتوسع xAI بقوة. نموذجان في ثلاثة أسابيع — مع مطالبة متغير 720p بالمركز الأول عند الوصول — يشير إلى استثمار جاد. أتوقع متغيرات بدقة أعلى وربما تكامل الصوت من Grok قبل الصيف. إذا حافظوا على جودة الحركة هذه عند 1080p، فسيصبحون المتصدر الواضح.
تحتاج Runway إلى لحظة Gen5. يعد Runway Gen4 Turbo في المركز 30 وضعاً صعباً للشركة التي أنشأت أساساً فئة الفيديو التجاري للذكاء الاصطناعي. تظل أدواتهم الإبداعية وتجربة المستخدم الأفضل في فئتها، لكن النموذج الأساسي يحتاج إلى قفزة جيلية. إذا لم يتم شحن Gen5 بحلول منتصف عام 2026 بجودة ضمن العشرة الأوائل، تخاطر Runway بأن تصبح الشركة التي حددت السوق ثم شاهدت الجميع يفوزون به.
المصدر المفتوح يضيق الفجوة. أثبت LTX-2 أن الأوزان المفتوحة يمكن أن تنتج نتائج قابلة للتطبيق لتحويل الصور إلى فيديو اليوم. الموجة التالية — ربما Wan 3 أو LTX-3 — ستدفع إلى منطقة تنافس النماذج التجارية متوسطة المستوى. بالنسبة لفرق المؤسسات التي تبني خطوط أنابيب مملوكة دون تبعيات خارجية لواجهة برمجة التطبيقات، فإن هذا هو الاتجاه الأكثر أهمية.
اللاعبون المفقودون. تظل Meta و Apple و Amazon غائبة بشكل واضح عن هذه اللوحة. تشير منشورات أبحاث الفيديو من Meta إلى قدرة يمكن أن تنافس في الطبقة العليا، لكنهم لم يشحنوا منتج I2V يواجه الجمهور. في اللحظة التي تدخل فيها Meta — خاصة إذا أطلقوا نموذجاً مفتوح الوزن، كما فعلوا مع Llama للغة — يعاد خلط المشهد التنافسي بأكمله بين عشية وضحاها.
مصدر البيانات: التصنيفات من Arena Image-to-Video Leaderboard، 5 فبراير 2026.
??????
0 ??????????? ???????
?? ??? ?? ????? ?????? ??? ??? ??????!