لوحة تصadara لساحة الذكاء الاصطناعي لتحويل النص إلى فيديو — 2026

الرؤية الجوهرية

السباق لم يعد حول من يستطيع توليد فيديو. إنه حول من يجعلك تنسى أنه ذكاء اصطناعي.

لقد قضيت الأشهر الأربعة عشر الماضية في توليد مقاطع فيديو عبر كل منصة رئيسية للذكاء الاصطناعي — عشرات الآلاف من الأوامر، تغطي مشاهد سينمائية، ولقطات منتجات، وفن تجريدي، واختبارات ضغط فيزيائية. وما يمكنني قوله لكم ونحن نتجه إلى أواخر يناير 2026 هو هذا: لم تكن لوحة التصدر بهذه الشدة، أو العمق، أو عدم القدرة على التنبؤ من قبل. لا تزال Google تحتفظ بالتاج، لكن Sora 2 Pro من OpenAI يلاحقها بفارق نقطتين فقط. اقتحمت xAI الحفلة بفيديو Grok من العدم. والطبقة المتوسطة تنافسية للغاية الآن لدرجة أن اختيار النموذج الخاطئ لنوع لقطة محدد هو الخطأ الحقيقي الذي يرتكبه معظم المبدعين. هذه هي ساحة تحويل النص إلى فيديو (Text-to-Video Arena) — 31 نموذجاً، مرتبة حسب التفضيل البشري الأعمى.

لوحة التصدر الكاملة — 31 نموذجاً

يمثل الجدول أدناه الحالة الكاملة للساحة اعتباراً من 29 يناير 2026. يأخذك كل رابط نموذج مباشرةً إلى الوثائق الرسمية أو نقطة نهاية API حتى تتمكن من اختبارها بنفسك.

الرتبة	النموذج	النتيجة	الأصوات	المؤسسة
🥇	Veo 3.1 Audio	1371	12,572	Google
🥈	Sora 2 Pro	1369	11,435	OpenAI
🥉	Veo 3.1 Fast Audio	1367	13,963	Google
#4	Grok Imagine Video 720p	1362	7,952	xAI
#5	Veo 3 Fast Audio	1350	25,771	Google
#6	Veo 3 Audio	1340	19,329	Google
#7	Sora 2	1338	14,207	OpenAI
#8	Wan2.5 T2v Preview	1267	6,077	Alibaba
#9	Seedance V1.5 Pro	1261	13,960	Bytedance
#10	Veo 3	1257	15,192	Google
#11	Veo 3 Fast	1251	15,476	Google
#12	Kling 2.5 Turbo 1080p	1222	2,054	KlingAI
#13	Kling 2.6 Pro	1219	17,486	KlingAI
#14	Kling O1 Pro	1207	1,197	KlingAI
#15	Ray 3	1204	1,057	Luma AI
#16	Hailuo 02 Pro	1200	9,888	MiniMax
#17	Hailuo 2.3	1198	13,037	MiniMax
#18	Seedance V1 Pro	1192	12,895	Bytedance
#19	Hailuo 02 Standard	1181	9,935	MiniMax
#20	Kandinsky 5.0 T2v Pro	1178	1,888	Kandinsky
#21	Hunyuan Video 1.5	1171	4,101	Tencent
#22	Kling V2.1 Master	1168	14,527	KlingAI
#23	Veo 2	1165	7,106	Google
#24	Wan V2.2 A14b	1130	11,160	Alibaba
#25	Seedance V1 Lite	1114	16,716	Bytedance
#26	Kandinsky 5.0 T2v Lite	1112	1,351	Kandinsky
#27	Ltx 2 19b	1090	8,759	lightricks
#28	Sora	1070	4,521	OpenAI
#29	Ray2	1066	5,611	Luma AI
#30	Pika V2.2	1011	6,496	Pika
#31	Mochi V1	999	6,681	Genmo AI

حد السيف في القمة

اسمحوا لي أن أضع هذا في منظوره الصحيح. نقطتان. هذا كل ما يفصل Veo 3.1 Audio عن Sora 2 Pro في الوقت الحالي. عندما بدأت في تتبع لوحة التصدر هذه قبل أشهر، كانت لدى Google وسادة مريحة. ذهبت تلك الوسادة. النماذج السبعة الأولى — أربعة من Google، واثنان من OpenAI، وواحد من xAI — كلها محشورة في نطاق 33 نقطة. في المقارنة المعيارية التنافسية للذكاء الاصطناعي، هذه قرعة عملة في أي أمر معين.

ما يجعل Veo 3.1 يحتفظ بالتاج ليس الدقة البصرية الخام بعد الآن — بل هو توليد الصوت المتزامن. عندما أقوم بتوليد مشهد شارع، تتطابق الخطوات مع نوع الرصيف. تتغير أصوات المطر مع مسافة الكاميرا. يدور محرك السيارة بالتزامن مع التسارع. هذا ليس صوتاً في مرحلة ما بعد الإنتاج تم وضعه في الأعلى؛ يتم توليده في نفس التمرير الأمامي مثل الفيديو. هذه القدرة الواحدة هي ما يبقي Veo في المركز الأول، لأنه عندما يشاهد الحكام البشريون مقطعين جنباً إلى جنب، فإن المقطع ذو الصوت المتطابق يبدو أكثر واقعية ببساطة.

لكن Sora 2 Pro يفوز في المجالات التي لا يركز عليها Veo. لقد كنت أقوم بتشغيل أوامر ثقيلة الفيزياء — كوب من الماء يسقط من طاولة، علم في رياح متغيرة، قماش يعلق بمقبض باب — وينتج Sora باستمرار نتائج أكثر دقة فيزيائياً. يتناثر الماء بالكتلة الصحيحة. يتمدد القماش قبل أن يتمزق. تتناثر شظايا الزجاج بزخم قابل للتصديق. إذا كانت لقطتك تعتمد على ثقة الجمهور في الفيزياء، فإن Sora هو وجهتك. Veo يصنع الجمال؛ Sora يصنع الإيمان.

يظل Sora 2 في المركز السابع هو البديل العملي — أقل دقة قليلاً من Pro، ولكنه أسرع في التوليد وأكثر من قادر لمعظم أعمال الإنتاج. لا أزال أستخدم Sora 2 القياسي لـ 70٪ من مهام الفيديو الخاصة بي في OpenAI لأن نسبة الجودة إلى السرعة ممتازة.

عامل Grok

هذه هي القصة التي لم يرها أحد قادمة. ظهر Grok Imagine Video وهبط في #4 — مباشرة بين متغيري Veo 3.1 من Google ونماذج Veo 3 الخاصة بها. بالنسبة لمنتج فيديو من الجيل الأول من xAI، هذا استثنائي. لقد كنت أختبره على نطاق واسع منذ ظهوره، وما يدهشني هو مدى جودة تعامله مع التكوين السينمائي. غالباً ما تكون خيارات التأطير أفضل مما أحصل عليه من النماذج التي تم تكرارها لأكثر من عام.

دقة 720p هي القيد الحالي. في عالم يدفع فيه Kling وضع توربو 1080p ويقوم Veo بالرندر بدقة عالية أصلية، يبدو 720p بمثابة مقايضة متعمدة — من المحتمل أن xAI أعطت الأولوية للتماسك الزمني وجودة الحركة على عدد البكسل الخام. خطوة ذكية. أفضل مشاهدة مقطع حاد وسلس بدقة 720p بدلاً من مقطع بدقة 1080p مع اهتزاز الإطار. ما يهم هنا هو المسار: إذا تمكنت xAI من توسيع نطاق الدقة مع الحفاظ على جودة الحركة هذه، فسوف يقاتلون من أجل المركزين الأولين بحلول منتصف عام 2026.

لماذا يهم هذا للصناعة: تتنافس ثلاث شركات الآن بمصداقية على الطبقة العليا — Google و OpenAI و xAI. سيضغط هذا السباق الثلاثي الجداول الزمنية للجميع. عندما أتحدث إلى المبدعين الذين يبنون بهذه الأدوات يومياً، يكون الإجماع واضحاً: المنافسة في القمة هي أفضل شيء يحدث لجودة فيديو الذكاء الاصطناعي الآن.

الوسط المزدحم — حيث تعيش الخيارات الحقيقية

لن ينفق معظم المبدعين ميزانياتهم على مكالمات API من الدرجة الأولى لكل مقطع. حقيقة عمل الإنتاج هي أن 80٪ من احتياجات الفيديو الخاصة بك لا تتطلب أفضل نموذج مطلق — إنها تتطلب النموذج الصحيح. وبين المراكز #8 و #22، هناك كثافة ملحوظة من القدرات المتخصصة.

يقود Wan 2.5 من Alibaba في المركز الثامن المجموعة التالية. لقد وجدته قوياً بشكل استثنائي في الأوامر الفنية والتجريدية — نوع الأوصاف الشعرية والمجازية التي تميل النماذج الغربية إلى تفسيرها بشكل حرفي للغاية. عندما أكتب "الوحدة تذوب في حشد"، ينتج Wan 2.5 في الواقع شيئاً مثيراً للذكريات بصرياً بدلاً من مجرد عرض شخص يقف بمفرده بالقرب من أشخاص آخرين.

أصبح Seedance v1.5 Pro من Bytedance (#9) هو خياري المفضل لعمل الكاميرا المعقد. اللقطات المدارية، وعربات الكاميرا البطيئة، والانتقالات من الرافعة إلى المحمول باليد — يتعامل Seedance مع تصميم رقصات الكاميرا متعدد القطاعات بشكل أفضل من أي شيء باستثناء Veo. يظل Seedance v1 Pro الأقدم (#18) و Seedance v1 Lite (#25) قابلين للتطبيق للأوامر الأبسط — وبتكلفة أقل بكثير.

تضع KlingAI الآن أربعة نماذج في التصنيف (#12 إلى #14، بالإضافة إلى #22). يخبرك هذا الانتشار بشيء عن استراتيجيتهم: بدلاً من رائد واحد، يقومون ببناء تشكيلة. Kling O1 Pro في المركز الرابع عشر جديد ورائع — فهو يطبق منطق سلسلة الأفكار (chain-of-thought) على توليد الفيديو، ويقضي المزيد من وقت الحساب في فهم ما تريده حقاً قبل الرندر. تشير النتائج المبكرة إلى أن هذا يحسن بشكل كبير الالتزام بالأمر للمشاهد المعقدة متعددة العناصر. Kling 2.5 Turbo 1080p في المركز 12 هو شيطان السرعة — 1080p أصلي بسرعات توربو، مثالي لتكرار المفاهيم قبل الالتزام برندر نهائي في مكان آخر.

Ray 3 من Luma AI في المركز الخامس عشر هو المنجز الصامت الذي أعود إليه باستمرار. حيث تطارد النماذج الأخرى الواقعية السينمائية، يتمتع Ray 3 بجودة جمالية مميزة — تشبه الحلم قليلاً، مع انتقالات إضاءة رائعة تبدو وكأنها مرسومة باليد تقريباً. بالنسبة لقطع الحالة المزاجية وعمل العلامة التجارية الذي يحتاج إلى الشعور بالرقي بدلاً من الواقعية الفوتوغرافية، فلا مثيل له.

تظل تشكيلة Hailuo من MiniMax (#16، #17، #19) محرك التكرار في لوحة التصدر هذه. عندما أقوم بالصياغة — اختبار عشرين نوعاً مختلفاً من المفهوم قبل اختيار الاتجاه — فإن سرعة Hailuo وهيكل التكلفة يجعله الخيار الواضح. فجوة الجودة بين Hailuo 02 Pro والإصدار القياسي أضيق مما تتوقع، مما يجعل الطبقة القياسية مفيدة حقاً للتصور المسبق للإنتاج.

Hunyuan Video 1.5 من Tencent في المركز 21 هو الحصان الأسود الذي سأراقبه بعناية أكبر. تشير المنشورات البحثية لشركة Tencent إلى أنهم يستثمرون بكثافة في التناسق الزمني — القدرة على الحفاظ على مظهر الشخصية ومنطق المشهد عبر مقاطع مولدة أطول. هذه أصعب مشكلة لم يتم حلها في فيديو الذكاء الاصطناعي، ومن يحلها أولاً سيعيد تشكيل هذه التصنيفات بين عشية وضحاها.

دفعة المصدر المفتوح

يحدث شيء مهم في النصف السفلي من لوحة التصدر هذه. Kandinsky 5.0 Pro (#20) و Kandinsky 5.0 Lite (#26) نماذج مفتوحة المصدر بالكامل تتنافس مع أنظمة مملوكة تكلف الملايين لتطويرها. يجلس متغير Pro في المركز 20، متقدماً على Tencent، ومتقدماً على نماذج Kling الأقدم، ومتقدماً على Veo 2. هذا بيان.

LTX-2 19B في المركز 27 من Lightricks جديد في لوحة التصدر ويمثل الفرع الآخر من الفيديو مفتوح المصدر: نموذج يمكنك تنزيله، وضبطه، ونشره على بنيتك التحتية الخاصة. مع 19 مليار معلمة، إنه ليس صغيراً، لكنه يعمل على أجهزة المستهلك المتطورة. بالنسبة للاستوديوهات التي تحتاج إلى معالجة لقطات مملوكة دون إرسال إطارات إلى API طرف ثالث، فهذه ليست راحة — إنها متطلب.

Wan v2.2 من Alibaba (#24) يربط بين العالمين — أوزان مفتوحة على Hugging Face، مدعومة بالبنية التحتية السحابية لشركة Alibaba. يكمل Mochi v1 (#31) من Genmo AI المدخلات مفتوحة المصدر. بينما يجلس في أسفل الترتيب اليوم، فإن أبحاث Genmo حول الهياكل الفعالة يمكن أن تدفع أرباحاً في التكرارات المستقبلية.

مسار المصدر المفتوح واضح: قبل عام، لم يكن أي نموذج مفتوح ليخترق أفضل 25 في هذه الساحة. الآن يجلس متغيران من Kandinsky بشكل مريح في أفضل 26. بحلول أواخر عام 2026، أتوقع نموذجاً واحداً على الأقل مفتوح المصدر في أفضل 15. الفجوة تغلق أسرع مما توقعه أي شخص.

إلى أين يتجه هذا

لقد كنت أتتبع توليد الفيديو بالذكاء الاصطناعي منذ عروض Runway الأولى، ولم أر قط ضغطاً تنافسياً بهذه الشدة. إليك ما أتوقعه خلال الأشهر الستة المقبلة، بناءً على اتجاهات البحث، وخرائط طريق API، وما أسمعه من الفرق التي تعمل على هذه النماذج:

سيصبح الصوت من المسلمات. في الوقت الحالي، يعد توليد الصوت المتزامن هو الميزة الرئيسية لـ Veo. بحلول الربع الثالث من عام 2026، أتوقع أن يقوم Sora و Grok ونموذجان صينيان على الأقل بشحن قدرات صوتية مماثلة. عندما يحدث ذلك، ستتغير لوحة التصدر بشكل كبير — تتبخر ميزة Veo الحالية في اللحظة التي يمكن للجميع مطابقتها.

الدقة ستتوقف عن الأهمية. نحن نقترب من النقطة حيث يكون التوليد الأصلي بدقة 4K ممكناً تقنياً ولكنه غير ضروري من الناحية الإدراكية لمعظم التطبيقات. ساحة المعركة التالية هي التناسق الزمني — هل يمكن للنموذج توليد 30 ثانية من فيديو مستمر ومتماسك حيث لا يتحول وجه الشخصية، وحيث تظل الفيزياء متسقة، وحيث لا تتغير الإضاءة بشكل عشوائي؟ هذا هو المكان الذي يمكن أن تتجاوز فيه أبحاث Hunyuan من Tencent ونهج منطق O1 من Kling الجودة البصرية البحتة.

حرب تكلفة API على وشك أن تبدأ. في الوقت الحالي، تحمل النماذج المتميزة مثل Veo 3.1 و Sora 2 Pro أسعاراً متميزة. ولكن مع تقديم MiniMax جودة تنافسية حقاً بكسر من التكلفة، ونماذج مفتوحة المصدر مثل Kandinsky و LTX-2 تقدم تكلفة هامشية صفرية للنشر الذاتي الاستضافة، سيتعين على مقدمي الخدمات من الدرجة الأولى ضغط الأسعار. هذا جيد لكل مبدع.

لن تبقى xAI عند 720p. ربما يكون ظهور Grok لأول مرة في المرتبة الرابعة مع عائق الدقة هو نقطة البيانات الأكثر دلالة في لوحة التصدر بأكملها. لقد أثبتوا أن بنية النموذج تعمل. توسيع نطاق الدقة مشكلة هندسية، وليست بحثية. سأفاجأ إذا لم تقدم Grok فيديو بدقة 1080p بحلول الصيف.

خياراتي حسب حالة الاستخدام

سينمائي + صوت

Veo 3.1 Audio — لا يزال المعيار الذهبي للمقاطع الغامرة حيث يهم الصوت.

الواقعية الفيزيائية

Sora 2 Pro — عندما تحتاج الكائنات إلى التفاعل بسلوك فيزيائي قابل للتصديق.

التكوين السينمائي

Grok Video — تأطير وتكوين لقطة استثنائي لنموذج من الجيل الأول.

تكرار الكاميرا

Seedance v1.5 Pro — حركات كاميرا معقدة متعددة القطاعات، انتقالات سلسة.

منمق & أنيمي

Kling 2.6 Pro — اتساق الشخصية والتحكم الفني في الأنماط غير الواقعية.

تكرار سريع

Hailuo 02 — جولات مسودة سريعة قبل الالتزام برندرات متميزة.

أوامر فنية

Wan 2.5 — يتعامل مع الأوصاف الشعرية والتجريدية بفروق دقيقة حقيقية.

استضافة ذاتية / خصوصية

LTX-2 19B أو Kandinsky 5.0 Pro — تشغيل على أجهزتك الخاصة، لا تترك أي بيانات خوادمك.

الخلاصة: لا يوجد أفضل فيديو ذكاء اصطناعي واحد. هناك أفضل فيديو ذكاء اصطناعي للقطة معينة، ونمط، وميزانية، ومتطلبات خصوصية. المحترفون الذين أحترمهم أكثر في هذا المجال لا يت معه دون بالولاء لنموذج واحد — فهم يحتفظون بحسابات نشطة عبر ثلاثة على الأقل، ويعرفون بالضبط أي أمر يذهب إلى أين. هذه هي المهارة الحقيقية في عام 2026: ليس كتابة الأوامر، بل توجيهها.

مصدر البيانات: التصنيفات من لوحة تصدر الساحة لتحويل النص إلى فيديو، 29 يناير 2026.

Tags: #text-to-video #generative-ai #veo #sora #grok #kling #leaderboard