أفضل ذكاء اصطناعي بصري لم يعد نموذجًا واحدًا. إنها معرفة أي نموذج يجب استخدامه لكل مشكلة.
قضيت الأسابيع الثلاثة الماضية في إجراء اختبارات صور متطابقة عبر كل نموذج في لوحة الصدارة هذه — مخططات معمارية، وصفات طبية مكتوبة بخط اليد، صور الأقمار الصناعية، ميمes، لوحات زيتية، لافتات شوارع متعددة اللغات. الاستنتاج فاجأني حتى أنا. يمثل شهر فبراير 2026 نقطة انعطاف حقيقية لـ Vision Arena. لأول مرة منذ أن بدأت هذه الساحة في تتبع الذكاء البصري، كسر شخص ما قفل منصة التتويج الخاص بـ Google. والدخيل الذي أثار إعجابي أكثر لم يكن OpenAI — بل كانت شركة صينية ناشئة لم ينشرها معظم المطورين الغربيين أبدًا.
لوحة صدارة الرؤية
ستون نموذجًا. ثلاث عشرة منظمة. مئات الآلاف من التقييمات البشرية العمياء. هذا هو التسلسل الهرمي الكامل للذكاء البصري اعتبارًا من 6 فبراير 2026 — وهو يحكي قصة تستحق القراءة بعناية.
| الرتبة | النموذج | الدرجة | الأصوات | المنظمة |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1289 | 11,297 | |
🥈 | Gemini 3 Flash | 1277 | 9,175 | |
🥉 | Gpt 5.2 High | 1257 | 2,749 | OpenAI |
#4 | Gemini 3 Flash (thinking Minimal) | 1256 | 7,313 | |
#5 | Gpt 5.1 High | 1252 | 7,299 | OpenAI |
#6 | Kimi K2.5 Thinking | 1251 | 2,979 | Moonshot |
#7 | Gemini 2.5 Pro | 1246 | 79,747 | |
#8 | Chatgpt 4o Latest 20250326 | 1235 | 23,313 | OpenAI |
#9 | Gpt 5.1 | 1235 | 7,974 | OpenAI |
#10 | Kimi K2.5 Instant | 1231 | 1,663 | Moonshot |
#11 | Gemini 2.5 Flash Preview 09 2025 | 1225 | 5,293 | |
#12 | Gpt 4.5 Preview 2025 02 27 | 1225 | 2,925 | OpenAI |
#13 | Gpt 5.2 | 1223 | 3,013 | OpenAI |
#14 | Gpt 5 Chat | 1222 | 43,264 | OpenAI |
#15 | Ernie 5.0 Preview 1220 | 1216 | 3,623 | Baidu |
#16 | O3 2025 04 16 | 1216 | 49,181 | OpenAI |
#17 | Gemini 2.5 Flash | 1213 | 48,047 | |
#18 | Gpt 4.1 2025 04 14 | 1213 | 44,463 | OpenAI |
#19 | Qwen3 Vl 235b A22b Instruct | 1211 | 10,750 | Alibaba |
#20 | Gpt 5 High | 1208 | 37,581 | OpenAI |
#21 | Claude Opus 4 20250514 Thinking 16k | 1206 | 1,495 | Anthropic |
#22 | Claude Sonnet 4 20250514 Thinking 32k | 1205 | 1,361 | Anthropic |
#23 | Gpt 4.1 Mini 2025 04 14 | 1201 | 43,674 | OpenAI |
#24 | O4 Mini 2025 04 16 | 1199 | 44,239 | OpenAI |
#25 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1195 | 1,676 | Anthropic |
#26 | O1 2024 12 17 | 1192 | 3,694 | OpenAI |
#27 | Claude Opus 4 20250514 | 1191 | 2,579 | Anthropic |
#28 | Gemini 2.5 Flash Lite Preview 06 17 Thinking | 1188 | 39,110 | |
#29 | Hunyuan Vision 1.5 Thinking | 1187 | 2,869 | Tencent |
#30 | Qwen3 Vl 235b A22b Thinking | 1186 | 2,664 | Alibaba |
#31 | Claude Sonnet 4 20250514 | 1186 | 2,066 | Anthropic |
#32 | Grok 4 0709 | 1182 | 34,737 | xAI |
#33 | Gpt 5 Mini High | 1181 | 31,410 | OpenAI |
#34 | Qwen Vl Max 2025 08 13 | 1181 | 3,454 | Alibaba |
#35 | Gemini 1.5 Pro 002 | 1178 | 8,902 | |
#36 | Claude 3 7 Sonnet 20250219 | 1177 | 4,674 | Anthropic |
#37 | Gemini 2.5 Flash Lite Preview 09 2025 No Thinking | 1173 | 5,330 | |
#38 | Gemini 2.0 Flash 001 | 1170 | 9,875 | |
#39 | Gpt 4o 2024 05 13 | 1162 | 23,273 | OpenAI |
#40 | Glm 4.6v | 1161 | 2,611 | Z.ai |
#41 | Claude 3 5 Sonnet 20241022 | 1161 | 10,568 | Anthropic |
#42 | Gemma 3 27b It | 1156 | 18,534 | |
#43 | Mistral Medium 2505 | 1155 | 11,519 | Mistral |
#44 | Glm 4.5v | 1154 | 3,576 | Z.ai |
#45 | Step 1o Turbo 202506 | 1152 | 2,037 | StepFun |
#46 | Hunyuan Large Vision | 1151 | 1,440 | Tencent |
#47 | Mistral Medium 2508 | 1150 | 41,998 | Mistral |
#48 | Claude 3 5 Sonnet 20240620 | 1146 | 21,624 | Anthropic |
#49 | Llama 4 Maverick 17b 128e Instruct | 1145 | 7,410 | Meta |
#50 | Gpt 5 Nano High | 1144 | 4,325 | OpenAI |
#51 | Step 3 | 1144 | 3,558 | StepFun |
#52 | Mistral Small 2506 | 1139 | 11,713 | Mistral |
#53 | Gemini 1.5 Flash 002 | 1139 | 7,241 | |
#54 | Gemini 2.0 Flash Lite Preview 02 05 | 1133 | 3,991 | |
#55 | Claude 3 5 Haiku 20241022 | 1130 | 1,583 | Anthropic |
#56 | Mistral Small 3.1 24b Instruct 2503 | 1126 | 30,955 | Mistral |
#57 | Llama 4 Scout 17b 16e Instruct | 1125 | 6,826 | Meta |
#58 | Step 1o Vision 32k Highres | 1123 | 2,833 | StepFun |
#59 | Qwen2.5 Vl 72b Instruct | 1121 | 3,768 | Alibaba |
#60 | Gpt 4o 2024 08 06 | 1118 | 3,376 | OpenAI |
نقطة انعطاف فبراير
دخلت أربعة نماذج جديدة إلى لوحة الصدارة هذا الشهر — وهبطت الأربعة جميعها في أعلى 13. هذا لم يحدث من قبل. قمة الجدول تزداد تنافسية، وليس أقل.
دعوني أشرح ما حدث. منذ مراجعتي في يناير، خرجت أربعة نماذج قديمة من قاع التصنيف — Gemini 1.5 Pro (الأصلي)، و Qwen2.5-VL-32B، و GPT-4 Turbo، و GPT-4o Mini. هذه نماذج من حقبة مختلفة، وكان رحيلها متأخرًا. ما حل محلها هو أكثر إثارة للاهتمام.
ظهر GPT-5.2 High لأول مرة في المركز #3، محطمًا اكتساح Google الكامل لمنصة التتويج لأول مرة في تاريخ هذه الساحة. دخل متغيره القياسي، GPT-5.2، في المركز #13. لكن الصدمة الحقيقية جاءت من Moonshot. هبط نموذج Kimi K2.5 Thinking الخاص بهم في المركز #6، والمتغير الفوري في المركز #10. شركة ناشئة ليس لها وجود سابق في لوحة الصدارة هذه لديها الآن نموذجان في المراكز العشرة الأولى. لم أتوقع ذلك.
ضغط المجال يخبرنا أيضًا. الفجوة بين #1 و #60 هي 171 نقطة فقط. هذا نطاق ضيق لستين نموذجًا، ويعني أن وسط الجدول تنافسي بشكل وحشي. يمكن لتحسين معماري واحد أو ترقية بيانات التدريب أن يغير نموذجًا بمقدار عشرة أو خمسة عشر مرتبة بين عشية وضحاها. إذا كنت تبني خطوط إنتاج حول نموذج معين، فافهم أن موقعه ليس دائمًا.
عيون الذكاء الاصطناعي: تحليل عميق
سلالة Google شبه المثالية
Gemini 3 Pro يحمل التاج، و Gemini 3 Flash يحمل الفضة. لكن لأول مرة، البرونزية تنتمي لشخص آخر. لا تزال Google تحتل المركز #4 مع متغير التفكير المصغر لـ Flash وتشغل ثلاثة عشر نموذجًا عبر أفضل 60، تغطي كل مستوى أداء من الرائد Gemini 3 Pro وصولاً إلى الخفيف Gemini 2.0 Flash Lite. هذا ليس خط إنتاج — إنه نظام بيئي.
ما يعنيه التعدد الوسائط الأصلي في الواقع
لقد قمت بتغذية Gemini 3 Pro بصورة سبورة بيضاء لمخطط هندسة النظام — صناديق مرسومة على عجل، أنماط أسهم غير متسقة، عينتان مختلفتان للكتابة اليدوية. لم يقم فقط بنسخ النص. لقد أعاد بناء التدفق المنطقي بين الخدمات، وحدد الأسهم التي تمثل مكالمات متزامنة مقابل غير متزامنة بناءً على نمط الخط، ووضع علامة على تبعية دائرية محتملة فاتني. هذا ما يعنيه "تعدد الوسائط الأصلي" في الممارسة العملية: النموذج لا يترجم الصور إلى نص أولاً — بل يفكر في البنية المرئية مباشرة.
ما يجعل موقف Google دائمًا هو العمق. Gemini 2.5 Pro في المركز #7 لا يزال النموذج الأكثر اختبارًا في الساحة مع ما يقرب من 80,000 تقييم أعمى وراءه. Gemini 2.5 Flash في المركز #17 يشغل أعباء عمل إنتاجية عالية الإنتاجية. حتى Gemma 3 27B، وهو نموذج مفتوح الوزن في المركز #42، يتفوق على العروض الرئيسية لمعظم المنافسين. كان نهج Google دائمًا هو الفوز من خلال التغطية — امتلاك أفضل نموذج لكل ميزانية وقيد كمون — وفي الرؤية، هذه الاستراتيجية تعمل.
الصدع الوحيد في الدرع: فقدت Google اكتساح منصة التتويج. عندما قمت بتغطية هذه الساحة لأول مرة، شعرت أن Gemini سيحمل الميداليات الثلاث إلى أجل غير مسمى. يثبت وصول GPT-5.2 إلى المركز #3 أن تقدم Google، على الرغم من كونه قويًا، ليس منيعًا. إذا لم تقم Google بشحن إصدار Gemini 3 Pro الكامل (وليس المعاينة فقط) قريبًا، فستغلق تلك النافذة أكثر.
OpenAI تكسر منصة التتويج
هذا هو أقوى شهر لـ OpenAI في Vision Arena. GPT-5.2 High في المركز #3 لا يكسر قفل Google فقط — بل يشير إلى قفزة ذات مغزى في خط المعالجة البصرية لـ OpenAI. اختبرته مقابل إصدار يناير من GPT-5.1، وكانت التحسينات أكثر وضوحًا في مجالين: فهم المستندات الكثيفة وتفسير المشهد المعقد مكانيًا.
ميزة الرؤية السردية
اعرض لـ O3 مخططًا لاتجاهات الإيرادات الفصلية، ولا يقرأ الأرقام — يخبرك لماذا ارتفع الربع الثالث، وما هي الأنماط الموسمية التي من المحتمل أن تكون مسؤولة، وكيف قد يبدو الربع الأول من العام المقبل. بالنسبة لأوصاف إمكانية الوصول، والشرح التعليمي، وأي سير عمل يتطلب ترجمة البيانات المرئية إلى رؤية بشرية، يظل نهج OpenAI لا مثيل له. إنهم لا يرون الصور — إنهم يسردونها.
تضع OpenAI سبعة عشر نموذجًا في أفضل 60 — وهو أكبر عدد لأي منظمة. الاتساع استراتيجي. GPT-5 Chat في المركز #14 هو العمود الفقري لمهام الرؤية المحادثة. O3 في المركز #16 و O4 Mini في المركز #24 يمثلان الفرع الذي يركز على التفكير. GPT-5 Nano High في المركز #50 يثبت أنه يمكنك الحصول على رؤية جيدة بشكل مدهش بجزء صغير من التكلفة. إذا كان المكدس الخاص بك يعمل على واجهة برمجة تطبيقات OpenAI، فهناك الآن نموذج رؤية محسن لكل نقطة كمون وسعر تقريبًا.
ما يستحق المشاهدة: GPT-5.2 High مقابل متغيره القياسي. يجلس الإصدار العالي في المركز #3 بينما GPT-5.2 القياسي في المركز #13 — فجوة أربع وثلاثين نقطة. يشير هذا الانتشار إلى أن المستوى العالي يقوم بمعالجة بصرية أكبر بكثير، وربما تمريرات استدلال إضافية أو دقة داخلية أكبر. بالنسبة للتطبيقات الحساسة للتكلفة، فإن فهم أين يهم سقف الجودة هذا مقابل أين يكون المستوى القياسي "جيدًا بما يكفي" سيكون القرار المعماري الرئيسي هذا الربع.
الوصول الصامت لـ Moonshot
إذا كان هناك شيء واحد تعلمته من تتبع معايير الذكاء الاصطناعي، فهو أن أخطر المنافسين يعلنون عن أنفسهم بهدوء. كان لدى Moonshot صفر نماذج في لوحة الصدارة هذه الشهر الماضي. اليوم لديهم اثنان في المراكز العشرة الأولى.
Kimi K2.5 Thinking في المركز #6 يتفوق على Gemini 2.5 Pro و ChatGPT-4o Latest وكل نموذج Anthropic واحد في هذه اللوحة. المتغير الفوري في المركز #10 يقايض بعض الدقة بالسرعة ولكنه لا يزال يتفوق على معظم المجال. هذا ليس تقدمًا تدريجيًا — هذه شركة ناشئة تقفز فوق اللاعبين الراسخين.
قمت بتشغيل Kimi K2.5 Thinking من خلال بطارية الاختبار القياسية الخاصة بي. في استخراج النصوص الصينية واليابانية — قوائم المطاعم، خرائط العبور، الملاحظات المكتوبة بخط اليد — طابق أو تجاوز Qwen3-VL، الذي كنت أعتبره سابقًا المعيار الذهبي لمهام رؤية CJK. في تحليل المستندات باللغة الإنجليزية، صمد أمام GPT-5.1. المكان الذي فاجأني فيه بشكل خاص كان سلسلة التفكير البصري: أعطه إنفوجرافيك مزدحمًا واطلب منه تحديد خيارات التصميم الثلاثة الأكثر تضليلاً، وينتج تحليلًا منظمًا يستحق الاقتباس.
الآثار الاستراتيجية مهمة. يقع مقر Moonshot في بكين وجمعت أكثر من مليار دولار من التمويل العام الماضي. مساعد Kimi الخاص بهم لديه بالفعل قاعدة مستخدمين ضخمة في الصين. إذا استمروا في التكرار بهذه الوتيرة، فقد تشمل المراكز الخمسة الأولى في vision arena قريبًا ثلاث منظمات مختلفة — مما يكسر احتكار Google-OpenAI الثنائي في القمة. بالنسبة للمطورين الذين يبنون تطبيقات عالمية، خاصة تلك التي تخدم الأسواق الآسيوية، يستحق Kimi K2.5 تقييمًا جادًا.
العين المتعمدة لـ Anthropic
لا تحاول Anthropic الفوز بالسرعة أو الدقة الخام. إنهم يلعبون لعبة مختلفة، والنتائج مثيرة للإعجاب بهدوء. يقود Claude Opus 4 Thinking في المركز #21 و Claude Sonnet 4 Thinking في المركز #22 نماذج Anthropic التسعة في أفضل 60.
إليك ما يميز Claude في مهام الرؤية: إنه لا يستعجل الإجابة. أظهر لمعظم النماذج صورة وسوف تحدد الأشياء، وتقرأ النص، وتصف المشهد. أظهر لـ Claude نفس الصورة ويفكر أولاً في ما تحاول الصورة توصيله. اختبرت هذا مع مجموعة من الرسوم الكاريكاتورية السياسية من عقود مختلفة. وصف Gemini العناصر المرئية بدقة. قدم GPT-5.2 سياقًا ثقافيًا. قام Claude بتحليل التقنية البلاغية، وحدد الجمهور المستهدف، وشرح سبب وصول الكاريكاتير بشكل مختلف في عام 2026 عما كان عليه عند رسمه. لأي مهمة تتطلب تفسير النية وراء المحتوى المرئي — مراجعة المستندات القانونية، التحليل الأمني، نقد التصميم — فإن نهج Claude المتعمد هو ميزة حقيقية.
انقسام التفكير مقابل عدم التفكير ثابت عبر عائلة Claude. يظهر Claude 3.7 Sonnet Thinking في المركز #25 مقابل المتغير غير المفكر في المركز #36 فجوة جودة موثوقة. إذا كنت تستخدم Claude للرؤية، فقم بتمكين وضع التفكير دائمًا — يبرر فرق الجودة الكمون المضاف في كل حالة استخدام اختبرتها تقريبًا. المتغيرات غير المفكرة مناسبة بشكل أفضل للتسمية البسيطة أو التصنيف حيث السرعة تهم أكثر من العمق.
سباق الرؤية العالمي
لقد ولت الأيام التي كان فيها الذكاء الاصطناعي البصري يعني "Google أو OpenAI". تمثل هذه اللوحة الآن ثلاث عشرة منظمة متميزة عبر أربع قارات، ومنافسة منتصف الجدول هي المكان الذي تحدث فيه التطورات الأكثر إثارة للاهتمام.
يظل Alibaba's Qwen3-VL في المركز #19 أفضل نموذج رؤية لاستخراج المستندات متعددة اللغات. استخدمته مؤخرًا لمعالجة دفعة من العقود الممسوحة ضوئيًا بأربع لغات — الإنجليزية والماندرين واليابانية والعربية — وتعامل مع المستندات ذات النصوص المختلطة بدقة شبه مثالية، بما في ذلك تحديد الأقسام التي كانت شروحًا مكتوبة بخط اليد مقابل النص المطبوع بشكل صحيح. يوفر نموذج الوزن المفتوح Qwen2.5-VL-72B في المركز #59 خيارًا قابلًا للاستضافة الذاتية للمنظمات التي لا يمكنها إرسال الصور إلى واجهات برمجة تطبيقات خارجية.
يحتفظ ERNIE 5.0 من Baidu بالثبات في المركز #15. يجلس Hunyuan Vision 1.5 Thinking من Tencent في المركز #29. GLM-4.6V من Z.ai في المركز #40. تضع مختبرات الذكاء الاصطناعي الصينية بشكل جماعي اثني عشر نموذجًا في لوحة الصدارة هذه عبر خمس منظمات مختلفة. هذه الكثافة في المنافسة داخل نظام بيئي وطني واحد تدفع الابتكار بشكل أسرع مما يدركه معظم المراقبين الغربيين.
في أوروبا، تطرح Mistral أربعة نماذج — متغيرات متوسطة وصغيرة — مما يوفر خيار السيادة الوحيد للاتحاد الأوروبي للمنظمات الملتزمة بمتطلبات إقامة البيانات. جمع Grok 4 من xAI في المركز #32 أكثر من 34,000 تقييم، مما يجعله أحد أكثر النماذج اختبارًا في المعركة خارج أفضل 20. يمنح الوزن المفتوح Llama 4 Maverick من Meta في المركز #49 و Scout في المركز #57 المطورين القدرة على تشغيل الذكاء الاصطناعي البصري بالكامل على بنيتهم التحتية الخاصة. وتوضح الإدخالات الثلاثة لـ StepFun من الصين أنه حتى المختبرات الأصغر يمكنها إنتاج نماذج رؤية تنافسية عند التركيز على الرهانات المعمارية الصحيحة.
إلى أين يتجه الذكاء الاصطناعي البصري
لقد قمت بتغطية لوحات الصدارة هذه لفترة كافية لرؤية الأنماط قبل أن تصبح إجماعًا. إليك إلى أين أعتقد أن الذكاء الاصطناعي البصري يتجه في الأشهر الستة المقبلة.
سيشمل أفضل 5 ثلاثة أو أكثر من المنظمات بحلول منتصف عام 2026. قبضة Google ترتخي. أثبتت OpenAI أنها تستطيع كسر منصة التتويج. Moonshot تتسلق بسرعة. إذا شحنت Anthropic نموذجًا يركز على الرؤية أولاً — نموذج مصمم من الألف إلى الياء للتفكير البصري بدلاً من تكييفه من نموذج لغوي — فقد ينضمون إلى هذه المجموعة. عصر هيمنة شركة واحدة في الذكاء الاصطناعي البصري ينتهي.
ستصبح رؤية سلسلة التفكير وضع الاستدلال الافتراضي. كل نموذج يقدم متغير "تفكير" يتفوق على نظيره غير المفكر — باستمرار. Kimi K2.5 Thinking مقابل Instant. Claude Opus 4 Thinking مقابل القياسي. Gemini Flash Thinking مقابل غير المفكر. النمط عالمي. في غضون عام، أتوقع أن يصبح "التفكير" وضع الاستدلال القياسي، مع كون "الفوري" هو خيار التخفيض الصريح للحالات الحساسة للكمون.
سيعيد فهم الفيديو تشكيل هذه التصنيفات. تم تقييم معظم النماذج هنا على صور ثابتة. لكن المهام البصرية في العالم الحقيقي تتضمن بشكل متزايد الفيديو — خلاصات الأمان، تسلسلات التصوير الطبي، مراقبة جودة التصنيع، الملاحة الذاتية. النماذج التي يمكنها التفكير عبر الإطارات الزمنية، وليس فقط لقطات فردية، ستحدد الجيل القادم من هذه اللوحة. لدى Google و OpenAI أبحاث في هذا الاتجاه، لكن أول من يشحن فهم الفيديو بدرجة الإنتاج على نطاق واسع سيكتسب ميزة التحرك الأول الهائلة التي قد تستمر لسنوات.
ستخترق طبقة الوزن المفتوح أفضل 20. في الوقت الحالي، أعلى نموذج وزن مفتوح هو Gemma 3 27B في المركز #42. يجلس Llama 4 Maverick في المركز #49. تتحسن هذه النماذج بشكل أسرع من نظيراتها الاحتكارية لأنها تستفيد من الضبط الدقيق للمجتمع، وبيانات التدريب المخصصة، والتعديلات المعمارية التي لا يمكن لنماذج API فقط تلقيها. امنحها ربعين آخرين، وأتوقع نموذجًا واحدًا على الأقل مفتوح الوزن في أفضل 20 — مما سيغير بشكل أساسي اقتصاديات نشر الذكاء الاصطناعي البصري على نطاق واسع.
ستستحوذ النماذج الرأسية المتخصصة على معظم القيمة الاقتصادية. تقيم لوحة الصدارة الحالية الفهم البصري للأغراض العامة. لكن السوق يتجه نحو التخصص — نماذج التصوير الطبي التي تقرأ الأشعة السينية بشكل أفضل من أي نموذج عام، ونماذج صور الأقمار الصناعية المحسنة للكشف عن التغيير، وذكاء اصطناعي للمستندات مصمم خصيصًا للفواتير والعقود. ستظل اللوحة العامة هي العنوان الرئيسي، لكن المال الحقيقي سيكون في المتخصصين الرأسيين المبنيين فوق هذه الأسس.
توصياتي حسب حالة الاستخدام
بعد اختبار جميع النماذج الستين عبر سير العمل في العالم الحقيقي، إليك توجيهاتي المقطرة. لا يوجد نموذج واحد يفوز في كل مكان — يعتمد الاختيار الصحيح تمامًا على ما تقوم ببنائه.
أقصى دقة
Gemini 3 Pro — لا يزال الأفضل في التفاصيل الهيكلية، والتفكير المكاني، وتفسير المخططات المعقدة. عندما تكون الدقة غير قابلة للتفاوض، فهذا هو النموذج.
الإنتاج الحاسم للسرعة
Gemini 3 Flash — جودة قريبة من الرائد بكمون أقل بكثير. توصيتي الافتراضية للتطبيقات في الوقت الفعلي.
السرد وإمكانية الوصول
GPT-5.2 High — لا يقرأ الصور فحسب، بل يشرح ما تعنيه. الأفضل لتوليد النص البديل، والمحتوى التعليمي، وسرد القصص من المرئيات.
التفكير البصري العميق
Claude Opus 4 Thinking — أبطأ وأكثر تعمدًا، لكنه يلتقط الآثار التي يفوتها الآخرون. مثالي لمهام التحليل والمراجعة والتفسير.
متعدد اللغات و CJK OCR
Kimi K2.5 Thinking — استثنائي في نصوص CJK ومستندات اللغة المختلطة. قوي أيضًا كمفكر بصري للأغراض العامة في المستوى #6.
سيادة البيانات في الاتحاد الأوروبي
Mistral Medium — الخيار التنافسي الوحيد لأعباء العمل الصارمة في اللائحة العامة لحماية البيانات (GDPR). يحتفظ بصورك داخل البنية التحتية الأوروبية.
الاستضافة الذاتية والخصوصية
Llama 4 Maverick — رؤية مفتوحة الوزن تعمل على أجهزتك الخاصة. لا مكالمات API، لا بيانات تغادر محيط شبكتك.
واعٍ بالميزانية
GPT-5 Nano High — قادر بشكل مدهش بالنسبة لمستوى تكلفته. جيد بما يكفي للتصنيف، ووضع العلامات، والاستخراج البسيط بجزء صغير من الأسعار الرائدة.
استراتيجية الرؤية الأكثر قدرة في عام 2026 هي تنسيق النماذج المتعددة. قم بتوجيه التفكير المعقد إلى Claude. أرسل المستندات المنظمة إلى Gemini. قم بإنشاء أوصاف يمكن الوصول إليها باستخدام GPT-5.2. استخدم Kimi للمحتوى متعدد اللغات. لن يكون الفائزون هم أولئك الذين يختارون "أفضل" نموذج — بل سيكونون أولئك الذين يبنون طبقة التوجيه الأكثر ذكاءً.
مصدر البيانات: التصنيفات من Arena Vision Leaderboard، 6 فبراير 2026.
??????
0 ??????????? ???????
?? ??? ?? ????? ?????? ??? ??? ??????!