أصبح النموذج الأسرع للتو هو أفضل باحث. في الاسترجاع، التفكير الأسرع يتغلب على التفكير الأعمق.
لقد أمضيت العام الماضي في إخضاع كل محرك بحث يعمل بالذكاء الاصطناعي لنفس مجموعة الاختبارات — عمليات بحث واقعية، واستفسارات دقيقة متعددة المصادر، وأخبار عاجلة حساسة للوقت، وحيل خصومة متعمدة مصممة لإثارة الهلوسة. كنت أعتقد أنني أعرف التسلسل الهرمي. ثم في أواخر يناير، ادعى نموذج فلاش (Flash) خفيف الوزن من جوجل — النموذج الذي كنت أعامله دائمًا كخيار الميزانية — بهدوء المركز الأول في حلبة البحث (Search Arena). تم التحقق منه عبر آلاف المواجهات المباشرة العمياء. نموذج مصمم للسرعة، يتغلب على كل نموذج مصمم للعمق. غيّرت هذه النتيجة الفردية نموذجي الذهني لما يجب أن يكون عليه بحث الذكاء الاصطناعي. بعد تحليل الترتيب الكامل لـ 19 نموذجًا، أعتقد أنه يجب أن يغير نموذجك أيضًا.
ترتيب البحث
تعكس التصنيفات الكاملة أدناه موقع كل نموذج بحث بالذكاء الاصطناعي اعتبارًا من 29 يناير 2026. تسعة عشر نموذجًا من سبع منظمات، تم اختبار كل منها في مقارنات عمياء وجهاً لوجه حيث اختار مستخدمون حقيقيون الإجابة الأفضل. لقد ربطت كل نموذج بوثائقه الرسمية — اختبرها بنفسك.
| الرتبة | النموذج | النتيجة | الأصوات | المنظمة |
|---|---|---|---|---|
🥇 | Gemini 3 Flash Grounding | 1224 | 11,062 | |
🥈 | Gemini 3 Pro Grounding | 1219 | 18,839 | |
🥉 | Gpt 5.2 Search | 1218 | 12,157 | OpenAI |
#4 | Gpt 5.1 Search | 1207 | 14,152 | OpenAI |
#5 | Gpt 5.2 Search Non Reasoning | 1189 | 5,510 | OpenAI |
#6 | Grok 4 1 Fast Search | 1185 | 14,111 | xAI |
#7 | Claude Opus 4 5 Search | 1179 | 4,293 | Anthropic |
#8 | Grok 4 Fast Search | 1170 | 31,388 | xAI |
#9 | O3 Search | 1144 | 21,056 | OpenAI |
#10 | Gemini 2.5 Pro Grounding | 1143 | 36,828 | |
#11 | Ppl Sonar Reasoning Pro High | 1143 | 29,825 | Perplexity |
#12 | Grok 4 Search | 1142 | 19,628 | xAI |
#13 | Claude Sonnet 4 5 Search | 1142 | 4,348 | Anthropic |
#14 | Claude Opus 4 1 Search | 1139 | 36,199 | Anthropic |
#15 | Gpt 5 Search | 1133 | 21,212 | OpenAI |
#16 | Ppl Sonar Pro High | 1133 | 29,379 | Perplexity |
#17 | Claude Opus 4 Search | 1132 | 32,002 | Anthropic |
#18 | Diffbot Small Xl | 1024 | 6,473 | Diffbot |
#19 | Api Gpt 4o Search | 1008 | 3,399 | OpenAI |
ثورة فلاش
Gemini 3 Flash Grounding في المركز الأول، فوق Gemini 3 Pro Grounding في المركز الثاني. نموذج خفيف الوزن مصمم للسرعة، يتفوق على نموذج التفكير كامل الوزن. هذا ليس شذوذًا إحصائيًا — إنه تحول نموذجي فيما يصنع محرك بحث رائع.
لسنوات، كان الافتراض بسيطًا: النماذج الأكبر ذات سلاسل التفكير الأعمق تنتج نتائج أفضل. هذا صحيح بالنسبة للبرمجة والرياضيات والتحليل المعقد. لكن البحث ليس مهمة تفكير في جوهرها — إنها مهمة استرجاع. عندما أسأل "ما هو الأمر التنفيذي الذي تم توقيعه أمس؟"، لست بحاجة إلى نموذج يتداول لمدة 30 ثانية لبناء سلسلة تفكير معقدة. أحتاج إلى نموذج يحدد بسرعة المصدر الأكثر موثوقية، ويستخرج المعلومات ذات الصلة، ويسلمها قبل أن تمر اللحظة. تم بناء فلاش (Flash) لهذا النوع من السرعة بالضبط، وتؤكد نتائج الحلبة أنه يعمل.
الدليل أعمق من تشكيلة جوجل. انظر إلى رقم 5: GPT-5.2 Search Non-Reasoning — نموذج البحث الخاص بـ OpenAI مع إزالة آلية سلسلة الأفكار. إنه يتفوق على العديد من النماذج ذات قدرات التفكير الكاملة. شركتان مختلفتان، هندستان معماريتان مختلفتان، كلاهما يصل إلى نفس النتيجة: بالنسبة للبحث، الأقل وزناً والأسرع هو الفائز. هذا هو الاتجاه الأكثر أهمية في البيانات، وأتوقع أن يتصرف كل مختبر رئيسي بناءً عليه بحلول منتصف عام 2026.
حرب الحقائق: تحليل عميق
جوجل: عندما أصبحت السرعة حكمة
تسيطر جوجل على ثلاثة مراكز في هذا الترتيب، ويحكي التسلسل الهرمي الداخلي قصة تستحق الفهم. Flash يتصدر في المركز الأول. Pro يليه في المركز الثاني. المخضرم Gemini 2.5 Pro Grounding يجلس في المركز العاشر بأكبر عدد من الأصوات لأي نموذج على اللوحة، مما يرسخ تشكيلة جوجل كخط أساس للموثوقية التي تم اختبارها في المعركة.
ميزة جوجل
أمضت جوجل أكثر من عقدين في فهرسة الإنترنت. عندما أبحث عن أوراق أكاديمية، أو ملفات حكومية، أو معايير فنية، يظهر جيمناي (Gemini) باستمرار المصدر الأساسي بدلاً من ملخص ثانوي أو مشاركة مدونة. تلك الذاكرة المؤسسية — مليارات الصفحات المفهرسة والمصنفة والمرجعية — لا يمكن تكرارها ببنية محولات (transformer) أفضل وحدها. إنه خندق بيانات مركب يتعمق مع مرور كل عام.
توقعي: ستميل جوجل بقوة إلى نماذج فئة فلاش للبحث بينما تعيد وضع Pro لمهام البحث العميق — تحليل متعدد الخطوات، ومراجعات الأدبيات، والمقارنات المعقدة حيث تضيف سلاسل التفكير قيمة حقيقية. ينقسم البحث (search) والبحث العميق (research) إلى فئات منتجات متميزة، وجوجل هي الشركة الوحيدة التي تتمتع بمكانة لقيادة كليهما في وقت واحد.
OpenAI: ست محاولات للعرش
مع ستة نماذج عبر 19 خانة، تمتلك OpenAI أوسع محفظة بحث لأي منظمة. GPT-5.2 Search في المركز الثالث يجلس بفارق نقطة واحدة خلف Gemini Pro. GPT-5.1 Search يحتل المركز الرابع. معًا يمثلان أقوى حجة لـ OpenAI: لا أحد يفهم استفسارات البحث بشكل أفضل.
حيث تتفوق OpenAI باستمرار: فهم الاستعلام. اختبر هذا بنفسك — اطرح سؤالًا دقيقًا مثل "لماذا يدعم بعض الاقتصاديين التعريفات الجمركية بينما يصفها آخرون بأنها مدمرة؟" يجد جيمناي مصادر موثوقة حول التعريفات. يفهم GPT-5.2 أنك تريد وجهات نظر متناقضة وينظم الإجابة وفقًا لذلك. إنه يقرأ النية، وليس الكلمات الرئيسية فقط.
المتغير غير الاستدلالي (Non-Reasoning) في المركز الخامس هو المدخل الأكثر دلالة لـ OpenAI. من خلال إزالة حلقة سلسلة الأفكار التداولية، قاموا بإنشاء نموذج يتفوق في الاسترجاع المباشر — إجابات سريعة ونظيفة ومركزة دون عبء التفكير الصريح. للتحقق السريع من الحقائق والأسئلة المباشرة، فإنه فعال بشكل ملحوظ. وفي الوقت نفسه، يمثل O3-Search في المركز التاسع الفلسفة المعاكسة: جلب قوة تفكير ثقيلة للبحث. إنه يؤدي بشكل جيد، لكن فجوة الترتيب تشير إلى أن السوق يفضل السرعة لمعظم مهام البحث.
ستكون الخطوة المنطقية التالية لـ OpenAI هي منافس مخصص لفلاش خاص بالبحث. البيانات تجعل حالة العمل واضحة، وسأفاجأ حقًا إذا لم يشحنوا واحدًا بحلول الربع الثالث من عام 2026.
Anthropic: الصعود الصامت
هذه هي القصة الأكبر التي لا يناقشها أحد بما فيه الكفاية. انتقلت Anthropic من نموذجين للبحث في مراجعتي السابقة إلى أربعة. يظهر Claude Opus 4.5 Search لأول مرة في المركز السابع — وهو أعلى مركز لهم على الإطلاق في هذه اللوحة. يدخل Claude Sonnet 4.5 Search في المركز الثالث عشر. يحتفظ Opus 4.1 بالمركز الرابع عشر، ويرسو Opus 4 Search في المركز السابع عشر. أربعة نماذج تغطي مجموعة واسعة من مستويات الأسعار والقدرات — تلك شركة تأخذ البحث بجدية بالغة كفئة منتج.
التواضع المعرفي كميزة
ما الذي يجعل نهج بحث Anthropic مختلفًا بشكل أساسي؟ عدم اليقين المعاير. عندما أختبر الحالات الصعبة — الاستفسارات التي تتعارض فيها المصادر، والمواضيع ذات البيانات غير المكتملة، والأسئلة على حدود المعرفة الراسخة — فإن Claude هو النموذج الوحيد الذي يقول بشكل موثوق "الأدلة حول هذا مختلطة" بدلاً من توليد إجابة تبدو معقولة ولكنها غير مدعومة. لأي شخص في الطب أو القانون أو التمويل أو الصحافة، هذا ليس تفضيلاً فلسفيًا. إنها أداة لتخفيف المخاطر تمنع الأخطاء المكلفة.
أتوقع أن تستمر Anthropic في الصعود. يعالج نهجهم المنهجي لموثوقية البحث أكبر وضع فشل فردي في بحث الذكاء الاصطناعي: الهلوسة الواثقة. مع تسارع تبني المؤسسات خلال عام 2026، ستنمو العلاوة على إجابات "لا أعرف" الصادقة فقط. راقب هذه المساحة بعناية.
xAI: ميزة الوقت الفعلي
ثلاثة نماذج، جميعها في الـ 12 الأوائل. Grok 4.1 Fast Search في المركز السادس، و Grok 4 Fast Search في المركز الثامن، و Grok 4 Search في المركز الثاني عشر. لاحظ أن كلا متغيري "Fast" يتفوقان على النموذج القياسي — نقطة بيانات أخرى تؤكد أطروحة السرعة أولاً التي تسري عبر هذا الترتيب بالكامل.
المكان الذي يبرز فيه Grok بصدق هو الذكاء الاجتماعي في الوقت الفعلي. إذا كنت بحاجة إلى فهم ما يناقشه الناس الآن — الخلافات الناشئة، والتطورات العاجلة، واللحظات الثقافية التي تتكشف في الوقت الفعلي — فإن تكامل Grok العميق مع X يمنحه إمكانية الوصول إلى خرطوم مياه من الخطاب البشري المباشر لا يمكن لأي نموذج آخر على هذه اللوحة مطابقته. لقد اختبرت هذا مرارًا وتكرارًا أثناء أحداث الأخبار العاجلة، وفجوة السرعة إلى الصلة بين Grok وكل شيء آخر ملحوظة.
القيد هو نفسه الذي أشير إليه دائمًا: تعكس وسائل التواصل الاجتماعي المحادثة، وليس بالضرورة الحقيقة. المشاعر العامة والحقائق التي تم التحقق منها شيئان مختلفان. للوعي بالأخبار العاجلة، Grok هو اتصالي الأول. للاستنتاجات التي تم التحقق منها، أقوم بالرجوع المتبادل مع Gemini أو Perplexity قبل الالتزام بأي شيء كتابيًا. يعتمد مسار xAI طويل المدى على مدى فعالية توسعهم إلى ما وراء البيانات الاجتماعية — إذا قاموا ببناء فهرسة الويب التقليدية مع الحفاظ على ميزتهم في الوقت الفعلي، فقد يتحدون الثلاثة الأوائل.
Perplexity: إثبات كل كلمة
Perplexity Sonar Reasoning Pro في المركز الحادي عشر و Sonar Pro في المركز السادس عشر قد لا يحتلان المواقع الأكثر بريقًا، لكن السياق مهم: كلا النموذجين يحملان بعضًا من أعلى أعداد الأصوات على اللوحة بأكملها. هذا ليس وافدًا جديدًا يركب درجة مبكرة متضخمة. إنها أداة تم اختبارها في المعركة على نطاق واسع وصمدت في مكانها.
تظل فلسفة Perplexity بسيطة بشكل أنيق: تأتي كل إجابة مع مصادرها. لا استثناءات. للبحث الأكاديمي، والملخصات القانونية، والصحافة الاستقصائية — أي مجال حيث "ثق بي" ليس اقتباسًا مقبولاً — Perplexity ليس اختياريًا. إنها الطريقة التي تثبت بها أن معلوماتك لها مصدر. أستخدمه كلما احتجت ليس فقط للعثور على إجابة، بل لإثبات من أين أتت تلك الإجابة.
مستقبل Perplexity لا يتعلق بتسلق الترتيب الخام. إنه يتعلق بتعزيز نظام الاقتباس — تحقق أفضل من المصدر، وتكامل قاعدة البيانات الأكاديمية، وتتبع مصدر المعلومات. لقد اقتطعوا مكانًا دفاعيًا يصبح أكثر قيمة مع مرور كل شهر حيث يغمر المحتوى الناتج عن الذكاء الاصطناعي الويب المفتوح ويصبح التحقق من المصدر مهمًا وجوديًا.
إلى أين يتجه البحث
تشير الأنماط في هذه البيانات بوضوح إلى أين يتجه بحث الذكاء الاصطناعي خلال الفترة المتبقية من عام 2026. إليك ما أنا واثق منه بناءً على المسارات التي كنت أتتبعها.
ستصبح نماذج فئة فلاش المعيار للبحث. البيانات لا لبس فيها. لمهام الاسترجاع، تتفوق النماذج المحسنة للسرعة على النماذج الثقيلة في التفكير. سيشحن كل مزود رئيسي نموذجًا خفيف الوزن خاصًا بالبحث في غضون أشهر. سيصبح التمييز بين "نماذج البحث" و"نماذج البحث العميق" طبيعيًا مثل التمييز بين بحث الويب وقواعد البيانات الأكاديمية.
البحث غير الاستدلالي يصبح فئة معترف بها. أثبت متغير GPT-5.2 غير الاستدلالي في المركز الخامس صحة المفهوم. تجريد سلسلة التفكير من نماذج البحث ليس تخفيضًا — إنه تحسين لملف تعريف مهمة محدد. توقع نماذج بحث مخصصة تتخطى التفكير التداولي تمامًا وتركز على تحديد المصدر واستخراجه السريع.
Anthropic ستتحدى الخمسة الأوائل. يشير مسارهم — التضاعف من نموذجين إلى أربعة مع أعلى موضع لهم على الإطلاق في المركز السابع — إلى استثمار مركز. يضع التواضع المعرفي لـ Claude بشكل فريد لتبني المؤسسات، حيث تحمل الثقة المفرطة مسؤولية مالية وقانونية حقيقية.
تنسيق النماذج المتعددة يصبح سائدًا. انظر إلى ضغط منتصف الجدول: المراكز من 9 إلى 17 مفصولة بـ 12 نقطة فقط. تسعة نماذج، لا يمكن تمييزها تقريبًا في الأداء الكلي، ولكل منها نقاط قوة مختلفة بشكل مفيد. المحترفون الذين أعمل معهم يوجهون بالفعل أنواع استعلام مختلفة إلى نماذج مختلفة. ستظهر الأدوات التي تؤتمت هذا التنسيق كفئة منتج بحد ذاتها.
التحقق من الاقتباس يصبح ساحة المعركة التالية. مع استمرار المحتوى الناتج عن الذكاء الاصطناعي في إشباع الويب، فإن إثبات أن مصادرك حقيقية — وأن إجابتك تعود إلى مستند يمكن التحقق منه كتبه إنسان — سيتحول من ميزة إضافية لطيفة إلى توقع أساسي. كانت Perplexity رائدة في هذا النهج، لكن كل منتج بحث جاد سيحتاج إليه.
مجموعة أدوات البحث الخاصة بي
حقائق موثوقة
Gemini 3 Flash Grounding — عقدان من الفهرسة بالإضافة إلى السرعة. الرقم 1 الجديد لسبب وجيه.
توليف معقد
GPT-5.2 Search — يقرأ النية، وليس الكلمات الرئيسية. ينظم وجهات النظر المتناقضة بشكل أفضل من أي شيء آخر.
استعلامات عالية المخاطر
Claude Opus 4.5 Search — عندما تكلف الثقة المفرطة المال، اختر النموذج الذي يعترف بعدم اليقين.
نبض الوقت الفعلي
Grok 4.1 Fast Search — ما يناقشه الناس الآن، قبل أن يكتب أي شخص المقال.
أظهر مصادرك
Perplexity Sonar Reasoning Pro — عندما تحتاج إلى إثبات ذلك، وليس مجرد قوله.
تحقق سريع من الحقائق
GPT-5.2 Non-Reasoning Search — إجابات سريعة ونظيفة بدون عبء التفكير.
أفضل باحثة أعرفها لا تستخدم محرك بحث واحد. إنها تستخدم خمسة — كل منها مضبوط لنوع مختلف من الحقيقة. هذا ليس عدم كفاءة. هذه خبرة. انتهى عصر "محرك بحث واحد ليحكمهم جميعًا". اتقن المجموعة.
مصدر البيانات: التصنيفات من ترتيب حلبة البحث، 29 يناير 2026.
??????
0 ??????????? ???????
?? ??? ?? ????? ?????? ??? ??? ??????!