الاستدلال الرياضي لم يعد حكراً على بطل واحد. الفوز لمن يعرف متى يستخدم أي نموذج ولأي مشكلة.
قمت بتحديث ساحة الرياضيات هذا الصباح واضطررت للنظر مرتين. لأول مرة منذ أن بدأت في تتبع هذه التصنيفات، لم تعد OpenAI في القمة. انتزع Gemini 3 Pro من جوجل التاج في الاستدلال الرياضي، والقصة تزداد غرابة من هناك. شركة ناشئة مقرها بكين تدعى Moonshot هبطت للتو على المنصة بنموذج لم يجربه معظم المطورين الغربيين حتى. بعد أسابيع من اختبار الضغط لأفضل المنافسين في كل شيء من توافيق الأولمبياد إلى التحليل الحقيقي على مستوى الدراسات العليا، إليكم ما تخبرنا به بيانات فبراير حول الاتجاه الفعلي للذكاء الاصطناعي الرياضي.
تصنيف الرياضيات
الرياضيات تظل المعيار الأكثر صدقاً في الذكاء الاصطناعي. لا يمكنك استخدام السحر لحل معادلة تفاضلية أو تلفيق إثبات صحيح. الإجابة إما صحيحة أو ليست كذلك. هذا الوضوح الثنائي هو ما يجعل Math Arena المعيار الذي أثق به أكثر عند تقييم ما إذا كان النموذج يمكنه الاستدلال حقاً. إليكم جميع النماذج الـ 60 المصنفة اعتباراً من فبراير 2026.
| المرتبة | النموذج | النتيجة | الأصوات | المنظمة |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
جوجل تنتزع التاج
راقبت تطور الذكاء الاصطناعي الرياضي من جوجل لمدة ثلاث سنوات، وما أنجزوه هذا الشهر ليس أقل من مذهل. Gemini 3 Pro لم يحصل فقط على الذهب. وصل بفارق واضح عن البقية. لكن الحركة الحقيقية للقوة؟ Gemini 3 Flash يجلس خلفه مباشرة في المركز الفضي. تمتلك جوجل الآن الذهب والفضة معاً في ساحة الرياضيات. هذا لم يحدث من قبل.
ما يجعل هذا مهماً يتجاوز التصنيفات. إنها استراتيجية البنية. Gemini 3 Pro هو الوزن الثقيل، المصمم لأقصى عمق في الاستدلال، نوع النموذج الذي توجهه نحو إثباتات مستوى البحث والاشتقاقات متعددة الخطوات. تم تحسين Gemini 3 Flash للسرعة والتكلفة. حقيقة أن نموذجاً محسناً للسرعة يمكنه المنافسة على المستوى الفضي تخبرنا أن جوجل قد حلت شيئاً أساسياً حول كيفية جعل الاستدلال الرياضي أسرع دون التضحية بالدقة. يقدم متغير التفكير الأدنى (thinking-minimal) في المرتبة 8 مقايضة أخرى بين السعر والأداء، وتستمر خيول العمل القديمة مثل Gemini 2.5 Pro في المرتبة 12 و Gemini 2.5 Flash في المرتبة 46 في الخدمة بشكل موثوق.
تضع جوجل ستة نماذج في الـ 60 الأوائل عبر ثلاثة أجيال ومستويات أسعار متعددة. إنهم لا يبنون نموذج رياضيات رائعاً واحداً. إنهم يبنون حزمة استدلال رياضي كاملة، من Flash الميسور التكلفة إلى Pro الرائد، وجميعها تشترك في نفس التطورات الأساسية.
توقعي: ستحتفظ جوجل بهذا التقدم حتى منتصف عام 2026 على الأقل. نهجهم في تضمين الاستدلال الرياضي كقدرة أساسية عبر خط الإنتاج، بدلاً من تركيزه في نموذج رائد واحد، يدفع أرباحاً مركبة. إذا كنت تبني أي شيء يتطلب حوسبة رياضية موثوقة، من النمذجة المالية إلى المحاكاة العلمية، يجب أن يكون Gemini هو خيارك الأول الآن.
مفاجأة Moonshot
إليكم القصة التي لم يكن أحد يكتبها قبل ثلاثة أشهر. Moonshot's Kimi K2.5 Thinking هبط في المركز الثالث، متعادلاً في النقاط مع Gemini 3 Flash للمركز الفضي. دعوا ذلك يترسخ. نموذج من شركة ناشئة تأسست في عام 2023 يتساوى رياضياً مع ثاني أفضل عرض من جوجل.
لقد كنت أختبر Kimi K2.5 Thinking بشكل مكثف، وما يذهلني هو نهجه في الاستدلال الموسع. حيث تنتج نماذج التفكير الأخرى أحياناً سلاسل أفكار مسهبة تدور حول مشكلة قبل الهبوط، يبدو استدلال Kimi مباشراً بشكل يثير الأعصاب تقريباً. يحدد البنية الرياضية الأساسية بسرعة، ثم يبني نحو الحل بأقل قدر من الانحرافات. بالنسبة للمشكلات ذات نمط المنافسة حيث تحتاج إلى الدقة وسلسلة منطقية نظيفة، فإن هذه المباشرة ميزة حقيقية.
تضع Moonshot ثلاثة نماذج في الـ 60 الأوائل: Kimi K2.5 Thinking في المرتبة 3، و Kimi K2 Thinking Turbo في المرتبة 16، و Kimi K2 في المرتبة 39. ثلاث مستويات، فلسفة بنية واحدة. هذا النوع من التواجد متعدد المستويات من شركة ناشئة غير مسبوق. الرسالة واضحة: العصر الذي كانت فيه الشركات التي تبلغ قيمتها تريليون دولار فقط قادرة على بناء ذكاء اصطناعي رياضي عالمي المستوى قد انتهى. الاستثمار البحثي المركز في بنية الاستدلال يمكن أن ينافس ميزانيات الحوسبة الضخمة. توقعوا أن تتبع المزيد من المختبرات هذا الدليل طوال عام 2026.
OpenAI بعد العرش
دعوني أكون مباشراً. GPT-5.2 High، الذي حمل الذهب منذ ظهوره لأول مرة، يجلس الآن في المرتبة 4، متعادلاً مع Claude Opus 4.5. لقد أُخذ التاج. ولكن قبل أن يكتب أي شخص النعي، انظروا إلى الصورة الكاملة.
لا تزال OpenAI تضع اثني عشر نموذجاً في الـ 60 الأوائل، أكثر من أي منظمة أخرى. هذه ليست شركة في أزمة. هذه شركة ذات عمق في النظام البيئي لدرجة أن فقدان المركز الأول يتركها مهيمنة على المستويات المتوسطة والعليا. GPT-5.1 High يحتل المرتبة 6. نموذج الاستدلال o3 في المرتبة 11 يظل خياري المفضل لمشاكل مستوى المنافسة التي تتطلب حوسبة عميقة متعددة الخطوات. GPT-5 High في المرتبة 17، و GPT-5.2 القياسي في المرتبة 18، و o4-mini في المرتبة 36 يمنحون البنائين خيارات عبر كل مستوى سعر ومتطلب كمون.
ميزة السلسلة o
تحتل نماذج الاستدلال المخصصة من OpenAI (o3, o4-mini, o1, o3-mini) أربعة مراكز في الـ 60 الأوائل. بالنسبة للمشاكل التي تتطلب حوسبة ممتدة، أو إثبات عدم المساواة، أو تلبية القيود، أو الحجج التوافقية، يظل وقت التفكير القابل للتعديل للسلسلة o قوياً بشكل فريد. لا يوجد مزود آخر يقدم هذا المستوى من التحكم في عمق الاستدلال.
بالنظر إلى المستقبل، أعتقد أن رد OpenAI سيأتي بسرعة. الفجوة بين GPT-5.2 High و Gemini 3 Pro ليست مستحيلة التجاوز، وكان نمط OpenAI دائماً هو التكرار بقوة بعد فقدان الأرض. لن أتفاجأ برؤية GPT-5.3 أو تحديث كبير للاستدلال قبل الصيف. القصة الأعمق هنا ليست سقوطاً. إنها أن قمة ساحة الرياضيات أصبحت الآن تنافسية بشراسة لدرجة أن الاحتفاظ بالمركز الأول يتطلب ابتكاراً مستمراً، وليس إصداراً قوياً واحداً.
ثورة نماذج التفكير
افحص الـ 10 الأوائل في هذا التصنيف واحسب عدد أسماء النماذج التي تتضمن كلمة "thinking" (تفكير). الإجابة معبرة: Kimi K2.5 Thinking في المرتبة 3، Claude Opus 4.5 Thinking في المرتبة 7، Gemini 3 Flash thinking-minimal في المرتبة 8، Claude Sonnet 4.5 Thinking في المرتبة 10. وسع إلى الـ 20 الأوائل وستجدهم في كل مكان. هذا هو أكبر تحول هيكلي منفرد في الذكاء الاصطناعي الرياضي خلال العام الماضي.
تخصص هذه النماذج حوسبة إضافية في وقت الاستدلال للعمل من خلال المشاكل خطوة بخطوة قبل الالتزام بإجابة. إنه المعادل في الذكاء الاصطناعي لعالم رياضيات يمد يده لورقة مسودة قبل كتابة الإثبات النهائي. النتائج لا لبس فيها: تتفوق متغيرات التفكير باستمرار على نظيراتها القياسية في المهام الرياضية.
تحكي تنفيذات Anthropic هذه القصة بشكل جيد للغاية. Claude Opus 4.5 Thinking-32k في المرتبة 7 يتفوق على Opus 4.5 القياسي في المرتبة 5 عند إعطائه مساحة للاستدلال. Claude Sonnet 4.5 Thinking في المرتبة 10 يضرب أعلى بكثير من فئة وزنه، ويخترق الـ 10 الأوائل على الرغم من كونه نموذجاً متوسط المستوى حسب التصميم. تضع Anthropic ثمانية نماذج إجمالاً في الـ 60 الأوائل، وتظل سمتهم المميزة هي الوضوح التربوي. عندما أحتاج إلى نموذج لا يحل المشكلة فحسب، بل يشرح لماذا يعمل الحل بطريقة يمكن للطالب أن يتعلم منها حقاً، فإن Claude لا يزال لا مثيل له.
توقعي: بحلول نهاية عام 2026، سيختفي التمييز بين النماذج "القياسية" و "التفكير". سيقوم كل نموذج بتخصيص وقت الاستدلال ديناميكياً بناءً على تعقيد المشكلة. الجيل الحالي من متغيرات التفكير المسماة صراحة هو خطوة انتقالية نحو استدلال تكيفي عالمياً.
الخلاصة العملية بسيطة: إذا كانت الدقة تهم أكثر من الكمون، فاختر دائماً متغير التفكير. الارتفاع الرياضي متسق وحقيقي. بالنسبة لتطبيقات الإنتاج حيث يكون وقت الاستجابة حيوياً، تظل المتغيرات القياسية ممتازة. ولكن بالنسبة للبحث أو التعليم أو أي سيناريو يكون فيه الحصول على الإجابة الصحيحة أمراً بالغ الأهمية، فإن نماذج التفكير هي الحاضر والمستقبل.
المشهد الرياضي العالمي
اسحب الكاميرا للخلف وستحكي جغرافية هذا التصنيف قصتها الخاصة. من بين النماذج الـ 60 المصنفة، يأتي 26 من منظمات صينية. هذا 43% من المجال بأكمله. تحتل المختبرات الأمريكية 32 موقعاً بنسبة 53%، وتجلب Mistral التمثيل الأوروبي بنموذجين. قدرة الذكاء الاصطناعي الرياضي أصبحت الآن متعددة الأقطاب حقاً، وقد تسارع هذا التحول بشكل أسرع مما توقعه أي شخص تقريباً.
تبرز DeepSeek بـ ثمانية نماذج في الـ 60 الأوائل، متعادلة مع Anthropic لثاني أعلى عدد بعد OpenAI. تقدم عائلة v3.2 عبر المراكز 25 و 26 و 28 و 56 نطاقاً مثيراً للإعجاب، بينما تملأ سلسلة v3.1 و DeepSeek R1 المختبر في المعارك في المرتبة 49 المستويات المتوسطة. ما يجعل DeepSeek لافتاً للنظر هو نسبة التكلفة إلى القدرة. في اختباري، يقدم DeepSeek V3.2 أداءً رياضياً ضمن الـ 30 الأوائل بحوالي خمس ما تتقاضاه النماذج الرائدة. بالنسبة للفرق التي تعمل على نطاق واسع مع قيود الميزانية، فإن هذه النسبة تحويلية.
تساهم عائلة Qwen3 من Alibaba بـ سبعة نماذج، من Qwen3 Max Preview في المرتبة 15 وصولاً إلى المتغيرات مفتوحة الوزن التي يمكن للمطورين ضبطها بدقة على بنيتهم التحتية الخاصة. تهم استراتيجية الوزن المفتوح تلك الصناعات التي لديها متطلبات سيادة البيانات، وهي لعبة نظام بيئي متعمدة. تضع عائلة Grok من xAI ستة نماذج، بقيادة Grok 4.1 Thinking في المرتبة 13، والذي يواصل العثور على اختصارات أنيقة في المشاكل ذات نمط الإثبات. تحتل سلسلة GLM من Z.ai ثلاثة مراكز، وتساهم Baidu بثلاثة متغيرات ERNIE، ونرى إدخالات من Meituan و Tencent أيضاً.
عمق واتساع المشاركة يخبرني إلى أين يتجه الذكاء الاصطناعي الرياضي: لم يعد هذا سباقاً بين اثنين أو ثلاثة من المتصدرين. إنه نظام بيئي، والنظام البيئي يزداد ثراءً كل شهر. لا يمكن لأي دولة أو شركة أو تقليد بحثي واحد المطالبة باحتكار الاستدلال الرياضي بعد الآن. وبالنسبة لأولئك منا الذين يبنون على هذه الأدوات، فإن هذه المنافسة هي أفضل شيء كان يمكن أن يحدث.
دليلي الميداني
بعد سنوات من اختبار هذه النماذج في كل شيء من مشاكل الأولمبياد إلى الحسابات الهندسية في العالم الحقيقي، إليكم السؤال الذي يواصل البناؤون طرحه علي: أي نموذج يجب أن أستخدمه بالفعل؟ الإجابة الصادقة تعتمد كلياً على ما تبنيه.
دقة بمستوى البحث
Gemini 3 Pro في المرتبة 1. يتصدر نموذج جوجل الرائد في القدرة الرياضية الخام. خياري الأول للمشاكل الجديدة حيث لا تكون الصحة قابلة للتفاوض.
سرعة بلا تضحية
Gemini 3 Flash في المرتبة 2. دقة قريبة من المنصة بكمون وتكلفة أقل بكثير. مثالي لخطوط الأنابيب الرياضية للإنتاج التي تحتاج إلى كل من الجودة والإنتاجية.
الحصان الأسود
Kimi K2.5 Thinking في المرتبة 3. نهج Moonshot في الاستدلال فعال بشكل ملحوظ. يستحق الاستكشاف بجدية إذا لم تكن قد فعلت ذلك بعد، خاصة لمشاكل نمط المنافسة.
عمق النظام البيئي
OpenAI مع اثني عشر نموذجاً عبر كل مستوى. السلسلة o لرياضيات المنافسة، GPT-5.x للاستدلال العام. لا يوجد مزود آخر يقدم هذا النطاق.
أفضل الشروحات
Claude بثمانية نماذج في الـ 60 الأوائل. عندما يكون فهم لماذا الإجابة صحيحة مهماً بقدر الإجابة نفسها. وضوح تربوي لا مثيل له.
بطل الميزانية
DeepSeek بثمانية نماذج في الـ 60 الأوائل. قدرة الـ 30 الأوائل بجزء بسيط من التكلفة. ضروري للفرق التي تبني على نطاق واسع أو في بيئات حساسة للتكلفة.
لا يوجد ذكاء اصطناعي رياضي واحد هو الأفضل. الاستراتيجية الرابحة في عام 2026 هي التنسيق: Gemini للدقة والسرعة من الدرجة الأولى، سلسلة o من OpenAI للاستدلال العميق، Claude لقابلية الشرح، DeepSeek و Kimi للكفاءة. قم ببناء خط الأنابيب الخاص بك مع مقدمين متعددين وستتفوق باستمرار على أي نموذج واحد.
مصدر البيانات: التصنيفات من لوحة صدارة ساحة الرياضيات للذكاء الاصطناعي، 6 فبراير 2026.
??????
0 ??????????? ???????
?? ??? ?? ????? ?????? ??? ??? ??????!