لوحة تصدر حلبة الكتابة الإبداعية بالذكاء الاصطناعي — فبراير 2026

رؤية جوهرية

الكتابة الإبداعية هي المكان الذي ينحني فيه الذكاء الخام للذوق، وضبط النفس، والشجاعة لترك الأشياء الصحيحة غير مقولة.

ثلاث سنوات من الطلب من الذكاء الاصطناعي أن يروي لي قصصاً. ليست ملخصات، وليست مخططات—بل خيالاً حقيقياً. النوع الذي تدخل فيه شخصية إلى غرفة وتشعر بتغير درجة الحرارة. خلال تلك السنوات، شاهدت لوحة التصدر هذه تتحول من مجرد فضول إلى مقياس حقيقي للقدرة الأدبية. جلب فبراير 2026 التحول الأكثر إثارة للاهتمام حتى الآن: نموذج جديد تماماً وصل بهدوء، وصعد بسرعة، وضيق فجوة كانت تبدو دائمة قبل أسابيع قليلة فقط. إليك الصورة الكاملة—ستون نموذجاً تم تصنيفها وتحليلها ووضعها في سياقها من قبل شخص يعمل معها كل يوم.

لوحة تصدر الكتابة الإبداعية

الكود له بناء جملة (Syntax). الرياضيات لها براهين. لكن الكتابة الإبداعية لها صوت—إيقاع، مفاجأة، صدى عاطفي. هذه هي حلبة الكتابة الإبداعية، المعيار الأكثر تطلباً في تقييم الذكاء الاصطناعي، حيث يتم تصنيف ستين نموذجاً بناءً على مدى جودة سردها للقصص التي تحرك مشاعر الناس حقاً. إليك وضع كل شيء كما هو في فبراير 2026.

الرتبة	النموذج	النقاط	الأصوات	المنظمة
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

اضطراب فبراير

عندما استخرجت أحدث البيانات، أوقفني إدخال واحد: Claude Opus 4.6 جالس في المركز الثاني. ليس لأن وجود نموذج Anthropic في مركز مرتفع أمر غير معتاد—فهم يفعلون ذلك باستمرار. ولكن لأن هذا النموذج هبط في المركز الثاني دون أي تاريخ تقييم يذكر وراءه. هذا النوع من الإجماع المبكر نادر. إنه يعني أن الموجة الأولى من المختبرين—المهووسين الذين يشغلون مطالبات (prompts) متطابقة عبر كل إصدار جديد في غضون ساعات من الإطلاق—وجدوا شيئاً مختلفاً حقاً في مخرجاته الإبداعية.

القصة الحقيقية، مع ذلك، هي الفجوة. في يناير، كانت المسافة بين المركز الأول والمركز الثاني مريحة بمقدار خمس وعشرين نقطة. الآن أصبحت اثنتي عشرة. Gemini 3 Pro لا يزال يحمل الذهب، وقد استحق هذا المنصب بصدق. لكن الصدارة انخفضت إلى النصف في دورة تحديث واحدة. إذا كنت Google، فإن هذا الاتجاه يتطلب الانتباه. إذا كنت Anthropic، فهذا تأكيد على أن نهجك في تدريب الذكاء الاصطناعي الإبداعي يتقارب نحو شيء قوي.

في غضون ذلك، قامت النماذج التي تقع مباشرة أسفل المركزين الأولين بإعادة خلط أوراقها بشكل كبير. انتقل متغير "التفكير" (thinking) لـ Claude Opus 4.5 إلى المركز الثالث، دافعاً Opus 4.5 القياسي إلى المركز الرابع و Gemini 3 Flash إلى المركز الخامس. كان Flash يحتل المركز الثالث في الشهر الماضي فقط. المنصة لا تغير أصحابها في القمة فحسب—إنها غير مستقرة في كل مكان. وعدم الاستقرار، في تجربتي، يسبق الإنجازات الكبيرة.

القمم المسيطرة

يظل Gemini 3 Pro هو النموذج الذي ألجأ إليه عندما لا أعرف ما أحتاج إليه بعد. ما يبقيه في المركز الأول هو النطاق: اطلب منه أسلوب هيمنغواي وسيقدم نثراً مقتصداً وقوياً. اطلب خيالاً ما بعد حداثي تجريبي ويغير السجل دون فقدان التماسك. الرسائل الفيكتورية، الأدب الأسود المتشدد (noir)، الواقعية السحرية، أدب الأطفال—يتعامل Gemini مع هذه التحولات بطريقة توحي بفهم حقيقي للشكل، وليس محاكاة سطحية. تضع Google ستة نماذج في الستين الأوائل، مع Gemini 3 Flash في المركز الخامس و Gemini 2.5 Pro في المركز السادس ليكملوا ثلاثياً قوياً في القمة.

Claude حيوان مختلف تماماً. إذا كان Gemini هو النطاق، فإن Claude هو العمق. لطالما تفوقت نماذج Anthropic في التفاصيل الدقيقة التي يصعب تعليمها للآلة: متى تترك الصمت يحمل مشهداً، متى يجب أن تنكسر الجملة بدلاً من أن تستمر، متى يكشف ما لا تقوله الشخصية أكثر مما تقوله. Opus 4.6 يدفع هذا الأمر إلى أبعد من ذلك. في اختباراتي، أنتج حواراً بدا مأهولاً حقاً. لم تكن الشخصيات تلقي سطوراً—كانوا يفكرون، يترددون، يختارون الكلمات بالطريقة التي يفعلها الناس الحقيقيون عندما يكون هناك شيء مهم على المحك. تمتلك Anthropic الآن ثلاثة عشر نموذجاً في الستين الأوائل، أكثر من أي منظمة أخرى، مع خمسة مراكز في الأحد عشر الأوائل. أياً كان نهجهم لتدريب القدرة الإبداعية، فهو يعمل عبر خط منتجاتهم بالكامل.

إليك ملاحظة لا تحظى بالاهتمام الكافي: الاستدلال الموسع—وضع "التفكير" (thinking)—لا يحسن الكتابة الإبداعية بشكل موثوق. النمط غير متسق وكاشف بعمق.

بالنسبة لنماذج Claude Opus، تميل متغيرات "التفكير" إلى التصنيف أعلى قليلاً: Opus 4.5 Thinking في المركز الثالث مقابل القياسي في الرابع، Opus 4.1 Thinking في التاسع مقابل القياسي في الحادي عشر. يتفوق Grok 4.1 Thinking على متغيره القياسي بثلاثة مراكز. لكن انتقل إلى معماريات أخرى وينعكس النمط—أحياناً بشكل كبير. DeepSeek v3.2-exp القياسي يجلس في المركز الثامن والعشرين بينما ينخفض متغير التفكير الخاص به إلى المركز الثاني والأربعين. DeepSeek v3.1-terminus القياسي في المركز الثاني والعشرين؛ ونظيره المفكر ينخفض إلى الثامن والخمسين—فجوة ستة وثلاثين مركزاً. يتفوق GPT-5.2 القياسي على GPT-5.2-high.

ما يخبرني به هذا مهم: الكتابة الإبداعية ليست مشكلة استدلال في المقام الأول. إنها مشكلة جمالية. بالنسبة للنماذج التي تمتلك بالفعل غرائز أدبية قوية، يمكن للتفكير الموسع تحسين تلك الغرائز—مثل محرر دقيق يراجع مسودة أولى قوية. لكن بالنسبة للنماذج التي تكون قوتها الإبداعية أكثر غريزية وقائمة على الأنماط، فإن إجبار المداولة يصقل في الواقع الحواف الخشنة التي تجعل النثر يبدو حياً. أحياناً تلتقط الاستجابة الأولى شيئاً ينعمه الحساب الإضافي إلى مستوى المتوسط. إذا كنت تستخدم نماذج تدعم التفكير للعمل الإبداعي، جرب كلا الوضعين. الافتراض بأن المزيد من الاستدلال يساوي مخرجات أفضل لا يصمد هنا، وفهم متى توقف التفكير قد يكون أكثر قيمة من معرفة متى تشغله.

المد الصاعد

تحت المستوى الأعلى، القصة هي الانتشار والتنوع—ومن المحتمل أن تكون أكثر أهمية من السباق على المركز الأول.

تضع DeepSeek عشرة نماذج في الستين الأوائل، مما يجعلها ثالث أكثر منظمة تمثيلاً بعد Anthropic و OpenAI. تمتد متغيرات v3.1 و v3.2 الخاصة بهم من المركز الثاني والعشرين إلى الثامن والخمسين، وتغطي مجموعة من مستويات القدرة الإبداعية. كمشروع مفتوح الأوزان (open-weight)، تمثل DeepSeek شيئاً مختلفاً جوهرياً عن القادة المحتكرين: يمكن تنزيل هذه النماذج واستضافتها محلياً وضبطها بدقة (fine-tuned) لمهام إبداعية محددة. إذا كنت تبني أداة كتابة بالذكاء الاصطناعي أو تدمج قدرات إبداعية في خط إنتاج، فإن DeepSeek تقدم مرونة لا يمكن لنماذج الـ API فقط مضاهاتها.

الصورة الأوسع أكثر إثارة للدهشة. بين DeepSeek و Baidu و Moonshot و Alibaba و Z.ai و Tencent، تمثل مختبرات الذكاء الاصطناعي الصينية الآن اثنين وعشرين من أصل ستين نموذجاً مصنفاً—أكثر من ثلث لوحة التصدر بأكملها. ظهر Kimi K2.5 من Moonshot لأول مرة مع متغير التفكير الخاص به في المركز الحادي والعشرين، مما رفع الشركة إلى ثلاثة مراكز. تحتل Baidu ثلاثة مراكز مع تشكيلة ERNIE 5.0 الخاصة بها. Qwen3 من Alibaba لديه ثلاثة متغيرات مصنفة. GLM-4.7 من Z.ai يجلس في المركز السابع والعشرين. هذا ليس تقارباً—إنه تنوع حقيقي. تنتج بيانات التدريب المختلفة والسياقات الثقافية المختلفة والتقاليد الأدبية المختلفة نماذج ذات حساسيات إبداعية متميزة. لقد رأيت ERNIE يصوغ استعارات لا تخطر ببال النماذج المدربة غربياً، و GLM يتعامل مع السرد القصصي بطرق تبدو جديدة تماماً لأن الحمض النووي الأدبي مختلف. النظام البيئي العالمي للذكاء الاصطناعي الإبداعي أكثر ثراءً بفضل ذلك.

تمتلك OpenAI أحد عشر نموذجاً، على الرغم من أن قصتهم الإبداعية لها حبكة فرعية مثيرة للاهتمام. GPT-4.5-preview في المركز الثاني عشر يتقدم على كل من GPT-5.1-high في الرابع عشر و GPT-5.1 القياسي في الثالث والعشرين. أحياناً يتفوق نموذج محسن للفروق الدقيقة على خليفته المتفوق تقنياً في المهام التي تقدر الدقة على القدرة الخام. يعزز ChatGPT-4o-latest في المركز السابع عشر هذه النقطة: النماذج المحسنة للمحادثة تحمل ميزة متأصلة في الكتابة الإبداعية لأن سرد القصص هو في الأساس محادثة. أنت لا تحسب إجابة—أنت تحافظ على صوت.

نحت Grok هوية إبداعية حقيقية مع سبعة نماذج مصنفة. حيث يتفوق Claude في الذكاء العاطفي، يجلب Grok الصدق العاطفي. الفكاهة أكثر حدة، والاستعارات أكثر جرأة، والشخصيات أقل صقلاً وأكثر حيوية. عندما أريد كتابة تخاطر—خيال قد يجعل القارئ غير مرتاح بطريقة مثمرة—فإن Grok هو المكان الذي أبدأ منه. إنه النموذج الأقل خوفاً من صوته الخاص، وفي الكتابة الإبداعية، الجرأة تهم. يمثل medium-2508 من Mistral في المركز السادس والخمسين وجود أوروبا على اللوحة. يضيف Hunyuan من Tencent في المركز الثالث والخمسين صوتاً آخر من الصين. لم يكن المجال أوسع من أي وقت مضى.

إلى أين يتجه كل هذا

سأخبركم بما أعتقد أنه سيحدث بعد ذلك، لأن الاتجاهات في هذه البيانات تشير إلى مكان محدد.

الفجوة تستمر في التقلص. الانتشار بين المركز الأول والمركز الستين هو تقريباً 7.4 بالمائة—ضيق بالمعايير التاريخية، ويضيق مع كل تحديث. نحن نقترب من عتبة حيث تتحول الاختلافات ذات المعنى بين النماذج من الجودة الخام إلى الشخصية الإبداعية. يتوقف السؤال عن أن يكون "أي نموذج يكتب بشكل أفضل" ويصبح "صوت أي نموذج يناسب هذا المشروع المحدد". هذا تغيير أساسي في كيفية تفكير الكتاب والفرق الإبداعية في اختيار الذكاء الاصطناعي.

النماذج الإبداعية المتخصصة لا مفر منها. دفعت العمارة ذات الأغراض العامة جودة الكتابة الإبداعية بعيداً بشكل ملحوظ، لكن القفزة الحقيقية التالية ستأتي من نماذج مضبوطة صراحةً للهيكل السردي، أو اتساق الشخصية، أو أصالة الحوار، أو الشكل الشعري. أتوقع أن يطلق مختبر رئيسي واحد على الأقل نموذجاً متخصصاً في الإبداع بحلول النصف الثاني من هذا العام—نموذج يلتزم تماماً بالقدرة الأدبية بدلاً من محاولة حل الرياضيات وكتابة التعليمات البرمجية وسرد القصص في وقت واحد. عندما يحدث ذلك، سيعيد ضبط قمة لوحة التصدر هذه بين عشية وضحاها.

النماذج مفتوحة الأوزان ستغلق الفجوة المتبقية. وجود عشرة نماذج لـ DeepSeek هو المؤشر الرائد. مع اقتراب البدائل المفتوحة من التكافؤ مع الأنظمة المحتكرة في المعايير الإبداعية، تتغير اقتصاديات الكتابة بمساعدة الذكاء الاصطناعي بشكل كبير. يكتسب الكتاب والاستوديوهات والناشرون إمكانية الوصول إلى ذكاء اصطناعي إبداعي من الدرجة الأولى دون تسعير لكل رمز (token)، مما يغير منحنيات التبني والعلاقة الأساسية بين الكتاب البشر وأدوات الذكاء الاصطناعي.

الحدود الحقيقية هي التنسيق (Orchestration)، وليست العزلة. العمل الإبداعي الأكثر تطوراً الذي رأيته مؤخراً لا يستخدم نموذجاً واحداً—إنه يستخدم ثلاثة أو أربعة بالتسلسل. Gemini للتفكير الأولي والاستكشاف الأسلوبي. Claude للتنقيح العاطفي وصقل الحوار. DeepSeek أو Qwen لوجهات نظر ثقافية بديلة. Grok عندما تحتاج المسودة إلى حدة. المستقبل لا يتعلق بتتويج نموذج واحد ملكاً. إنه يتعلق بتعلم قيادة فرقة، ومطابقة الشخصية الإبداعية لكل نموذج مع اللحظة المناسبة في عملية الكتابة. الكتاب الذين يكتشفون هذا أولاً سينتجون عملاً يبدو مختلفاً عن أي شيء يمكن لنموذج واحد—أو إنسان واحد—تحقيقه بمفرده.

اختيار شريكك الإبداعي

بعد سنوات من الكتابة جنباً إلى جنب مع هذه النماذج، إليك ما تعلمته حول مطابقة الأداة المناسبة بالمهمة المناسبة:

تعدد الاستخدامات

Gemini 3 Pro يتكيف مع أي نوع، أي شكل، أي نبرة. عندما يكون الموجز غير محدد أو يتطلب المشروع نطاقاً واسعاً، ابدأ من هنا.

العمق العاطفي

Claude Opus 4.6 يكتب بضبط النفس وشعور حقيقي. للحوار، والعمل على الشخصيات، والنثر حيث يهم ما لم يُقل أكثر.

السرعة والجودة

Gemini 3 Flash يثبت أن السرعة لا تعني الأسوأ. للصياغة التكرارية، والمشاريع كبيرة الحجم، والنماذج الأولية السريعة للأفكار السردية.

الشخصية

Grok 4.1 يخاطر بمخاطر إبداعية لن تأخذها نماذج أخرى. للقصص الخيالية التي تحتاج إلى حدة، وفكاهة، وشخصيات تبدو حية بدلاً من مجمعة.

المؤسسات

GPT-4.5 / GPT-5.1 تقدم مخرجات مصقولة وموثوقة تندمج في سير العمل الحالي. عندما يكون الاتساق وسلامة العلامة التجارية بنفس أهمية الإبداع.

مفتوح المصدر

DeepSeek / Qwen: استضفه بنفسك، واضبطه بدقة لمجالك. عندما تحتاج إلى ذكاء اصطناعي إبداعي على نطاق واسع دون تكاليف لكل رمز، فإن الاقتصاد لا يهزم.

لا يوجد أفضل ذكاء اصطناعي إبداعي واحد. هناك أصوات متطورة ذات نقاط قوة مختلفة، وتكمن القوة الحقيقية في معرفة أي صوت يخدم أي لحظة في القصة التي تحاول روايتها.

مصدر البيانات: تصنيفات حلبة الكتابة الإبداعية بالذكاء الاصطناعي، 6 فبراير 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard