Papan Pendahulu Arena Penulisan Kreatif AI — Februari 2026

Wawasan Teras

Penulisan kreatif ialah tempat kecerdasan mentah tunduk kepada cita rasa, kekangan, dan keberanian untuk membiarkan perkara yang betul tidak diperkatakan.

Tiga tahun meminta AI untuk menceritakan kisah kepada saya. Bukan ringkasan, bukan rangka—fiksyen sebenar. Jenis di mana watak berjalan masuk ke dalam bilik dan anda merasakan suhu berubah. Sepanjang tahun-tahun itu, saya telah melihat papan pendahulu ini berubah daripada satu rasa ingin tahu menjadi barometer sebenar keupayaan sastera. Februari 2026 membawa perubahan paling menarik setakat ini: model baharu yang tiba dengan senyap, mendaki dengan pantas, dan merapatkan jurang yang kelihatan kekal hanya beberapa minggu lalu. Berikut ialah gambaran penuh—enam puluh model disenaraikan, dianalisis, dan diletakkan dalam konteks oleh seseorang yang bekerja dengan mereka setiap hari.

Papan Pendahulu Penulisan Kreatif

Kod mempunyai sintaks. Matematik mempunyai bukti. Tetapi penulisan kreatif mempunyai suara—ritma, kejutan, resonans emosi. Ini ialah Arena Penulisan Kreatif, penanda aras paling menuntut dalam penilaian AI, di mana enam puluh model disenaraikan mengikut sejauh mana mereka menceritakan kisah yang benar-benar menggerakkan orang. Inilah kedudukan segalanya setakat Februari 2026.

Kedudukan	Model	Skor	Undian	Organisasi
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Gangguan Februari

Apabila saya menarik data terkini, satu entri menghentikan saya: Claude Opus 4.6 duduk di nombor dua. Bukan kerana model Anthropic yang berkedudukan tinggi adalah luar biasa—mereka telah melakukannya secara konsisten. Tetapi kerana model ini mendarat di kedudukan kedua dengan hampir tiada sejarah penilaian di belakangnya. Konsensus awal sebegitu jarang berlaku. Ini bermakna gelombang pertama penguji—golongan obsesif yang menjalankan gesaan yang sama melalui setiap keluaran baharu dalam beberapa jam selepas pelancaran—menemui sesuatu yang benar-benar berbeza dalam output kreatifnya.

Kisah sebenar, bagaimanapun, adalah jurang itu. Pada bulan Januari, jarak antara tempat pertama dan kedua adalah selesa dua puluh lima mata. Sekarang dua belas. Gemini 3 Pro masih memegang emas, dan memperoleh kedudukan itu dengan jujur. Tetapi pendahuluan itu telah berkurangan separuh dalam satu kitaran kemas kini. Jika anda Google, trend itu menuntut perhatian. Jika anda Anthropic, itu adalah pengesahan bahawa pendekatan anda terhadap latihan AI kreatif sedang berkumpul pada sesuatu yang berkuasa.

Sementara itu, model-model tepat di bawah dua teratas telah bertukar kedudukan dengan ketara. Varian pemikiran Claude Opus 4.5 naik ke tempat ketiga, menolak Opus 4.5 standard ke tempat keempat dan Gemini 3 Flash turun ke tempat kelima. Flash memegang tempat ketiga baru bulan lepas. Podium bukan sahaja bertukar tangan di puncak—ia tidak stabil di seluruh bahagian. Dan ketidakstabilan, pada pengalaman saya, mendahului kejayaan.

Puncak Menguasai

Gemini 3 Pro kekal sebagai model yang saya cari apabila saya belum tahu apa yang saya perlukan. Apa yang mengekalkannya di nombor satu adalah julatnya: minta gaya Hemingway dan ia memberikan prosa yang jimat dan berotot. Minta fiksyen pascamoden eksperimen dan ia mengubah laras bahasa tanpa kehilangan keselarasan. Epistolari Victoria, noir hardboiled, realisme magis, sastera kanak-kanak—Gemini mengendalikan peralihan ini dengan cara yang mencadangkan pemahaman tulen tentang bentuk, bukan peniruan permukaan. Google meletakkan enam model dalam enam puluh teratas, dengan Gemini 3 Flash di tempat kelima dan Gemini 2.5 Pro di tempat keenam melengkapkan trio yang kuat di puncak.

Claude adalah haiwan yang sama sekali berbeza. Jika Gemini adalah julat, Claude adalah kedalaman. Model Anthropic sentiasa cemerlang dalam kehalusan yang paling sukar diajar kepada mesin: bila membiarkan kesunyian membawa adegan, bila ayat harus putus dan bukannya bersambung, bila apa yang tidak dikatakan oleh watak mendedahkan lebih banyak daripada apa yang mereka katakan. Opus 4.6 mendorong ini lebih jauh. Dalam ujian saya, ia menghasilkan dialog yang terasa benar-benar didiami. Watak tidak menyampaikan baris—mereka berfikir, teragak-agak, memilih perkataan seperti yang dilakukan orang sebenar apabila sesuatu yang penting dipertaruhkan. Anthropic kini mempunyai tiga belas model dalam enam puluh teratas, lebih banyak daripada mana-mana organisasi lain, dengan lima diletakkan dalam sebelas teratas. Apa sahaja pendekatan mereka untuk melatih keupayaan kreatif, ia berfungsi merentasi keseluruhan barisan produk mereka.

Inilah pemerhatian yang tidak mendapat perhatian yang cukup: penaakulan lanjutan—mod "thinking"—tidak meningkatkan penulisan kreatif dengan pasti. Coraknya tidak konsisten dan sangat mendedahkan.

Untuk model Claude Opus, varian berfikir cenderung berkedudukan sedikit lebih tinggi: Opus 4.5 Thinking di tempat ketiga berbanding standard di tempat keempat, Opus 4.1 Thinking di tempat kesembilan berbanding standard di tempat kesebelas. Grok 4.1 Thinking mengatasi varian standardnya dengan tiga kedudukan. Tetapi beralih kepada seni bina lain dan coraknya terbalik—kadangkala secara mendadak. DeepSeek v3.2-exp standard duduk di tempat kedua puluh lapan manakala varian pemikirannya jatuh ke tempat keempat puluh dua. DeepSeek v3.1-terminus standard berada di tempat kedua puluh dua; rakan sejawat pemikirannya jatuh ke tempat lima puluh lapan—jurang tiga puluh enam kedudukan. GPT-5.2 standard mengalahkan GPT-5.2-high.

Apa yang diberitahu ini kepada saya adalah penting: penulisan kreatif bukanlah masalah penaakulan terutamanya. Ia adalah masalah estetik. Bagi model yang sudah memiliki naluri sastera yang kuat, pemikiran lanjutan boleh memperhalusi naluri tersebut—seperti editor yang teliti menyemak draf pertama yang kukuh. Tetapi bagi model yang kekuatan kreatifnya lebih naluriah dan dipacu corak, memaksa pertimbangan sebenarnya menggilap tepi kasar yang membuat prosa terasa hidup. Kadangkala tindak balas pertama menangkap sesuatu yang dihaluskan oleh pengiraan tambahan menjadi biasa-biasa sahaja. Jika anda menggunakan model yang didayakan pemikiran untuk kerja kreatif, uji kedua-dua mod. Andaian bahawa lebih banyak penaakulan menyamai output yang lebih baik tidak bertahan di sini, dan memahami bila untuk mematikan pemikiran mungkin lebih berharga daripada mengetahui bila untuk menghidupkannya.

Gelombang Pasang

Di bawah peringkat teratas, ceritanya adalah percambahan dan kepelbagaian—dan ia boleh dikatakan lebih penting daripada perlumbaan untuk nombor satu.

DeepSeek meletakkan sepuluh model dalam enam puluh teratas, menjadikannya organisasi ketiga yang paling banyak diwakili selepas Anthropic dan OpenAI. Varian v3.1 dan v3.2 mereka merangkumi dari tempat kedua puluh dua hingga lima puluh lapan, meliputi pelbagai peringkat keupayaan kreatif. Sebagai projek berat terbuka, DeepSeek mewakili sesuatu yang secara asasnya berbeza daripada pemimpin proprietari: model ini boleh dimuat turun, dihoskan secara tempatan, dan ditala halus (fine-tuned) untuk tugas kreatif tertentu. Jika anda membina alat penulisan AI atau menyepadukan keupayaan kreatif ke dalam saluran paip produk, DeepSeek menawarkan fleksibiliti yang tidak dapat ditandingi oleh model hanya API.

Gambaran yang lebih luas adalah lebih menarik. Antara DeepSeek, Baidu, Moonshot, Alibaba, Z.ai, dan Tencent, makmal AI China kini menyumbang dua puluh dua daripada enam puluh model yang disenaraikan—lebih satu pertiga daripada keseluruhan papan pendahulu. Moonshot's Kimi K2.5 memulakan penampilan sulung dengan varian pemikirannya di tempat kedua puluh satu, membawa syarikat kepada tiga penempatan. Baidu memegang tiga kedudukan dengan barisan ERNIE 5.0-nya. Alibaba's Qwen3 mempunyai tiga varian yang disenaraikan. Z.ai's GLM-4.7 duduk di tempat kedua puluh tujuh. Ini bukan penumpuan—ini adalah kepelbagaian tulen. Data latihan yang berbeza, konteks budaya yang berbeza, dan tradisi sastera yang berbeza menghasilkan model dengan kepekaan kreatif yang berbeza. Saya telah melihat ERNIE mencipta metafora yang tidak akan terfikir oleh model yang dilatih di Barat, dan GLM mengendalikan tempo naratif dengan cara yang terasa segar justru kerana DNA sasteranya berbeza. Ekosistem AI kreatif global lebih kaya kerananya.

OpenAI memegang sebelas model, walaupun kisah kreatif mereka mempunyai subplot yang menarik. GPT-4.5-preview di tempat kedua belas duduk di hadapan kedua-dua GPT-5.1-high di tempat keempat belas dan GPT-5.1 standard di tempat kedua puluh tiga. Kadangkala model yang dioptimumkan untuk nuansa mengatasi penggantinya yang secara teknikal lebih unggul pada tugas yang menghargai kehalusan berbanding keupayaan mentah. ChatGPT-4o-latest di tempat ketujuh belas mengukuhkan perkara itu: model yang dioptimumkan untuk perbualan membawa kelebihan sedia ada dalam penulisan kreatif kerana penceritaan secara asasnya adalah perbualan. Anda tidak mengira jawapan—anda mengekalkan suara.

Grok telah mengukir identiti kreatif yang tulen dengan tujuh model disenaraikan. Di mana Claude cemerlang dalam kecerdasan emosi, Grok membawa kejujuran emosi. Humournya lebih tajam, metaforanya lebih berani, wataknya kurang digilap dan lebih hidup. Apabila saya mahukan penulisan yang mengambil risiko—fiksyen yang mungkin membuat pembaca tidak selesa dengan cara yang produktif—Grok adalah tempat saya bermula. Ia adalah model yang paling tidak takut dengan suaranya sendiri, dan dalam penulisan kreatif, keberanian itu penting. Mistral's medium-2508 di tempat kelima puluh enam mewakili kehadiran Eropah di papan. Tencent's Hunyuan di tempat kelima puluh tiga menambah satu lagi suara dari China. Padang ini tidak pernah selebar ini.

Ke Mana Semua Ini Pergi

Saya akan memberitahu anda apa yang saya fikir akan berlaku seterusnya, kerana trend dalam data ini menunjuk ke suatu tempat yang khusus.

Jurang terus memampat. Penyebaran antara tempat pertama dan keenam puluh adalah kira-kira 7.4 peratus—ketat mengikut piawaian sejarah, dan menyempit dengan setiap kemas kini. Kita sedang menghampiri ambang di mana perbezaan bermakna antara model beralih daripada kualiti mentah kepada personaliti kreatif. Soalannya berhenti menjadi "model mana yang menulis paling baik" dan menjadi "suara model mana yang sesuai dengan projek khusus ini." Itu adalah perubahan asas dalam cara penulis dan pasukan kreatif harus berfikir tentang pemilihan AI.

Model kreatif khusus tidak dapat dielakkan. Seni bina tujuan umum telah mendorong kualiti penulisan kreatif dengan ketara jauh, tetapi lonjakan sebenar seterusnya akan datang daripada model yang ditala secara jelas untuk struktur naratif, ketekalan watak, keaslian dialog, atau bentuk puisi. Saya menjangkakan sekurang-kurangnya satu makmal utama akan menghantar model pakar kreatif menjelang separuh kedua tahun ini—satu yang komited sepenuhnya kepada keupayaan sastera dan bukannya cuba menyelesaikan matematik, menulis kod, dan bercerita secara serentak. Apabila itu berlaku, ia akan menetapkan semula bahagian atas papan pendahulu ini dalam sekelip mata.

Model berat terbuka akan menutup jurang yang tinggal. Kehadiran sepuluh model DeepSeek adalah penunjuk utama. Apabila alternatif terbuka menghampiri pariti dengan sistem proprietari dalam penanda aras kreatif, ekonomi penulisan berbantu AI berubah secara mendadak. Penulis, studio, dan penerbit mendapat akses kepada AI kreatif peringkat atasan tanpa harga setiap token, mengubah keluk penggunaan dan hubungan asas antara penulis manusia dan alat AI.

Sempadan sebenar ialah orkestrasi, bukan pengasingan. Kerja kreatif paling canggih yang saya lihat baru-baru ini tidak menggunakan satu model—ia menggunakan tiga atau empat secara berurutan. Gemini untuk idea awal dan penerokaan gaya. Claude untuk penghalusan emosi dan penggilapan dialog. DeepSeek atau Qwen untuk perspektif budaya alternatif. Grok apabila draf memerlukan ketajaman. Masa depan bukan tentang menobatkan satu model sebagai raja. Ia adalah tentang belajar memimpin ensemble, memadankan personaliti kreatif setiap model dengan momen yang tepat dalam proses penulisan. Penulis yang memikirkan perkara ini terlebih dahulu akan menghasilkan kerja yang terasa tidak seperti apa-apa yang boleh dicapai oleh satu model—atau satu manusia—secara bersendirian.

Memilih Rakan Kreatif Anda

Selepas bertahun-tahun menulis bersama model-model ini, inilah yang saya pelajari tentang memadankan alat yang betul dengan tugas yang betul:

Serba Boleh

Gemini 3 Pro menyesuaikan diri dengan mana-mana genre, mana-mana bentuk, mana-mana nada. Apabila ringkasannya tidak ditentukan atau projek menuntut julat, mulakan di sini.

Kedalaman Emosi

Claude Opus 4.6 menulis dengan kekangan dan perasaan tulen. Untuk dialog, kerja watak, dan prosa di mana apa yang tidak diperkatakan paling penting.

Kelajuan & Kualiti

Gemini 3 Flash membuktikan pantas tidak bermakna lebih buruk. Untuk penggubalan berulang, projek volum tinggi, dan prototaip pantas idea naratif.

Personaliti

Grok 4.1 mengambil risiko kreatif yang tidak akan diambil oleh model lain. Untuk fiksyen yang memerlukan ketajaman, jenaka, dan watak yang terasa hidup dan bukannya dipasang.

Perusahaan

GPT-4.5 / GPT-5.1 menyampaikan output yang digilap dan boleh dipercayai yang menyepadukan ke dalam aliran kerja sedia ada. Apabila konsistensi dan keselamatan jenama sama pentingnya dengan kreativiti.

Sumber Terbuka

DeepSeek / Qwen: hoskan sendiri, tala halus untuk domain anda. Apabila anda memerlukan AI kreatif pada skala tanpa kos setiap token, ekonominya tiada tandingan.

Tiada satu AI kreatif terbaik. Terdapat suara yang berkembang dengan kekuatan yang berbeza, dan kuasa sebenar terletak pada mengetahui suara mana yang melayani momen mana dalam kisah yang anda cuba ceritakan.

Sumber Data: Kedudukan daripada Papan Pendahulu Penulisan Kreatif AI Arena, 6 Februari 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard