Penulisan kreatif ialah tempat kecerdasan mentah tunduk kepada cita rasa, kekangan, dan keberanian untuk membiarkan perkara yang betul tidak diperkatakan.
Tiga tahun meminta AI untuk menceritakan kisah kepada saya. Bukan ringkasan, bukan rangka—fiksyen sebenar. Jenis di mana watak berjalan masuk ke dalam bilik dan anda merasakan suhu berubah. Sepanjang tahun-tahun itu, saya telah melihat papan pendahulu ini berubah daripada satu rasa ingin tahu menjadi barometer sebenar keupayaan sastera. Februari 2026 membawa perubahan paling menarik setakat ini: model baharu yang tiba dengan senyap, mendaki dengan pantas, dan merapatkan jurang yang kelihatan kekal hanya beberapa minggu lalu. Berikut ialah gambaran penuh—enam puluh model disenaraikan, dianalisis, dan diletakkan dalam konteks oleh seseorang yang bekerja dengan mereka setiap hari.
Papan Pendahulu Penulisan Kreatif
Kod mempunyai sintaks. Matematik mempunyai bukti. Tetapi penulisan kreatif mempunyai suara—ritma, kejutan, resonans emosi. Ini ialah Arena Penulisan Kreatif, penanda aras paling menuntut dalam penilaian AI, di mana enam puluh model disenaraikan mengikut sejauh mana mereka menceritakan kisah yang benar-benar menggerakkan orang. Inilah kedudukan segalanya setakat Februari 2026.
| Kedudukan | Model | Skor | Undian | Organisasi |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Gangguan Februari
Apabila saya menarik data terkini, satu entri menghentikan saya: Claude Opus 4.6 duduk di nombor dua. Bukan kerana model Anthropic yang berkedudukan tinggi adalah luar biasa—mereka telah melakukannya secara konsisten. Tetapi kerana model ini mendarat di kedudukan kedua dengan hampir tiada sejarah penilaian di belakangnya. Konsensus awal sebegitu jarang berlaku. Ini bermakna gelombang pertama penguji—golongan obsesif yang menjalankan gesaan yang sama melalui setiap keluaran baharu dalam beberapa jam selepas pelancaran—menemui sesuatu yang benar-benar berbeza dalam output kreatifnya.
Kisah sebenar, bagaimanapun, adalah jurang itu. Pada bulan Januari, jarak antara tempat pertama dan kedua adalah selesa dua puluh lima mata. Sekarang dua belas. Gemini 3 Pro masih memegang emas, dan memperoleh kedudukan itu dengan jujur. Tetapi pendahuluan itu telah berkurangan separuh dalam satu kitaran kemas kini. Jika anda Google, trend itu menuntut perhatian. Jika anda Anthropic, itu adalah pengesahan bahawa pendekatan anda terhadap latihan AI kreatif sedang berkumpul pada sesuatu yang berkuasa.
Sementara itu, model-model tepat di bawah dua teratas telah bertukar kedudukan dengan ketara. Varian pemikiran Claude Opus 4.5 naik ke tempat ketiga, menolak Opus 4.5 standard ke tempat keempat dan Gemini 3 Flash turun ke tempat kelima. Flash memegang tempat ketiga baru bulan lepas. Podium bukan sahaja bertukar tangan di puncak—ia tidak stabil di seluruh bahagian. Dan ketidakstabilan, pada pengalaman saya, mendahului kejayaan.
Puncak Menguasai
Gemini 3 Pro kekal sebagai model yang saya cari apabila saya belum tahu apa yang saya perlukan. Apa yang mengekalkannya di nombor satu adalah julatnya: minta gaya Hemingway dan ia memberikan prosa yang jimat dan berotot. Minta fiksyen pascamoden eksperimen dan ia mengubah laras bahasa tanpa kehilangan keselarasan. Epistolari Victoria, noir hardboiled, realisme magis, sastera kanak-kanak—Gemini mengendalikan peralihan ini dengan cara yang mencadangkan pemahaman tulen tentang bentuk, bukan peniruan permukaan. Google meletakkan enam model dalam enam puluh teratas, dengan Gemini 3 Flash di tempat kelima dan Gemini 2.5 Pro di tempat keenam melengkapkan trio yang kuat di puncak.
Claude adalah haiwan yang sama sekali berbeza. Jika Gemini adalah julat, Claude adalah kedalaman. Model Anthropic sentiasa cemerlang dalam kehalusan yang paling sukar diajar kepada mesin: bila membiarkan kesunyian membawa adegan, bila ayat harus putus dan bukannya bersambung, bila apa yang tidak dikatakan oleh watak mendedahkan lebih banyak daripada apa yang mereka katakan. Opus 4.6 mendorong ini lebih jauh. Dalam ujian saya, ia menghasilkan dialog yang terasa benar-benar didiami. Watak tidak menyampaikan baris—mereka berfikir, teragak-agak, memilih perkataan seperti yang dilakukan orang sebenar apabila sesuatu yang penting dipertaruhkan. Anthropic kini mempunyai tiga belas model dalam enam puluh teratas, lebih banyak daripada mana-mana organisasi lain, dengan lima diletakkan dalam sebelas teratas. Apa sahaja pendekatan mereka untuk melatih keupayaan kreatif, ia berfungsi merentasi keseluruhan barisan produk mereka.
Inilah pemerhatian yang tidak mendapat perhatian yang cukup: penaakulan lanjutan—mod "thinking"—tidak meningkatkan penulisan kreatif dengan pasti. Coraknya tidak konsisten dan sangat mendedahkan.
Untuk model Claude Opus, varian berfikir cenderung berkedudukan sedikit lebih tinggi: Opus 4.5 Thinking di tempat ketiga berbanding standard di tempat keempat, Opus 4.1 Thinking di tempat kesembilan berbanding standard di tempat kesebelas. Grok 4.1 Thinking mengatasi varian standardnya dengan tiga kedudukan. Tetapi beralih kepada seni bina lain dan coraknya terbalik—kadangkala secara mendadak. DeepSeek v3.2-exp standard duduk di tempat kedua puluh lapan manakala varian pemikirannya jatuh ke tempat keempat puluh dua. DeepSeek v3.1-terminus standard berada di tempat kedua puluh dua; rakan sejawat pemikirannya jatuh ke tempat lima puluh lapan—jurang tiga puluh enam kedudukan. GPT-5.2 standard mengalahkan GPT-5.2-high.
Apa yang diberitahu ini kepada saya adalah penting: penulisan kreatif bukanlah masalah penaakulan terutamanya. Ia adalah masalah estetik. Bagi model yang sudah memiliki naluri sastera yang kuat, pemikiran lanjutan boleh memperhalusi naluri tersebut—seperti editor yang teliti menyemak draf pertama yang kukuh. Tetapi bagi model yang kekuatan kreatifnya lebih naluriah dan dipacu corak, memaksa pertimbangan sebenarnya menggilap tepi kasar yang membuat prosa terasa hidup. Kadangkala tindak balas pertama menangkap sesuatu yang dihaluskan oleh pengiraan tambahan menjadi biasa-biasa sahaja. Jika anda menggunakan model yang didayakan pemikiran untuk kerja kreatif, uji kedua-dua mod. Andaian bahawa lebih banyak penaakulan menyamai output yang lebih baik tidak bertahan di sini, dan memahami bila untuk mematikan pemikiran mungkin lebih berharga daripada mengetahui bila untuk menghidupkannya.
Gelombang Pasang
Di bawah peringkat teratas, ceritanya adalah percambahan dan kepelbagaian—dan ia boleh dikatakan lebih penting daripada perlumbaan untuk nombor satu.
DeepSeek meletakkan sepuluh model dalam enam puluh teratas, menjadikannya organisasi ketiga yang paling banyak diwakili selepas Anthropic dan OpenAI. Varian v3.1 dan v3.2 mereka merangkumi dari tempat kedua puluh dua hingga lima puluh lapan, meliputi pelbagai peringkat keupayaan kreatif. Sebagai projek berat terbuka, DeepSeek mewakili sesuatu yang secara asasnya berbeza daripada pemimpin proprietari: model ini boleh dimuat turun, dihoskan secara tempatan, dan ditala halus (fine-tuned) untuk tugas kreatif tertentu. Jika anda membina alat penulisan AI atau menyepadukan keupayaan kreatif ke dalam saluran paip produk, DeepSeek menawarkan fleksibiliti yang tidak dapat ditandingi oleh model hanya API.
Gambaran yang lebih luas adalah lebih menarik. Antara DeepSeek, Baidu, Moonshot, Alibaba, Z.ai, dan Tencent, makmal AI China kini menyumbang dua puluh dua daripada enam puluh model yang disenaraikan—lebih satu pertiga daripada keseluruhan papan pendahulu. Moonshot's Kimi K2.5 memulakan penampilan sulung dengan varian pemikirannya di tempat kedua puluh satu, membawa syarikat kepada tiga penempatan. Baidu memegang tiga kedudukan dengan barisan ERNIE 5.0-nya. Alibaba's Qwen3 mempunyai tiga varian yang disenaraikan. Z.ai's GLM-4.7 duduk di tempat kedua puluh tujuh. Ini bukan penumpuan—ini adalah kepelbagaian tulen. Data latihan yang berbeza, konteks budaya yang berbeza, dan tradisi sastera yang berbeza menghasilkan model dengan kepekaan kreatif yang berbeza. Saya telah melihat ERNIE mencipta metafora yang tidak akan terfikir oleh model yang dilatih di Barat, dan GLM mengendalikan tempo naratif dengan cara yang terasa segar justru kerana DNA sasteranya berbeza. Ekosistem AI kreatif global lebih kaya kerananya.
OpenAI memegang sebelas model, walaupun kisah kreatif mereka mempunyai subplot yang menarik. GPT-4.5-preview di tempat kedua belas duduk di hadapan kedua-dua GPT-5.1-high di tempat keempat belas dan GPT-5.1 standard di tempat kedua puluh tiga. Kadangkala model yang dioptimumkan untuk nuansa mengatasi penggantinya yang secara teknikal lebih unggul pada tugas yang menghargai kehalusan berbanding keupayaan mentah. ChatGPT-4o-latest di tempat ketujuh belas mengukuhkan perkara itu: model yang dioptimumkan untuk perbualan membawa kelebihan sedia ada dalam penulisan kreatif kerana penceritaan secara asasnya adalah perbualan. Anda tidak mengira jawapan—anda mengekalkan suara.
Grok telah mengukir identiti kreatif yang tulen dengan tujuh model disenaraikan. Di mana Claude cemerlang dalam kecerdasan emosi, Grok membawa kejujuran emosi. Humournya lebih tajam, metaforanya lebih berani, wataknya kurang digilap dan lebih hidup. Apabila saya mahukan penulisan yang mengambil risiko—fiksyen yang mungkin membuat pembaca tidak selesa dengan cara yang produktif—Grok adalah tempat saya bermula. Ia adalah model yang paling tidak takut dengan suaranya sendiri, dan dalam penulisan kreatif, keberanian itu penting. Mistral's medium-2508 di tempat kelima puluh enam mewakili kehadiran Eropah di papan. Tencent's Hunyuan di tempat kelima puluh tiga menambah satu lagi suara dari China. Padang ini tidak pernah selebar ini.
Ke Mana Semua Ini Pergi
Saya akan memberitahu anda apa yang saya fikir akan berlaku seterusnya, kerana trend dalam data ini menunjuk ke suatu tempat yang khusus.
Jurang terus memampat. Penyebaran antara tempat pertama dan keenam puluh adalah kira-kira 7.4 peratus—ketat mengikut piawaian sejarah, dan menyempit dengan setiap kemas kini. Kita sedang menghampiri ambang di mana perbezaan bermakna antara model beralih daripada kualiti mentah kepada personaliti kreatif. Soalannya berhenti menjadi "model mana yang menulis paling baik" dan menjadi "suara model mana yang sesuai dengan projek khusus ini." Itu adalah perubahan asas dalam cara penulis dan pasukan kreatif harus berfikir tentang pemilihan AI.
Model kreatif khusus tidak dapat dielakkan. Seni bina tujuan umum telah mendorong kualiti penulisan kreatif dengan ketara jauh, tetapi lonjakan sebenar seterusnya akan datang daripada model yang ditala secara jelas untuk struktur naratif, ketekalan watak, keaslian dialog, atau bentuk puisi. Saya menjangkakan sekurang-kurangnya satu makmal utama akan menghantar model pakar kreatif menjelang separuh kedua tahun ini—satu yang komited sepenuhnya kepada keupayaan sastera dan bukannya cuba menyelesaikan matematik, menulis kod, dan bercerita secara serentak. Apabila itu berlaku, ia akan menetapkan semula bahagian atas papan pendahulu ini dalam sekelip mata.
Model berat terbuka akan menutup jurang yang tinggal. Kehadiran sepuluh model DeepSeek adalah penunjuk utama. Apabila alternatif terbuka menghampiri pariti dengan sistem proprietari dalam penanda aras kreatif, ekonomi penulisan berbantu AI berubah secara mendadak. Penulis, studio, dan penerbit mendapat akses kepada AI kreatif peringkat atasan tanpa harga setiap token, mengubah keluk penggunaan dan hubungan asas antara penulis manusia dan alat AI.
Sempadan sebenar ialah orkestrasi, bukan pengasingan. Kerja kreatif paling canggih yang saya lihat baru-baru ini tidak menggunakan satu model—ia menggunakan tiga atau empat secara berurutan. Gemini untuk idea awal dan penerokaan gaya. Claude untuk penghalusan emosi dan penggilapan dialog. DeepSeek atau Qwen untuk perspektif budaya alternatif. Grok apabila draf memerlukan ketajaman. Masa depan bukan tentang menobatkan satu model sebagai raja. Ia adalah tentang belajar memimpin ensemble, memadankan personaliti kreatif setiap model dengan momen yang tepat dalam proses penulisan. Penulis yang memikirkan perkara ini terlebih dahulu akan menghasilkan kerja yang terasa tidak seperti apa-apa yang boleh dicapai oleh satu model—atau satu manusia—secara bersendirian.
Memilih Rakan Kreatif Anda
Selepas bertahun-tahun menulis bersama model-model ini, inilah yang saya pelajari tentang memadankan alat yang betul dengan tugas yang betul:
Serba Boleh
Gemini 3 Pro menyesuaikan diri dengan mana-mana genre, mana-mana bentuk, mana-mana nada. Apabila ringkasannya tidak ditentukan atau projek menuntut julat, mulakan di sini.
Kedalaman Emosi
Claude Opus 4.6 menulis dengan kekangan dan perasaan tulen. Untuk dialog, kerja watak, dan prosa di mana apa yang tidak diperkatakan paling penting.
Kelajuan & Kualiti
Gemini 3 Flash membuktikan pantas tidak bermakna lebih buruk. Untuk penggubalan berulang, projek volum tinggi, dan prototaip pantas idea naratif.
Personaliti
Grok 4.1 mengambil risiko kreatif yang tidak akan diambil oleh model lain. Untuk fiksyen yang memerlukan ketajaman, jenaka, dan watak yang terasa hidup dan bukannya dipasang.
Tiada satu AI kreatif terbaik. Terdapat suara yang berkembang dengan kekuatan yang berbeza, dan kuasa sebenar terletak pada mengetahui suara mana yang melayani momen mana dalam kisah yang anda cuba ceritakan.
Sumber Data: Kedudukan daripada Papan Pendahulu Penulisan Kreatif AI Arena, 6 Februari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!