Penulisan kreatif adalah tempat kecerdasan mentah tunduk pada selera, pengendalian diri, dan keberanian untuk membiarkan hal-hal yang benar tidak terucapkan.
Tiga tahun meminta AI untuk menceritakan kisah kepada saya. Bukan ringkasan, bukan kerangka—fiksi nyata. Jenis di mana karakter berjalan ke dalam ruangan dan Anda merasakan suhu berubah. Selama tahun-tahun itu, saya telah menyaksikan papan peringkat ini berubah dari keingintahuan menjadi barometer kemampuan sastra yang sesungguhnya. Februari 2026 membawa perubahan paling menarik sejauh ini: model baru yang tiba dengan tenang, naik dengan cepat, dan mempersempit celah yang tampak permanen hanya beberapa minggu yang lalu. Inilah gambaran lengkapnya—enam puluh model diberi peringkat, dianalisis, dan diletakkan dalam konteks oleh seseorang yang bekerja dengan mereka setiap hari.
Papan Peringkat Penulisan Kreatif
Kode memiliki sintaks. Matematika memiliki bukti. Tapi penulisan kreatif memiliki suara—ritme, kejutan, resonansi emosional. Ini adalah Arena Penulisan Kreatif, tolok ukur paling menuntut dalam evaluasi AI, di mana enam puluh model diberi peringkat berdasarkan seberapa baik mereka menceritakan kisah yang benar-benar menggerakkan orang. Inilah posisi segalanya per Februari 2026.
| Peringkat | Model | Skor | Suara | Organisasi |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
Disrupsi Februari
Ketika saya menarik data terbaru, satu entri menghentikan saya: Claude Opus 4.6 duduk di nomor dua. Bukan karena model Anthropic yang berperingkat tinggi itu tidak biasa—mereka telah melakukannya secara konsisten. Tapi karena model ini mendarat di posisi kedua dengan hampir tidak ada riwayat evaluasi di belakangnya. Konsensus awal semacam itu jarang terjadi. Itu berarti gelombang pertama penguji—orang-orang obsesif yang menjalankan perintah identik melalui setiap rilis baru dalam beberapa jam setelah peluncuran—menemukan sesuatu yang benar-benar berbeda dalam output kreatifnya.
Kisah sebenarnya, bagaimanapun, adalah jaraknya. Pada bulan Januari, jarak antara tempat pertama dan kedua adalah dua puluh lima poin yang nyaman. Sekarang dua belas. Gemini 3 Pro masih memegang emas, dan mendapatkan posisi itu dengan jujur. Tapi keunggulan itu telah berkurang setengahnya dalam satu siklus pembaruan. Jika Anda adalah Google, tren itu menuntut perhatian. Jika Anda adalah Anthropic, itu adalah konfirmasi bahwa pendekatan Anda terhadap pelatihan AI kreatif sedang menyatu pada sesuatu yang kuat.
Sementara itu, model-model tepat di bawah dua teratas telah mengalami perombakan yang signifikan. Varian berpikir Claude Opus 4.5 naik ke posisi ketiga, mendorong Opus 4.5 standar ke posisi keempat dan Gemini 3 Flash turun ke posisi kelima. Flash memegang posisi ketiga baru bulan lalu. Podium tidak hanya berpindah tangan di puncak—tetapi tidak stabil di seluruh bagian. Dan ketidakstabilan, menurut pengalaman saya, mendahului terobosan.
Puncak yang Memerintah
Gemini 3 Pro tetap menjadi model yang saya cari ketika saya belum tahu apa yang saya butuhkan. Apa yang membuatnya tetap di nomor satu adalah jangkauannya: minta gaya Hemingway dan ia memberikan prosa yang hemat dan berotot. Minta fiksi pascamodern eksperimental dan ia mengubah daftar tanpa kehilangan koherensi. Epistolary Victoria, noir hardboiled, realisme magis, sastra anak-anak—Gemini menangani transisi ini dengan cara yang menunjukkan pemahaman asli tentang bentuk, bukan peniruan permukaan. Google menempatkan enam model di enam puluh teratas, dengan Gemini 3 Flash di posisi lima dan Gemini 2.5 Pro di posisi enam mengisi trio yang kuat di puncak.
Claude adalah hewan yang sama sekali berbeda. Jika Gemini adalah jangkauan, Claude adalah kedalaman. Model Anthropic selalu unggul dalam kehalusan yang paling sulit diajarkan kepada mesin: kapan membiarkan keheningan membawa sebuah adegan, kapan sebuah kalimat harus putus alih-alih berlanjut, kapan apa yang tidak dikatakan oleh karakter mengungkapkan lebih dari apa yang mereka katakan. Opus 4.6 mendorong ini lebih jauh. Dalam pengujian saya, ia menghasilkan dialog yang terasa benar-benar dihuni. Karakter tidak menyampaikan kalimat—mereka berpikir, ragu-ragu, memilih kata-kata seperti yang dilakukan orang sungguhan ketika sesuatu yang penting dipertaruhkan. Anthropic sekarang memiliki tiga belas model di enam puluh teratas, lebih banyak dari organisasi lain mana pun, dengan lima ditempatkan di sebelas teratas. Apa pun pendekatan mereka untuk melatih kemampuan kreatif, itu berhasil di seluruh lini produk mereka.
Inilah pengamatan yang tidak cukup mendapat perhatian: penalaran yang diperluas—mode "thinking"—tidak secara andal meningkatkan penulisan kreatif. Polanya tidak konsisten dan sangat mengungkapkan.
Untuk model Claude Opus, varian berpikir cenderung berperingkat sedikit lebih tinggi: Opus 4.5 Thinking di posisi tiga versus standar di posisi empat, Opus 4.1 Thinking di posisi sembilan versus standar di posisi sebelas. Grok 4.1 Thinking mengungguli varian standarnya dengan tiga posisi. Tapi beralihlah ke arsitektur lain dan polanya berbalik—terkadang secara dramatis. DeepSeek v3.2-exp standar duduk di posisi dua puluh delapan sementara varian berpikirnya jatuh ke posisi empat puluh dua. DeepSeek v3.1-terminus standar ada di posisi dua puluh dua; rekan berpikirnya jatuh ke posisi lima puluh delapan—jarak tiga puluh enam posisi. GPT-5.2 standar mengalahkan GPT-5.2-high.
Apa yang dikatakan ini kepada saya penting: penulisan kreatif bukanlah masalah penalaran. Ini adalah masalah estetika. Untuk model yang sudah memiliki naluri sastra yang kuat, pemikiran yang diperluas dapat menyempurnakan naluri tersebut—seperti editor yang cermat meninjau draf pertama yang solid. Tapi untuk model yang kekuatan kreatifnya lebih naluriah dan didorong oleh pola, memaksakan pertimbangan justru memoles tepi kasar yang membuat prosa terasa hidup. Terkadang respons pertama menangkap sesuatu yang dihaluskan oleh komputasi tambahan menjadi biasa-biasa saja. Jika Anda menggunakan model yang mendukung pemikiran untuk pekerjaan kreatif, uji kedua mode. Asumsi bahwa lebih banyak penalaran sama dengan output yang lebih baik tidak berlaku di sini, dan memahami kapan harus mematikan pemikiran mungkin lebih berharga daripada mengetahui kapan harus menyalakannya.
Gelombang Pasang
Di bawah tingkat teratas, ceritanya adalah proliferasi dan keragaman—dan ini bisa dibilang lebih penting daripada perlombaan untuk nomor satu.
DeepSeek menempatkan sepuluh model di enam puluh teratas, menjadikannya organisasi ketiga yang paling terwakili setelah Anthropic dan OpenAI. Varian v3.1 dan v3.2 mereka berkisar dari dua puluh dua hingga lima puluh delapan, mencakup berbagai tingkatan kemampuan kreatif. Sebagai proyek berbobot terbuka, DeepSeek mewakili sesuatu yang secara fundamental berbeda dari para pemimpin eksklusif: model ini dapat diunduh, di-host secara lokal, dan disempurnakan (fine-tuned) untuk tugas kreatif tertentu. Jika Anda membangun alat penulisan AI atau mengintegrasikan kemampuan kreatif ke dalam saluran produk, DeepSeek menawarkan fleksibilitas yang tidak dapat ditandingi oleh model khusus API.
Gambaran yang lebih luas bahkan lebih mencolok. Antara DeepSeek, Baidu, Moonshot, Alibaba, Z.ai, dan Tencent, laboratorium AI China sekarang menyumbang dua puluh dua dari enam puluh model yang diberi peringkat—lebih dari sepertiga dari seluruh papan peringkat. Moonshot's Kimi K2.5 memulai debutnya dengan varian berpikirnya di posisi dua puluh satu, membawa perusahaan ke tiga penempatan. Baidu memegang tiga posisi dengan jajaran ERNIE 5.0-nya. Alibaba's Qwen3 memiliki tiga varian yang diberi peringkat. Z.ai's GLM-4.7 duduk di posisi dua puluh tujuh. Ini bukan konvergensi—ini adalah keragaman sejati. Data pelatihan yang berbeda, konteks budaya yang berbeda, dan tradisi sastra yang berbeda menghasilkan model dengan kepekaan kreatif yang berbeda. Saya telah melihat ERNIE menyusun metafora yang tidak akan terpikirkan oleh model yang dilatih di Barat, dan GLM menangani tempo naratif dengan cara yang terasa segar justru karena DNA sastranya berbeda. Ekosistem AI kreatif global lebih kaya karenanya.
OpenAI memegang sebelas model, meskipun kisah kreatif mereka memiliki subplot yang menarik. GPT-4.5-preview di posisi dua belas duduk di depan GPT-5.1-high di posisi empat belas dan GPT-5.1 standar di posisi dua puluh tiga. Terkadang model yang dioptimalkan untuk nuansa mengungguli penerusnya yang secara teknis lebih unggul pada tugas yang menghargai kehalusan daripada kemampuan mentah. ChatGPT-4o-latest di posisi tujuh belas memperkuat poin tersebut: model yang dioptimalkan untuk percakapan membawa keuntungan bawaan dalam penulisan kreatif karena bercerita pada dasarnya adalah percakapan. Anda tidak menghitung jawaban—Anda mempertahankan suara.
Grok telah mengukir identitas kreatif yang tulus dengan tujuh model yang diberi peringkat. Di mana Claude unggul dalam kecerdasan emosional, Grok membawa kejujuran emosional. Humornya lebih tajam, metaforanya lebih berani, karakternya kurang dipoles dan lebih hidup. Ketika saya ingin tulisan yang mengambil risiko—fiksi yang mungkin membuat pembaca tidak nyaman dengan cara yang produktif—Grok adalah tempat saya memulai. Ini adalah model yang paling tidak takut dengan suaranya sendiri, dan dalam penulisan kreatif, keberanian itu penting. Mistral's medium-2508 di posisi lima puluh enam mewakili kehadiran Eropa di papan tulis. Tencent's Hunyuan di posisi lima puluh tiga menambahkan suara lain dari China. Lapangan belum pernah selebar ini.
Ke Mana Semua Ini Mengarah
Saya akan memberi tahu Anda apa yang saya pikir akan terjadi selanjutnya, karena tren dalam data ini menunjuk ke suatu tempat yang spesifik.
Kesenjangan terus memadat. Penyebaran antara tempat pertama dan keenam puluh kira-kira 7,4 persen—ketat menurut standar historis, dan menyempit dengan setiap pembaruan. Kita mendekati ambang di mana perbedaan yang berarti antara model bergeser dari kualitas mentah ke kepribadian kreatif. Pertanyaannya berhenti menjadi "model mana yang menulis paling baik" dan menjadi "suara model mana yang cocok dengan proyek khusus ini." Itu adalah perubahan mendasar dalam cara penulis dan tim kreatif harus berpikir tentang pemilihan AI.
Model kreatif khusus tidak bisa dihindari. Arsitektur tujuan umum telah mendorong kualitas penulisan kreatif sangat jauh, tetapi lompatan nyata berikutnya akan datang dari model yang disetel secara eksplisit untuk struktur naratif, konsistensi karakter, keaslian dialog, atau bentuk puisi. Saya berharap setidaknya satu laboratorium besar mengirimkan model spesialis kreatif pada paruh kedua tahun ini—satu yang berkomitmen sepenuhnya pada kemampuan sastra daripada mencoba memecahkan matematika, menulis kode, dan bercerita secara bersamaan. Ketika itu terjadi, itu akan mengatur ulang puncak papan peringkat ini dalam semalam.
Model bobot terbuka akan menutup celah yang tersisa. Kehadiran sepuluh model DeepSeek adalah indikator utama. Ketika alternatif terbuka mendekati paritas dengan sistem berpemilik dalam tolok ukur kreatif, ekonomi penulisan yang dibantu AI bergeser secara dramatis. Penulis, studio, dan penerbit mendapatkan akses ke AI kreatif tingkat atas tanpa harga per token, mengubah kurva adopsi dan hubungan mendasar antara penulis manusia dan alat AI.
Perbatasan sebenarnya adalah orkestrasi, bukan isolasi. Karya kreatif paling canggih yang saya lihat baru-baru ini tidak menggunakan satu model—ia menggunakan tiga atau empat secara berurutan. Gemini untuk ide awal dan eksplorasi gaya. Claude untuk penyempurnaan emosional dan pemolesan dialog. DeepSeek atau Qwen untuk perspektif budaya alternatif. Grok ketika draf membutuhkan ketajaman. Masa depan bukan tentang menobatkan satu model sebagai raja. Ini tentang belajar memimpin ansambel, mencocokkan kepribadian kreatif setiap model dengan momen yang tepat dalam proses penulisan. Penulis yang menemukan ini terlebih dahulu akan menghasilkan karya yang terasa tidak seperti apa pun yang dapat dicapai oleh satu model—atau satu manusia—sendirian.
Memilih Mitra Kreatif Anda
Setelah bertahun-tahun menulis bersama model-model ini, inilah yang saya pelajari tentang mencocokkan alat yang tepat dengan tugas yang tepat:
Keserbagunaan
Gemini 3 Pro beradaptasi dengan genre apa pun, bentuk apa pun, nada apa pun. Ketika brief tidak ditentukan atau proyek menuntut jangkauan, mulailah dari sini.
Kedalaman Emosional
Claude Opus 4.6 menulis dengan pengendalian diri dan perasaan yang tulus. Untuk dialog, kerja karakter, dan prosa di mana apa yang tidak terucapkan paling penting.
Kecepatan & Kualitas
Gemini 3 Flash membuktikan bahwa cepat tidak berarti lebih buruk. Untuk penyusunan berulang, proyek volume tinggi, dan pembuatan prototipe cepat ide naratif.
Kepribadian
Grok 4.1 mengambil risiko kreatif yang tidak akan diambil model lain. Untuk fiksi yang membutuhkan ketajaman, humor, dan karakter yang terasa hidup daripada dirakit.
Tidak ada satu AI kreatif terbaik. Ada suara yang berkembang dengan kekuatan yang berbeda, dan kekuatan sebenarnya terletak pada mengetahui suara mana yang melayani momen mana dalam kisah yang coba Anda ceritakan.
Sumber Data: Peringkat dari Arena Penulisan Kreatif AI, 6 Februari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!