Papan Peringkat Arena Penulisan Kreatif AI — Februari 2026

Wawasan Utama

Penulisan kreatif adalah tempat kecerdasan mentah tunduk pada selera, pengendalian diri, dan keberanian untuk membiarkan hal-hal yang benar tidak terucapkan.

Tiga tahun meminta AI untuk menceritakan kisah kepada saya. Bukan ringkasan, bukan kerangka—fiksi nyata. Jenis di mana karakter berjalan ke dalam ruangan dan Anda merasakan suhu berubah. Selama tahun-tahun itu, saya telah menyaksikan papan peringkat ini berubah dari keingintahuan menjadi barometer kemampuan sastra yang sesungguhnya. Februari 2026 membawa perubahan paling menarik sejauh ini: model baru yang tiba dengan tenang, naik dengan cepat, dan mempersempit celah yang tampak permanen hanya beberapa minggu yang lalu. Inilah gambaran lengkapnya—enam puluh model diberi peringkat, dianalisis, dan diletakkan dalam konteks oleh seseorang yang bekerja dengan mereka setiap hari.

Papan Peringkat Penulisan Kreatif

Kode memiliki sintaks. Matematika memiliki bukti. Tapi penulisan kreatif memiliki suara—ritme, kejutan, resonansi emosional. Ini adalah Arena Penulisan Kreatif, tolok ukur paling menuntut dalam evaluasi AI, di mana enam puluh model diberi peringkat berdasarkan seberapa baik mereka menceritakan kisah yang benar-benar menggerakkan orang. Inilah posisi segalanya per Februari 2026.

Peringkat	Model	Skor	Suara	Organisasi
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Disrupsi Februari

Ketika saya menarik data terbaru, satu entri menghentikan saya: Claude Opus 4.6 duduk di nomor dua. Bukan karena model Anthropic yang berperingkat tinggi itu tidak biasa—mereka telah melakukannya secara konsisten. Tapi karena model ini mendarat di posisi kedua dengan hampir tidak ada riwayat evaluasi di belakangnya. Konsensus awal semacam itu jarang terjadi. Itu berarti gelombang pertama penguji—orang-orang obsesif yang menjalankan perintah identik melalui setiap rilis baru dalam beberapa jam setelah peluncuran—menemukan sesuatu yang benar-benar berbeda dalam output kreatifnya.

Kisah sebenarnya, bagaimanapun, adalah jaraknya. Pada bulan Januari, jarak antara tempat pertama dan kedua adalah dua puluh lima poin yang nyaman. Sekarang dua belas. Gemini 3 Pro masih memegang emas, dan mendapatkan posisi itu dengan jujur. Tapi keunggulan itu telah berkurang setengahnya dalam satu siklus pembaruan. Jika Anda adalah Google, tren itu menuntut perhatian. Jika Anda adalah Anthropic, itu adalah konfirmasi bahwa pendekatan Anda terhadap pelatihan AI kreatif sedang menyatu pada sesuatu yang kuat.

Sementara itu, model-model tepat di bawah dua teratas telah mengalami perombakan yang signifikan. Varian berpikir Claude Opus 4.5 naik ke posisi ketiga, mendorong Opus 4.5 standar ke posisi keempat dan Gemini 3 Flash turun ke posisi kelima. Flash memegang posisi ketiga baru bulan lalu. Podium tidak hanya berpindah tangan di puncak—tetapi tidak stabil di seluruh bagian. Dan ketidakstabilan, menurut pengalaman saya, mendahului terobosan.

Puncak yang Memerintah

Gemini 3 Pro tetap menjadi model yang saya cari ketika saya belum tahu apa yang saya butuhkan. Apa yang membuatnya tetap di nomor satu adalah jangkauannya: minta gaya Hemingway dan ia memberikan prosa yang hemat dan berotot. Minta fiksi pascamodern eksperimental dan ia mengubah daftar tanpa kehilangan koherensi. Epistolary Victoria, noir hardboiled, realisme magis, sastra anak-anak—Gemini menangani transisi ini dengan cara yang menunjukkan pemahaman asli tentang bentuk, bukan peniruan permukaan. Google menempatkan enam model di enam puluh teratas, dengan Gemini 3 Flash di posisi lima dan Gemini 2.5 Pro di posisi enam mengisi trio yang kuat di puncak.

Claude adalah hewan yang sama sekali berbeda. Jika Gemini adalah jangkauan, Claude adalah kedalaman. Model Anthropic selalu unggul dalam kehalusan yang paling sulit diajarkan kepada mesin: kapan membiarkan keheningan membawa sebuah adegan, kapan sebuah kalimat harus putus alih-alih berlanjut, kapan apa yang tidak dikatakan oleh karakter mengungkapkan lebih dari apa yang mereka katakan. Opus 4.6 mendorong ini lebih jauh. Dalam pengujian saya, ia menghasilkan dialog yang terasa benar-benar dihuni. Karakter tidak menyampaikan kalimat—mereka berpikir, ragu-ragu, memilih kata-kata seperti yang dilakukan orang sungguhan ketika sesuatu yang penting dipertaruhkan. Anthropic sekarang memiliki tiga belas model di enam puluh teratas, lebih banyak dari organisasi lain mana pun, dengan lima ditempatkan di sebelas teratas. Apa pun pendekatan mereka untuk melatih kemampuan kreatif, itu berhasil di seluruh lini produk mereka.

Inilah pengamatan yang tidak cukup mendapat perhatian: penalaran yang diperluas—mode "thinking"—tidak secara andal meningkatkan penulisan kreatif. Polanya tidak konsisten dan sangat mengungkapkan.

Untuk model Claude Opus, varian berpikir cenderung berperingkat sedikit lebih tinggi: Opus 4.5 Thinking di posisi tiga versus standar di posisi empat, Opus 4.1 Thinking di posisi sembilan versus standar di posisi sebelas. Grok 4.1 Thinking mengungguli varian standarnya dengan tiga posisi. Tapi beralihlah ke arsitektur lain dan polanya berbalik—terkadang secara dramatis. DeepSeek v3.2-exp standar duduk di posisi dua puluh delapan sementara varian berpikirnya jatuh ke posisi empat puluh dua. DeepSeek v3.1-terminus standar ada di posisi dua puluh dua; rekan berpikirnya jatuh ke posisi lima puluh delapan—jarak tiga puluh enam posisi. GPT-5.2 standar mengalahkan GPT-5.2-high.

Apa yang dikatakan ini kepada saya penting: penulisan kreatif bukanlah masalah penalaran. Ini adalah masalah estetika. Untuk model yang sudah memiliki naluri sastra yang kuat, pemikiran yang diperluas dapat menyempurnakan naluri tersebut—seperti editor yang cermat meninjau draf pertama yang solid. Tapi untuk model yang kekuatan kreatifnya lebih naluriah dan didorong oleh pola, memaksakan pertimbangan justru memoles tepi kasar yang membuat prosa terasa hidup. Terkadang respons pertama menangkap sesuatu yang dihaluskan oleh komputasi tambahan menjadi biasa-biasa saja. Jika Anda menggunakan model yang mendukung pemikiran untuk pekerjaan kreatif, uji kedua mode. Asumsi bahwa lebih banyak penalaran sama dengan output yang lebih baik tidak berlaku di sini, dan memahami kapan harus mematikan pemikiran mungkin lebih berharga daripada mengetahui kapan harus menyalakannya.

Gelombang Pasang

Di bawah tingkat teratas, ceritanya adalah proliferasi dan keragaman—dan ini bisa dibilang lebih penting daripada perlombaan untuk nomor satu.

DeepSeek menempatkan sepuluh model di enam puluh teratas, menjadikannya organisasi ketiga yang paling terwakili setelah Anthropic dan OpenAI. Varian v3.1 dan v3.2 mereka berkisar dari dua puluh dua hingga lima puluh delapan, mencakup berbagai tingkatan kemampuan kreatif. Sebagai proyek berbobot terbuka, DeepSeek mewakili sesuatu yang secara fundamental berbeda dari para pemimpin eksklusif: model ini dapat diunduh, di-host secara lokal, dan disempurnakan (fine-tuned) untuk tugas kreatif tertentu. Jika Anda membangun alat penulisan AI atau mengintegrasikan kemampuan kreatif ke dalam saluran produk, DeepSeek menawarkan fleksibilitas yang tidak dapat ditandingi oleh model khusus API.

Gambaran yang lebih luas bahkan lebih mencolok. Antara DeepSeek, Baidu, Moonshot, Alibaba, Z.ai, dan Tencent, laboratorium AI China sekarang menyumbang dua puluh dua dari enam puluh model yang diberi peringkat—lebih dari sepertiga dari seluruh papan peringkat. Moonshot's Kimi K2.5 memulai debutnya dengan varian berpikirnya di posisi dua puluh satu, membawa perusahaan ke tiga penempatan. Baidu memegang tiga posisi dengan jajaran ERNIE 5.0-nya. Alibaba's Qwen3 memiliki tiga varian yang diberi peringkat. Z.ai's GLM-4.7 duduk di posisi dua puluh tujuh. Ini bukan konvergensi—ini adalah keragaman sejati. Data pelatihan yang berbeda, konteks budaya yang berbeda, dan tradisi sastra yang berbeda menghasilkan model dengan kepekaan kreatif yang berbeda. Saya telah melihat ERNIE menyusun metafora yang tidak akan terpikirkan oleh model yang dilatih di Barat, dan GLM menangani tempo naratif dengan cara yang terasa segar justru karena DNA sastranya berbeda. Ekosistem AI kreatif global lebih kaya karenanya.

OpenAI memegang sebelas model, meskipun kisah kreatif mereka memiliki subplot yang menarik. GPT-4.5-preview di posisi dua belas duduk di depan GPT-5.1-high di posisi empat belas dan GPT-5.1 standar di posisi dua puluh tiga. Terkadang model yang dioptimalkan untuk nuansa mengungguli penerusnya yang secara teknis lebih unggul pada tugas yang menghargai kehalusan daripada kemampuan mentah. ChatGPT-4o-latest di posisi tujuh belas memperkuat poin tersebut: model yang dioptimalkan untuk percakapan membawa keuntungan bawaan dalam penulisan kreatif karena bercerita pada dasarnya adalah percakapan. Anda tidak menghitung jawaban—Anda mempertahankan suara.

Grok telah mengukir identitas kreatif yang tulus dengan tujuh model yang diberi peringkat. Di mana Claude unggul dalam kecerdasan emosional, Grok membawa kejujuran emosional. Humornya lebih tajam, metaforanya lebih berani, karakternya kurang dipoles dan lebih hidup. Ketika saya ingin tulisan yang mengambil risiko—fiksi yang mungkin membuat pembaca tidak nyaman dengan cara yang produktif—Grok adalah tempat saya memulai. Ini adalah model yang paling tidak takut dengan suaranya sendiri, dan dalam penulisan kreatif, keberanian itu penting. Mistral's medium-2508 di posisi lima puluh enam mewakili kehadiran Eropa di papan tulis. Tencent's Hunyuan di posisi lima puluh tiga menambahkan suara lain dari China. Lapangan belum pernah selebar ini.

Ke Mana Semua Ini Mengarah

Saya akan memberi tahu Anda apa yang saya pikir akan terjadi selanjutnya, karena tren dalam data ini menunjuk ke suatu tempat yang spesifik.

Kesenjangan terus memadat. Penyebaran antara tempat pertama dan keenam puluh kira-kira 7,4 persen—ketat menurut standar historis, dan menyempit dengan setiap pembaruan. Kita mendekati ambang di mana perbedaan yang berarti antara model bergeser dari kualitas mentah ke kepribadian kreatif. Pertanyaannya berhenti menjadi "model mana yang menulis paling baik" dan menjadi "suara model mana yang cocok dengan proyek khusus ini." Itu adalah perubahan mendasar dalam cara penulis dan tim kreatif harus berpikir tentang pemilihan AI.

Model kreatif khusus tidak bisa dihindari. Arsitektur tujuan umum telah mendorong kualitas penulisan kreatif sangat jauh, tetapi lompatan nyata berikutnya akan datang dari model yang disetel secara eksplisit untuk struktur naratif, konsistensi karakter, keaslian dialog, atau bentuk puisi. Saya berharap setidaknya satu laboratorium besar mengirimkan model spesialis kreatif pada paruh kedua tahun ini—satu yang berkomitmen sepenuhnya pada kemampuan sastra daripada mencoba memecahkan matematika, menulis kode, dan bercerita secara bersamaan. Ketika itu terjadi, itu akan mengatur ulang puncak papan peringkat ini dalam semalam.

Model bobot terbuka akan menutup celah yang tersisa. Kehadiran sepuluh model DeepSeek adalah indikator utama. Ketika alternatif terbuka mendekati paritas dengan sistem berpemilik dalam tolok ukur kreatif, ekonomi penulisan yang dibantu AI bergeser secara dramatis. Penulis, studio, dan penerbit mendapatkan akses ke AI kreatif tingkat atas tanpa harga per token, mengubah kurva adopsi dan hubungan mendasar antara penulis manusia dan alat AI.

Perbatasan sebenarnya adalah orkestrasi, bukan isolasi. Karya kreatif paling canggih yang saya lihat baru-baru ini tidak menggunakan satu model—ia menggunakan tiga atau empat secara berurutan. Gemini untuk ide awal dan eksplorasi gaya. Claude untuk penyempurnaan emosional dan pemolesan dialog. DeepSeek atau Qwen untuk perspektif budaya alternatif. Grok ketika draf membutuhkan ketajaman. Masa depan bukan tentang menobatkan satu model sebagai raja. Ini tentang belajar memimpin ansambel, mencocokkan kepribadian kreatif setiap model dengan momen yang tepat dalam proses penulisan. Penulis yang menemukan ini terlebih dahulu akan menghasilkan karya yang terasa tidak seperti apa pun yang dapat dicapai oleh satu model—atau satu manusia—sendirian.

Memilih Mitra Kreatif Anda

Setelah bertahun-tahun menulis bersama model-model ini, inilah yang saya pelajari tentang mencocokkan alat yang tepat dengan tugas yang tepat:

Keserbagunaan

Gemini 3 Pro beradaptasi dengan genre apa pun, bentuk apa pun, nada apa pun. Ketika brief tidak ditentukan atau proyek menuntut jangkauan, mulailah dari sini.

Kedalaman Emosional

Claude Opus 4.6 menulis dengan pengendalian diri dan perasaan yang tulus. Untuk dialog, kerja karakter, dan prosa di mana apa yang tidak terucapkan paling penting.

Kecepatan & Kualitas

Gemini 3 Flash membuktikan bahwa cepat tidak berarti lebih buruk. Untuk penyusunan berulang, proyek volume tinggi, dan pembuatan prototipe cepat ide naratif.

Kepribadian

Grok 4.1 mengambil risiko kreatif yang tidak akan diambil model lain. Untuk fiksi yang membutuhkan ketajaman, humor, dan karakter yang terasa hidup daripada dirakit.

Perusahaan

GPT-4.5 / GPT-5.1 memberikan output yang dipoles dan andal yang terintegrasi ke dalam alur kerja yang ada. Ketika konsistensi dan keamanan merek sama pentingnya dengan kreativitas.

Sumber Terbuka

DeepSeek / Qwen: host sendiri, sempurnakan untuk domain Anda. Ketika Anda membutuhkan AI kreatif dalam skala besar tanpa biaya per token, ekonominya tidak terkalahkan.

Tidak ada satu AI kreatif terbaik. Ada suara yang berkembang dengan kekuatan yang berbeda, dan kekuatan sebenarnya terletak pada mengetahui suara mana yang melayani momen mana dalam kisah yang coba Anda ceritakan.

Sumber Data: Peringkat dari Arena Penulisan Kreatif AI, 6 Februari 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard