Mahkota baru saja berpindah tangan. Claude Opus 4.6 dari Anthropic telah melengserkan Gemini — dan perlombaan AI belum pernah seketat ini.
Saya telah menghabiskan sebagian besar dari tiga tahun melacak setiap pergeseran, setiap kejutan, dan setiap pendakian diam-diam di papan peringkat AI. Sebagian besar pembaruan bersifat inkremental — satu poin di sini, varian baru di sana. Tapi 6 Februari 2026 bukan salah satu hari itu. Untuk pertama kalinya sejak seri Gemini 3 Google mendirikan kekuasaannya, model baru duduk di puncak Arena Obrolan: Claude Opus 4.6. Ini bukan kemenangan marjinal. Ini adalah pergantian penjaga — dan ini mengubah cara saya berpikir tentang setiap rekomendasi yang saya buat.
Papan Peringkat Obrolan
Ini adalah acara utamanya. Arena Obrolan mengukur kemampuan AI secara keseluruhan — bukan hanya coding, bukan hanya matematika, bukan hanya penulisan kreatif, tetapi semuanya. Perbandingan buta head-to-head, ribuan pengguna yang beragam, tidak ada bias seleksi mandiri. Ketika sebuah model mencapai puncak di sini, ia telah mendapatkannya di seluruh spektrum apa yang sebenarnya diminta orang untuk dilakukan oleh AI.
| Peringkat | Model | Skor | Suara | Organisasi |
|---|---|---|---|---|
🥇 | Claude Opus 4 6 | 1496 | 2,829 | Anthropic |
🥈 | Gemini 3 Pro | 1486 | 34,419 | |
🥉 | Grok 4.1 Thinking | 1475 | 34,455 | xAI |
#4 | Gemini 3 Flash | 1470 | 25,085 | |
#5 | Claude Opus 4 5 20251101 Thinking 32k | 1468 | 26,178 | Anthropic |
#6 | Claude Opus 4 5 20251101 | 1467 | 31,069 | Anthropic |
#7 | Grok 4.1 | 1465 | 38,605 | xAI |
#8 | Gemini 3 Flash (thinking Minimal) | 1463 | 16,255 | |
#9 | Gpt 5.1 High | 1458 | 30,500 | OpenAI |
#10 | Ernie 5.0 0110 | 1452 | 10,184 | Baidu |
#11 | Claude Sonnet 4 5 20250929 | 1450 | 42,437 | Anthropic |
#12 | Claude Sonnet 4 5 20250929 Thinking 32k | 1450 | 44,799 | Anthropic |
#13 | Gemini 2.5 Pro | 1450 | 93,835 | |
#14 | Ernie 5.0 Preview 1203 | 1449 | 9,775 | Baidu |
#15 | Kimi K2.5 Thinking | 1449 | 7,085 | Moonshot |
#16 | Claude Opus 4 1 20250805 Thinking 16k | 1449 | 49,956 | Anthropic |
#17 | Claude Opus 4 1 20250805 | 1445 | 73,888 | Anthropic |
#18 | Gpt 4.5 Preview 2025 02 27 | 1444 | 14,549 | OpenAI |
#19 | Chatgpt 4o Latest 20250326 | 1442 | 81,283 | OpenAI |
#20 | Glm 4.7 | 1441 | 12,021 | Z.ai |
#21 | Gpt 5.2 High | 1438 | 15,062 | OpenAI |
#22 | Gpt 5.1 | 1437 | 32,684 | OpenAI |
#23 | Gpt 5.2 | 1437 | 11,695 | OpenAI |
#24 | Gpt 5 High | 1434 | 32,626 | OpenAI |
#25 | Qwen3 Max Preview | 1434 | 27,843 | Alibaba |
#26 | Kimi K2.5 Instant | 1433 | 2,752 | Moonshot |
#27 | O3 2025 04 16 | 1433 | 61,361 | OpenAI |
#28 | Grok 4 1 Fast Reasoning | 1430 | 27,088 | xAI |
#29 | Kimi K2 Thinking Turbo | 1428 | 32,101 | Moonshot |
#30 | Gpt 5 Chat | 1426 | 31,831 | OpenAI |
#31 | Glm 4.6 | 1425 | 35,339 | Z.ai |
#32 | Qwen3 Max 2025 09 23 | 1425 | 9,221 | Alibaba |
#33 | Claude Opus 4 20250514 Thinking 16k | 1424 | 37,974 | Anthropic |
#34 | Deepseek V3.2 Exp | 1423 | 11,767 | DeepSeek |
#35 | Deepseek V3.2 Exp Thinking | 1423 | 9,002 | DeepSeek |
#36 | Qwen3 235b A22b Instruct 2507 | 1422 | 68,201 | Alibaba |
#37 | Grok 4 Fast Chat | 1422 | 6,989 | xAI |
#38 | Deepseek V3.2 Thinking | 1420 | 21,792 | DeepSeek |
#39 | Deepseek V3.2 | 1419 | 26,704 | DeepSeek |
#40 | Deepseek R1 0528 | 1418 | 19,290 | DeepSeek |
#41 | Ernie 5.0 Preview 1022 | 1418 | 4,619 | Baidu |
#42 | Deepseek V3.1 | 1418 | 15,299 | DeepSeek |
#43 | Kimi K2 0905 Preview | 1418 | 11,974 | Moonshot |
#44 | Deepseek V3.1 Thinking | 1417 | 11,983 | DeepSeek |
#45 | Kimi K2 0711 Preview | 1417 | 28,662 | Moonshot |
#46 | Deepseek V3.1 Terminus | 1416 | 3,761 | DeepSeek |
#47 | Deepseek V3.1 Terminus Thinking | 1416 | 3,549 | DeepSeek |
#48 | Qwen3 Vl 235b A22b Instruct | 1415 | 11,683 | Alibaba |
#49 | Mistral Large 3 | 1414 | 23,001 | Mistral |
#50 | Claude Opus 4 20250514 | 1414 | 45,579 | Anthropic |
#51 | Gpt 4.1 2025 04 14 | 1413 | 52,220 | OpenAI |
#52 | Mistral Medium 2508 | 1411 | 62,020 | Mistral |
#53 | Grok 3 Preview 02 24 | 1411 | 33,974 | xAI |
#54 | Gemini 2.5 Flash | 1410 | 93,104 | |
#55 | Glm 4.5 | 1410 | 24,794 | Z.ai |
#56 | Grok 4 0709 | 1410 | 42,162 | xAI |
#57 | Gemini 2.5 Flash Preview 09 2025 | 1405 | 32,880 | |
#58 | Claude Haiku 4 5 20251001 | 1404 | 43,455 | Anthropic |
#59 | Grok 4 Fast Reasoning | 1404 | 18,640 | xAI |
#60 | O1 2024 12 17 | 1402 | 27,822 | OpenAI |
Penobatan Februari
Untuk pertama kalinya sejak seri Gemini 3 diluncurkan, model non-Google duduk di #1. Claude Opus 4.6 telah mengambil mahkota.
Saya ingat saat yang tepat ketika saya menyegarkan halaman arena dan melihat nama baru di puncak. Bukan Gemini. Bukan Grok. Claude. Unggulan terbaru Anthropic tidak hanya melewati juara bertahan — ia membuka celah yang jelas atas Gemini 3 Pro. Dalam sistem berbasis Elo arena, pemisahan semacam itu bukanlah kebisingan. Ini mencerminkan preferensi yang tulus dan konsisten dari ribuan evaluasi buta di mana pengguna tidak tahu dengan model mana mereka berbicara.
Apa yang paling mengejutkan saya tentang Opus 4.6 bukanlah kemampuan tunggal apa pun — itu adalah apa yang saya sebut ketenangan. Setiap interaksi yang saya miliki dengannya mengungkapkan model yang menangani ambiguitas dengan anggun, beralih antara presisi teknis dan kelancaran kreatif tanpa kehilangan utasnya, dan menunjukkan tingkat kesadaran kontekstual yang terasa berbeda secara kualitatif dari apa yang terjadi sebelumnya. Ketika Anda memberinya permintaan multi-bagian yang kompleks — katakanlah, menganalisis kontrak hukum sambil secara bersamaan menyarankan sudut pemasaran kreatif — ia tidak hanya beralih antar mode. Ia mengintegrasikannya ke dalam satu respons yang koheren.
Modelnya segar, membawa sampel validasi terkecil di 10 besar. Tetapi metodologi arena kuat — perbandingan buta, basis pengguna yang beragam, tidak ada bias seleksi mandiri. Saya bertaruh besar bahwa seiring masuknya lebih banyak evaluasi, posisi #1 itu akan semakin kokoh daripada terkikis. Anthropic tidak hanya membangun model yang lebih baik — mereka telah membangun model yang paling memahami apa yang sebenarnya diinginkan orang dari sebuah percakapan.
Anthropic: Penguasa Baru
Anthropic tidak menang dengan satu tembakan ke bulan — mereka membangun dinasti. Sepuluh model di 60 teratas mencakup lini produk lengkap: dari Opus 4.6 di puncak, melalui si kembar Opus 4.5 yang memegang #5 dan #6, Sonnet 4.5 yang sangat mampu di #11 dan #12, hingga Haiku 4.5 yang hemat biaya di #58. Ini bukan cerita satu model. Ini adalah pernyataan di seluruh organisasi.
Anthropic menempatkan sepuluh model di 60 teratas, mencakup tingkatan Opus, Sonnet, dan Haiku. Ini mewakili lini produk kompetitif terluas dari laboratorium AI mana pun yang berfokus pada keselamatan.
Apa yang menurut saya paling menarik tentang pendekatan Anthropic adalah obsesi mereka dengan apa yang saya sebut "karakter model." Setiap varian Claude mempertahankan konsistensi kepribadian dan penilaian yang belum ditandingi oleh laboratorium lain. Ketika saya menyerahkan skenario abu-abu secara moral atau ringkasan kreatif yang ambigu kepada Claude, saya mendapatkan keterlibatan yang bijaksana daripada lindung nilai yang mengelak. Kualitas itu — dikalikan di jutaan interaksi arena — adalah persis apa yang mendorong preferensi naik.
Tingkat Sonnet di #11 dan #12 terus menjadi titik manis bagi sebagian besar pengguna profesional. Ini cukup cepat untuk jalur produksi, cukup mampu untuk tugas analitis yang kompleks, dan dihargai cukup terjangkau untuk penggunaan sehari-hari. Jika Anda hanya mampu mengintegrasikan satu model secara mendalam ke dalam alur kerja Anda, Sonnet 4.5 tetap menjadi rekomendasi default saya. Tetapi jika Anda membutuhkan batas absolut dari apa yang dapat dilakukan AI dalam percakapan? Opus 4.6 adalah jawabannya, dan celah ke tempat kedua memberi tahu Anda seberapa jauh Anthropic telah menarik diri ke depan.
Jika ada kelemahan, itu adalah latensi. Model andalan Anthropic bukanlah yang tercepat, dan untuk aplikasi waktu nyata di mana kecepatan respons lebih penting daripada kedalaman, Anda akan ingin mencari di tempat lain. Tapi raja yang digulingkan juga tidak tinggal diam.
Google: Raja Tanpa Mahkotanya
Kehilangan #1 menyengat, tetapi posisi Google jauh dari mengerikan. Gemini 3 Pro di #2 tetap menjadi salah satu model AI terlengkap yang pernah dibuat — luar biasa di seluruh penalaran, pengkodean, tugas kreatif, dan pemahaman multimodal. Margin ke juara baru cukup sempit sehingga setiap pengguna yang beralih di antara keduanya akan kesulitan untuk secara konsisten membedakan perbedaan dalam penggunaan sehari-hari.
Google menurunkan enam model di 60 teratas, termasuk tiga di 8 besar. Keluarga Gemini 3 Flash di #4 dan #8 menawarkan kemampuan mendekati andalan dengan latensi yang jauh lebih rendah.
Keluarga Flash adalah tempat kecemerlangan strategis Google terlihat. Gemini 3 Flash di #4 memberikan sekitar 97% dari kemampuan Pro dengan sebagian kecil dari biaya dan latensi. Bagi sebagian besar pengguna — termasuk saya sendiri dalam alur kerja harian — Flash adalah pilihan praktis. Varian thinking-minimal di #8 menunjukkan Google sedang mengeksplorasi jalan tengah antara penalaran rantai pikiran penuh dan respons instan, dan hasil awalnya menjanjikan. Eksperimen arsitektur semacam ini adalah persis apa yang membuat Google tetap berbahaya.
Keuntungan infrastruktur Google tetap menjadi parit yang tangguh. Gemini terintegrasi secara asli dengan Workspace, Android, dan Google Cloud. Distribusi semacam itu tidak dapat direplikasi dengan kemampuan saja. Saya berharap Google akan menjawab Claude Opus 4.6 dalam waktu 90 hari — kemungkinan dengan Gemini 3.5 atau pratinjau Gemini 4 awal. Jika sejarah adalah panduan apa pun, ketika Google merespons, ia merespons dengan keras.
xAI: Standar Perunggu
Grok 4.1 Thinking di #3 bukan lagi kejutan — ini adalah harapan. xAI telah memantapkan dirinya sebagai kekuatan ketiga dalam lanskap AI, dan penempatan podium yang konsisten dari varian thinking berbicara tentang kekuatan sejati dalam tugas-tugas penalaran yang kompleks.
Apa yang membedakan Grok bukan hanya kemampuan — itu adalah filosofi. Di mana Claude bertujuan untuk penilaian bernuansa dan Gemini untuk kompetensi komprehensif, Grok condong ke dalam kepribadian. Ini adalah model yang paling bersedia terlibat dengan peristiwa terkini melalui integrasi X/Twitter waktu nyata, membentuk opini, dan mendorong kembali premis Anda. Bagi pengguna yang menginginkan AI yang secara aktif terlibat dengan ide-ide daripada mundur ke netralitas diplomatik, Grok menawarkan sesuatu yang benar-benar berbeda. Di tingkat kinerja ini, itu penting.
xAI menempatkan tujuh model di 60 teratas, dengan varian mulai dari Thinking yang berat penalaran (#3) hingga Fast Chat yang dioptimalkan kecepatan (#37) dan Grok 3 warisan (#53).
Varian fast-reasoning dan fast-chat di #28 dan #37 menunjukkan xAI secara aktif menangani masalah kecepatan yang secara historis membatasi adopsi Grok dalam aplikasi yang sensitif terhadap latensi. Jika Grok 5 mewarisi keuntungan arsitektur Thinking sambil menutup kesenjangan efisiensi, podium bisa menjadi sangat menarik akhir tahun ini. Kesenjangan antara Perunggu dan Perak sempit — tidak dapat diatasi. Dan jika kecepatan iterasi xAI bertahan, mereka adalah kandidat yang paling mungkin untuk menantang #2 berikutnya.
Armada Timur
Inilah angka yang seharusnya membuat setiap eksekutif AI Barat terjaga di malam hari: 24 dari 60 model peringkat teratas — tepatnya 40% — berasal dari organisasi Cina. Ini bukan kebetulan. Ini adalah pergeseran struktural dalam lanskap AI global, dan telah dipercepat sejak laporan terakhir saya.
DeepSeek memimpin dengan sembilan model. Kimi K2.5 dari Moonshot debut di #15. Qwen3 memegang empat varian. GLM dari Z.ai mempertahankan tiga. ERNIE duduk di 10 besar. Ini adalah keunggulan sistemik.
DeepSeek layak mendapat perhatian khusus. Sembilan model antara #34 dan #47 menunjukkan jenis iterasi cepat yang dulunya secara eksklusif merupakan sifat OpenAI. Seri v3.2 mereka — dengan varian eksperimental, thinking, dan standar — menunjukkan laboratorium yang mengirimkan dengan kecepatan luar biasa. Model open-source baru-baru ini di HuggingFace sudah disesuaikan oleh ribuan pengembang independen, menciptakan ekosistem yang memperkuat diri sendiri yang memperkuat jangkauan mereka jauh melampaui apa yang disarankan oleh ukuran tim mereka.
Seri Kimi K2.5 dari Moonshot adalah pendatang baru yang harus ditonton. Varian thinking yang memulai debutnya di #15 dan varian instan di #26 adalah pembukaan yang kuat — kompetitif segera dengan pemain mapan. Jika kecepatan ini bertahan, Moonshot bisa muncul sebagai kuda hitam tahun 2026. Arsitektur mereka tampaknya sangat cocok untuk paradigma penalaran-pertama yang saat ini mendominasi papan peringkat ini.
Implikasi biaya sangat mengejutkan. Banyak dari model ini menawarkan harga API pada 20-30% dari model Barat yang setara. Bagi pengguna berbahasa Inggris yang belum menjelajahi model Cina, kesenjangan kemampuan pada dasarnya telah ditutup. Pembeda yang tersisa adalah tata kelola data, optimasi bahasa untuk domain niche, dan integrasi ekosistem — faktor penting, tetapi bukan lagi kemampuan itu sendiri.
OpenAI: Volume Tanpa Takhta
OpenAI memegang posisi statistik yang luar biasa: sebelas model di 60 teratas — lebih dari organisasi tunggal lainnya. Tapi tidak ada satu pun yang menembus 8 besar. Bagi perusahaan yang mendefinisikan era AI modern dengan GPT-3 dan ChatGPT, ini menuntut refleksi serius.
GPT-5.1 High di #9 adalah entri andalan. Ini benar-benar kompetitif — tidak ada yang akan menyebutnya model yang buruk. Tetapi kesenjangan antara #9 dan podium adalah jenis jarak yang penting ketika memilih alat AI utama Anda. Penyebaran dari GPT-5.2 di #21 hingga o1 di #60 mencakup rentang yang sangat besar, dan variasi keluarga model — GPT-5.x, GPT-4.x, seri-o, varian ChatGPT — menyarankan strategi yang memprioritaskan luasnya daripada kinerja puncak yang terkonsentrasi.
📊 Paradoks Adopsi
ChatGPT-4o-latest di #19 membawa lebih dari 81.000 suara — di antara yang tertinggi di seluruh papan peringkat. Posisi tolok ukur tidak memprediksi loyalitas pengguna. Merek konsumen dan ekosistem OpenAI menciptakan daya tarik gravitasi yang tidak dapat diatasi oleh kemampuan mentah saja.
Apa yang telah dibangun OpenAI adalah kelekatan. Antarmuka ChatGPT yang familier, integrasi perusahaan, ekosistem API yang matang, dan kepercayaan konsumen menciptakan biaya peralihan yang melebihi keuntungan dari mengejar posisi papan peringkat. Bagi banyak organisasi yang sudah tertanam dalam tumpukan OpenAI, pertanyaan praktisnya bukan "model mana yang #1?" tetapi "apakah model kami saat ini menangani kasus penggunaan kami dengan cukup baik?" Untuk sebagian besar beban kerja perusahaan, jawabannya tetap ya.
Jalan OpenAI kembali ke puncak kemungkinan berjalan melalui GPT-6 atau terobosan seri-o fundamental. Sampai saat itu, permainan mereka adalah dominasi ekosistem, bukan supremasi model individu. Itu strategi yang layak — tetapi itu berarti menyerahkan narasi inovasi kepada Anthropic, Google, dan semakin banyak, ke laboratorium di Timur.
Apa yang Akan Datang
Prediksi dalam AI berbahaya — bidang ini bergerak terlalu cepat untuk kepastian. Tapi setelah bertahun-tahun melacak pergeseran ini, saya telah mengembangkan naluri untuk lintasan. Inilah yang saya yakini tentang sisa tahun 2026:
Paradigma penalaran bersifat permanen. Setiap model berkinerja terbaik sekarang mengirimkan varian "berpikir", dan mereka secara konsisten mengungguli rekan standar mereka. Ini bukan mode. Biaya komputasi waktu inferensi akan terus menurun, membuat penalaran yang diperluas layak untuk aplikasi yang semakin sensitif terhadap biaya. Pada akhir tahun, saya memperkirakan mode penalaran akan menjadi default daripada pengecualian.
Gelombang Cina akan semakin cepat. Inovasi efisiensi DeepSeek dan iterasi cepat Moonshot menandakan tren yang lebih dalam: kesenjangan pengetahuan antara laboratorium AI Barat dan Timur telah ditutup. Persaingan sekarang terjadi pada strategi penyebaran, integrasi ekosistem, dan posisi regulasi — bukan pada kemampuan model fundamental. Kebijakan pengadaan AI khusus Barat menjadi kewajiban kompetitif bagi organisasi yang mengadopsinya.
Integrasi multimodal menjadi batas yang menentukan. Papan peringkat khusus teks akan kurang berarti karena model yang memproses teks, gambar, video, dan audio dengan mulus membuka kategori aplikasi yang sama sekali baru. Perhatikan varian asli multimodal dari Anthropic dan Google untuk mulai membentuk kembali peringkat ini pada pertengahan 2026. Model yang menang tidak hanya akan pintar — mereka akan perseptif di semua modalitas input.
Spesialisasi akan lebih besar daripada generalisasi. Kesenjangan antara 10 model teratas di papan peringkat ini hanya mencakup 44 poin. Pada tingkat konvergensi ini, model yang mendominasi kasus penggunaan spesifik Anda lebih penting daripada model yang menang secara keseluruhan. Era "satu model untuk memerintah mereka semua" sedang berakhir. Era orkestrasi model cerdas — merutekan tugas yang berbeda ke spesialis yang berbeda — sedang dimulai.
Open-source semakin mempersempit kesenjangan. DeepSeek, Qwen, GLM, dan Kimi semuanya mempertahankan varian bobot terbuka di HuggingFace. Model-model ini sedang disesuaikan, disuling, dan disebarkan oleh ribuan tim independen di seluruh dunia. Implikasinya mendalam: batas kemampuan tidak lagi terkunci di belakang paywall API. Bagi organisasi yang bersedia berinvestasi dalam infrastruktur, model yang dihosting sendiri sekarang dapat bersaing dengan penawaran komersial 20 besar dengan sebagian kecil dari biaya berulang.
Rekomendasi Praktis
Setelah menganalisis ribuan interaksi, melacak setiap rilis model utama, dan menjalankan perbandingan saya sendiri setiap hari selama tiga tahun, inilah penilaian jujur saya untuk Februari 2026:
🥇 Kecerdasan Puncak
Claude Opus 4.6 — #1 yang baru. Kedalaman, penilaian, dan ketenangan percakapan yang tak tertandingi. Terbaik untuk analisis kompleks, pekerjaan kreatif, dan tugas yang membutuhkan nuansa asli.
🏆 Serba Bisa
Gemini 3 Pro — masih #2 dan luar biasa di setiap domain. Coding, menulis, menalar, multimodal — tidak ada kelemahan yang berarti di mana pun.
⚡ Juara Kecepatan
Gemini 3 Flash — memberikan kemampuan mendekati andalan dengan latensi dan biaya yang jauh lebih rendah. Pilihan praktis untuk sebagian besar alur kerja harian.
🤔 Kepribadian + Penalaran
Grok 4.1 Thinking — pengetahuan waktu nyata, penalaran yang diperluas, karakter asli. Terbaik bagi pengguna yang menginginkan AI yang terlibat dengan pendapat daripada lindung nilai.
🏢 Ekosistem Perusahaan
Rangkaian OpenAI — ChatGPT, seri GPT-5, seri-o. Kedalaman integrasi yang tak tertandingi, kematangan API, dan alat perusahaan. Pilihan paling aman ketika biaya peralihan lebih penting daripada kemampuan puncak.
💰 Anggaran pada Skala
Varian DeepSeek, Qwen, ERNIE, Kimi — kemampuan 40 besar dengan 20-30% dari harga Barat. Penting untuk aplikasi volume tinggi dan penyebaran yang dihosting sendiri.
Strategi optimal pada tahun 2026 bukanlah kesetiaan pada satu model. Ini adalah mengorkestrasi beberapa AI untuk konteks yang berbeda. Claude untuk kedalaman dan penilaian, Gemini untuk kecepatan dan luasnya, Grok untuk kepribadian dan kesadaran waktu nyata, model Cina untuk skala dan biaya. Mahkota mungkin telah berpindah tangan — tetapi kebenaran mendasar belum berubah: tidak ada AI pamungkas, hanya alat yang berkembang yang bekerja paling baik bersama-sama.
Sumber Data: Peringkat dari Papan Peringkat Arena AI, 6 Februari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!