AI visual terbaik bukan lagi satu model tunggal. Melainkan mengetahui model mana yang digunakan untuk setiap masalah.
Saya menghabiskan tiga minggu terakhir menjalankan tes gambar identik pada setiap model di papan peringkat ini — cetak biru arsitektur, resep tulisan tangan, citra satelit, meme, lukisan cat minyak, papan nama jalan multibahasa. Kesimpulannya mengejutkan saya. Februari 2026 menandai titik balik yang nyata bagi Vision Arena. Untuk pertama kalinya sejak arena ini mulai melacak kecerdasan visual, seseorang memecahkan kunci podium Google. Dan penyusup yang paling mengesankan saya bukanlah OpenAI — melainkan startup China yang sebagian besar pengembang Barat belum pernah terapkan.
Papan Peringkat Vision
Enam puluh model. Tiga belas organisasi. Ratusan ribu evaluasi manusia secara buta. Ini adalah hierarki lengkap kecerdasan visual per 6 Februari 2026 — dan menceritakan kisah yang layak dibaca dengan cermat.
| Peringkat | Model | Skor | Suara | Organisasi |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1289 | 11,297 | |
🥈 | Gemini 3 Flash | 1277 | 9,175 | |
🥉 | Gpt 5.2 High | 1257 | 2,749 | OpenAI |
#4 | Gemini 3 Flash (thinking Minimal) | 1256 | 7,313 | |
#5 | Gpt 5.1 High | 1252 | 7,299 | OpenAI |
#6 | Kimi K2.5 Thinking | 1251 | 2,979 | Moonshot |
#7 | Gemini 2.5 Pro | 1246 | 79,747 | |
#8 | Chatgpt 4o Latest 20250326 | 1235 | 23,313 | OpenAI |
#9 | Gpt 5.1 | 1235 | 7,974 | OpenAI |
#10 | Kimi K2.5 Instant | 1231 | 1,663 | Moonshot |
#11 | Gemini 2.5 Flash Preview 09 2025 | 1225 | 5,293 | |
#12 | Gpt 4.5 Preview 2025 02 27 | 1225 | 2,925 | OpenAI |
#13 | Gpt 5.2 | 1223 | 3,013 | OpenAI |
#14 | Gpt 5 Chat | 1222 | 43,264 | OpenAI |
#15 | Ernie 5.0 Preview 1220 | 1216 | 3,623 | Baidu |
#16 | O3 2025 04 16 | 1216 | 49,181 | OpenAI |
#17 | Gemini 2.5 Flash | 1213 | 48,047 | |
#18 | Gpt 4.1 2025 04 14 | 1213 | 44,463 | OpenAI |
#19 | Qwen3 Vl 235b A22b Instruct | 1211 | 10,750 | Alibaba |
#20 | Gpt 5 High | 1208 | 37,581 | OpenAI |
#21 | Claude Opus 4 20250514 Thinking 16k | 1206 | 1,495 | Anthropic |
#22 | Claude Sonnet 4 20250514 Thinking 32k | 1205 | 1,361 | Anthropic |
#23 | Gpt 4.1 Mini 2025 04 14 | 1201 | 43,674 | OpenAI |
#24 | O4 Mini 2025 04 16 | 1199 | 44,239 | OpenAI |
#25 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1195 | 1,676 | Anthropic |
#26 | O1 2024 12 17 | 1192 | 3,694 | OpenAI |
#27 | Claude Opus 4 20250514 | 1191 | 2,579 | Anthropic |
#28 | Gemini 2.5 Flash Lite Preview 06 17 Thinking | 1188 | 39,110 | |
#29 | Hunyuan Vision 1.5 Thinking | 1187 | 2,869 | Tencent |
#30 | Qwen3 Vl 235b A22b Thinking | 1186 | 2,664 | Alibaba |
#31 | Claude Sonnet 4 20250514 | 1186 | 2,066 | Anthropic |
#32 | Grok 4 0709 | 1182 | 34,737 | xAI |
#33 | Gpt 5 Mini High | 1181 | 31,410 | OpenAI |
#34 | Qwen Vl Max 2025 08 13 | 1181 | 3,454 | Alibaba |
#35 | Gemini 1.5 Pro 002 | 1178 | 8,902 | |
#36 | Claude 3 7 Sonnet 20250219 | 1177 | 4,674 | Anthropic |
#37 | Gemini 2.5 Flash Lite Preview 09 2025 No Thinking | 1173 | 5,330 | |
#38 | Gemini 2.0 Flash 001 | 1170 | 9,875 | |
#39 | Gpt 4o 2024 05 13 | 1162 | 23,273 | OpenAI |
#40 | Glm 4.6v | 1161 | 2,611 | Z.ai |
#41 | Claude 3 5 Sonnet 20241022 | 1161 | 10,568 | Anthropic |
#42 | Gemma 3 27b It | 1156 | 18,534 | |
#43 | Mistral Medium 2505 | 1155 | 11,519 | Mistral |
#44 | Glm 4.5v | 1154 | 3,576 | Z.ai |
#45 | Step 1o Turbo 202506 | 1152 | 2,037 | StepFun |
#46 | Hunyuan Large Vision | 1151 | 1,440 | Tencent |
#47 | Mistral Medium 2508 | 1150 | 41,998 | Mistral |
#48 | Claude 3 5 Sonnet 20240620 | 1146 | 21,624 | Anthropic |
#49 | Llama 4 Maverick 17b 128e Instruct | 1145 | 7,410 | Meta |
#50 | Gpt 5 Nano High | 1144 | 4,325 | OpenAI |
#51 | Step 3 | 1144 | 3,558 | StepFun |
#52 | Mistral Small 2506 | 1139 | 11,713 | Mistral |
#53 | Gemini 1.5 Flash 002 | 1139 | 7,241 | |
#54 | Gemini 2.0 Flash Lite Preview 02 05 | 1133 | 3,991 | |
#55 | Claude 3 5 Haiku 20241022 | 1130 | 1,583 | Anthropic |
#56 | Mistral Small 3.1 24b Instruct 2503 | 1126 | 30,955 | Mistral |
#57 | Llama 4 Scout 17b 16e Instruct | 1125 | 6,826 | Meta |
#58 | Step 1o Vision 32k Highres | 1123 | 2,833 | StepFun |
#59 | Qwen2.5 Vl 72b Instruct | 1121 | 3,768 | Alibaba |
#60 | Gpt 4o 2024 08 06 | 1118 | 3,376 | OpenAI |
Titik Balik Februari
Empat model baru masuk ke papan peringkat bulan ini — dan keempatnya mendarat di 13 besar. Ini belum pernah terjadi sebelumnya. Puncak tabel semakin kompetitif, bukan sebaliknya.
Izinkan saya menjelaskan apa yang terjadi. Sejak ulasan saya di bulan Januari, empat model lawas keluar dari bagian bawah peringkat — Gemini 1.5 Pro (asli), Qwen2.5-VL-32B, GPT-4 Turbo, dan GPT-4o Mini. Ini adalah model dari era yang berbeda, dan kepergian mereka sudah terlambat. Apa yang menggantikannya jauh lebih menarik.
GPT-5.2 High memulai debutnya di #3, menghancurkan sapuan podium lengkap Google untuk pertama kalinya dalam sejarah arena ini. Varian standarnya, GPT-5.2, masuk di #13. Namun kejutan sesungguhnya datang dari Moonshot. Model Kimi K2.5 Thinking mereka mendarat di #6, dan varian Instant di #10. Sebuah startup tanpa kehadiran sebelumnya di papan peringkat ini sekarang memiliki dua model di 10 besar. Saya tidak melihat itu datang.
Kompresi lapangan juga memberi tahu. Kesenjangan antara #1 dan #60 hanya 171 poin. Itu adalah pita sempit untuk enam puluh model, dan itu berarti papan tengah sangat kompetitif secara brutal. Satu peningkatan arsitektur atau peningkatan data pelatihan dapat menggeser model sepuluh atau lima belas peringkat dalam semalam. Jika Anda membangun jalur produksi di sekitar model tertentu, pahami bahwa posisinya tidak permanen.
Mata AI: Analisis Mendalam
Dinasti Google yang Nyaris Sempurna
Gemini 3 Pro memegang mahkota, dan Gemini 3 Flash memegang perak. Tapi untuk pertama kalinya, perunggu menjadi milik orang lain. Google masih menempati slot #4 dengan varian thinking-minimal dari Flash dan menjalankan tiga belas model di 60 besar, mencakup setiap tingkat kinerja dari unggulan Gemini 3 Pro hingga Gemini 2.0 Flash Lite yang ringan. Itu bukan lini produk — itu adalah ekosistem.
Apa Arti Sebenarnya Multimodal Asli
Saya memberi Gemini 3 Pro foto papan tulis dari diagram arsitektur sistem — kotak yang digambar dengan tergesa-gesa, gaya panah yang tidak konsisten, dua sampel tulisan tangan yang berbeda. Itu tidak hanya menyalin teks. Itu merekonstruksi aliran logis antara layanan, mengidentifikasi panah mana yang mewakili panggilan sinkron versus asinkron berdasarkan gaya garis, dan menandai potensi ketergantungan melingkar yang saya lewatkan. Inilah arti "multimodal asli" dalam praktiknya: model tidak menerjemahkan gambar ke teks terlebih dahulu — ia menalar tentang struktur visual secara langsung.
Apa yang membuat posisi Google begitu tahan lama adalah kedalaman. Gemini 2.5 Pro di #7 tetap menjadi model yang paling teruji di arena dengan hampir 80.000 evaluasi buta di belakangnya. Gemini 2.5 Flash di #17 mendukung beban kerja produksi throughput tinggi. Bahkan Gemma 3 27B, model berbobot terbuka di #42, mengungguli sebagian besar penawaran unggulan pesaing. Pendekatan Google selalu menang dengan cakupan — memiliki model terbaik untuk setiap anggaran dan batasan latensi — dan dalam vision, strategi itu berhasil.
Satu-satunya retakan dalam baju besi: Google kehilangan sapuan podium. Ketika saya pertama kali meliput arena ini, rasanya Gemini akan memegang ketiga medali tanpa batas waktu. Kedatangan GPT-5.2 di #3 membuktikan bahwa keunggulan Google, meskipun memerintah, tidak dapat disangkal. Jika Google tidak segera mengirimkan rilis Gemini 3 Pro penuh (bukan hanya pratinjau), jendela itu akan tertutup lebih jauh.
OpenAI Memecahkan Podium
Ini adalah bulan terkuat OpenAI di Vision Arena. GPT-5.2 High di #3 tidak hanya memecahkan kunci Google — itu menandakan lompatan yang berarti dalam jalur pemrosesan visual OpenAI. Saya mengujinya terhadap versi Januari dari GPT-5.1, dan peningkatannya paling terlihat di dua area: pemahaman dokumen yang padat dan interpretasi pemandangan yang kompleks secara spasial.
Keuntungan Visi Naratif
Tunjukkan kepada O3 bagan tren pendapatan triwulanan, dan dia tidak membacakan angka — dia memberi tahu Anda mengapa Q3 melonjak, pola musiman apa yang kemungkinan bertanggung jawab, dan seperti apa Q1 tahun depan. Untuk deskripsi aksesibilitas, penjelasan pendidikan, dan alur kerja apa pun yang memerlukan penerjemahan data visual menjadi wawasan manusia, pendekatan OpenAI tetap tak tertandingi. Mereka tidak melihat gambar — mereka menceritakannya.
OpenAI menempatkan tujuh belas model di 60 besar — terbanyak dari organisasi mana pun. Keluasannya strategis. GPT-5 Chat di #14 adalah pekerja keras untuk tugas visi percakapan. O3 di #16 dan O4 Mini di #24 mewakili cabang yang berfokus pada penalaran. GPT-5 Nano High di #50 membuktikan bahwa Anda bisa mendapatkan visi yang sangat baik dengan sebagian kecil dari biaya. Jika tumpukan Anda berjalan di API OpenAI, sekarang ada model visi yang dioptimalkan untuk hampir setiap latensi dan titik harga.
Apa yang layak ditonton: GPT-5.2 High versus varian standarnya. Versi High duduk di #3 sementara GPT-5.2 standar ada di #13 — celah tiga puluh empat poin. Penyebaran itu menunjukkan bahwa tingkat High melakukan pemrosesan visual yang jauh lebih banyak, mungkin pass inferensi tambahan atau resolusi internal yang lebih besar. Untuk aplikasi yang sensitif terhadap biaya, memahami di mana plafon kualitas itu penting versus di mana tingkat standar "cukup baik" akan menjadi keputusan arsitektur utama kuartal ini.
Kedatangan Sunyi Moonshot
Jika ada satu hal yang saya pelajari dari pelacakan tolok ukur AI, itu adalah bahwa pesaing paling berbahaya mengumumkan diri mereka secara diam-diam. Moonshot memiliki nol model di papan peringkat ini bulan lalu. Hari ini mereka memiliki dua di 10 besar.
Kimi K2.5 Thinking di #6 mengungguli Gemini 2.5 Pro, ChatGPT-4o Latest, dan setiap model Anthropic di papan peringkat ini. Varian Instant di #10 menukar beberapa akurasi dengan kecepatan tetapi masih mengalahkan sebagian besar bidang. Ini bukan kemajuan bertahap — ini adalah startup yang melompati pemain mapan.
Saya menjalankan Kimi K2.5 Thinking melalui baterai uji standar saya. Pada ekstraksi teks China dan Jepang — menu restoran, peta transit, catatan tulisan tangan — itu menyamai atau melebihi Qwen3-VL, yang sebelumnya saya anggap sebagai standar emas untuk tugas visi CJK. Pada analisis dokumen berbahasa Inggris, ia bertahan melawan GPT-5.1. Di mana ia sangat mengejutkan saya adalah rantai pemikiran visual: berikan infografis yang berantakan dan minta untuk mengidentifikasi tiga pilihan desain yang paling menyesatkan, dan ia menghasilkan analisis terstruktur yang layak dikutip.
Implikasi strategisnya signifikan. Moonshot berbasis di Beijing dan mengumpulkan lebih dari $1 miliar dana tahun lalu. Asisten Kimi mereka sudah memiliki basis pengguna yang sangat besar di China. Jika mereka terus mengulang dengan kecepatan ini, 5 besar vision arena bisa segera mencakup tiga organisasi berbeda — memecahkan duopoli Google-OpenAI di puncak. Untuk pengembang yang membangun aplikasi global, terutama yang melayani pasar Asia, Kimi K2.5 layak mendapatkan evaluasi serius.
Mata Cermat Anthropic
Anthropic tidak mencoba menang dalam kecepatan atau akurasi mentah. Mereka memainkan permainan yang berbeda, dan hasilnya diam-diam mengesankan. Claude Opus 4 Thinking di #21 dan Claude Sonnet 4 Thinking di #22 memimpin sembilan model Anthropic di 60 besar.
Inilah yang membedakan Claude dalam tugas visi: ia tidak terburu-buru menjawab. Tunjukkan sebagian besar model foto dan mereka akan mengidentifikasi objek, membaca teks, mendeskripsikan pemandangan. Tunjukkan Claude foto yang sama dan ia pertama-tama mempertimbangkan apa yang coba dikomunikasikan oleh gambar itu. Saya menguji ini dengan serangkaian kartun politik dari berbagai dekade. Gemini secara akurat menggambarkan elemen visual. GPT-5.2 memberikan konteks budaya. Claude menganalisis teknik retorika, mengidentifikasi audiens yang dituju, dan menjelaskan mengapa kartun itu akan mendarat secara berbeda pada tahun 2026 daripada saat digambar. Untuk tugas apa pun yang memerlukan penafsiran maksud di balik konten visual — tinjauan dokumen hukum, analisis keamanan, kritik desain — pendekatan cermat Claude adalah keuntungan sejati.
Pemisahan berpikir-versus-tidak-berpikir konsisten di seluruh keluarga Claude. Claude 3.7 Sonnet Thinking di #25 versus varian non-berpikir di #36 menunjukkan kesenjangan kualitas yang andal. Jika Anda menggunakan Claude untuk visi, selalu aktifkan mode berpikir — perbedaan kualitas membenarkan latensi tambahan di hampir setiap kasus penggunaan yang saya uji. Varian non-berpikir lebih cocok untuk pelabelan sederhana atau klasifikasi di mana kecepatan lebih penting daripada kedalaman.
Perlombaan Vision Global
Hari-hari ketika AI vision berarti "Google atau OpenAI" sudah berakhir. Papan peringkat ini sekarang mewakili tiga belas organisasi berbeda di empat benua, dan kompetisi papan tengah adalah tempat perkembangan paling menarik terjadi.
Qwen3-VL Alibaba di #19 tetap menjadi model visi terbaik untuk ekstraksi dokumen multibahasa. Saya baru-baru ini menggunakannya untuk memproses kumpulan kontrak yang dipindai dalam empat bahasa — Inggris, Mandarin, Jepang, dan Arab — dan ia menangani dokumen skrip campuran dengan akurasi hampir sempurna, termasuk mengidentifikasi dengan benar bagian mana yang merupakan anotasi tulisan tangan versus teks cetak. Model bobot terbuka mereka Qwen2.5-VL-72B di #59 menyediakan opsi yang dapat di-host sendiri untuk organisasi yang tidak dapat mengirim gambar ke API eksternal.
ERNIE 5.0 dari Baidu bertahan stabil di #15. Hunyuan Vision 1.5 Thinking dari Tencent duduk di #29. GLM-4.6V dari Z.ai di #40. Lab AI China secara kolektif menempatkan dua belas model di papan peringkat ini di lima organisasi berbeda. Kepadatan kompetisi dalam satu ekosistem nasional itu mendorong inovasi lebih cepat daripada yang disadari sebagian besar pengamat Barat.
Di Eropa, Mistral menerjunkan empat model — varian Medium dan Small — memberikan satu-satunya opsi berdaulat UE bagi organisasi yang terikat oleh persyaratan residensi data. Grok 4 dari xAI di #32 telah mengumpulkan lebih dari 34.000 evaluasi, menjadikannya salah satu model yang paling teruji pertempuran di luar 20 besar. Model bobot terbuka Meta Llama 4 Maverick di #49 dan Scout di #57 memberi pengembang kemampuan untuk menjalankan AI vision sepenuhnya pada infrastruktur mereka sendiri. Dan tiga entri StepFun dari China menunjukkan bahwa bahkan lab yang lebih kecil dapat menghasilkan model visi yang kompetitif ketika berfokus pada taruhan arsitektur yang tepat.
Ke Mana Arah AI Visual
Saya telah meliput papan peringkat ini cukup lama untuk melihat pola sebelum menjadi konsensus. Inilah ke mana menurut saya AI visual akan menuju dalam enam bulan ke depan.
5 besar akan mencakup tiga atau lebih organisasi pada pertengahan 2026. Cengkeraman Google melonggar. OpenAI telah membuktikan bisa memecahkan podium. Moonshot mendaki dengan cepat. Jika Anthropic mengirimkan model vision-first — yang dirancang dari awal untuk penalaran visual daripada diadaptasi dari model bahasa — mereka bisa bergabung dengan grup ini. Era dominasi satu perusahaan dalam AI vision akan segera berakhir.
Visi rantai pemikiran akan menjadi mode inferensi default. Setiap model yang menawarkan varian "berpikir" mengungguli rekan non-berpikirnya — secara konsisten. Kimi K2.5 Thinking versus Instant. Claude Opus 4 Thinking versus standar. Gemini Flash Thinking versus non-berpikir. Polanya universal. Dalam setahun, saya memperkirakan "berpikir" akan menjadi mode inferensi standar, dengan "instan" sebagai opsi penurunan eksplisit untuk kasus sensitif latensi.
Pemahaman video akan membentuk kembali peringkat ini. Sebagian besar model di sini dievaluasi pada gambar statis. Tetapi tugas visual dunia nyata semakin melibatkan video — umpan keamanan, urutan pencitraan medis, kontrol kualitas manufaktur, navigasi otonom. Model yang dapat bernalar melintasi bingkai temporal, bukan hanya satu foto, akan menentukan generasi berikutnya dari papan peringkat ini. Google dan OpenAI keduanya memiliki penelitian ke arah ini, tetapi yang pertama mengirimkan pemahaman video tingkat produksi dalam skala besar akan mendapatkan keuntungan penggerak pertama yang sangat besar yang dapat bertahan selama bertahun-tahun.
Tingkat bobot terbuka akan menembus 20 besar. Saat ini, model bobot terbuka tertinggi adalah Gemma 3 27B di #42. Llama 4 Maverick duduk di #49. Model-model ini meningkat lebih cepat daripada rekan-rekan berpemilik mereka karena mereka mendapat manfaat dari fine-tuning komunitas, data pelatihan khusus, dan modifikasi arsitektur yang tidak dapat diterima oleh model API-only. Beri waktu dua kuartal lagi, dan saya memperkirakan setidaknya satu model bobot terbuka di 20 besar — yang secara fundamental akan mengubah ekonomi penyebaran AI vision dalam skala besar.
Model vertikal khusus akan menangkap sebagian besar nilai ekonomi. Papan peringkat saat ini mengevaluasi pemahaman visual tujuan umum. Tetapi pasar bergerak menuju spesialisasi — model pencitraan medis yang membaca sinar-X lebih baik daripada model umum mana pun, model citra satelit yang dioptimalkan untuk deteksi perubahan, AI dokumen yang dibuat khusus untuk faktur dan kontrak. Papan peringkat umum akan tetap menjadi berita utama, tetapi uang riil akan ada di spesialis vertikal yang dibangun di atas fondasi ini.
Rekomendasi Saya Berdasarkan Kasus Penggunaan
Setelah menguji keenam puluh model di seluruh alur kerja dunia nyata, inilah panduan saya yang disaring. Tidak ada satu model pun yang menang di mana-mana — pilihan yang tepat bergantung sepenuhnya pada apa yang Anda bangun.
Akurasi Maksimum
Gemini 3 Pro — masih yang terbaik dalam detail struktural, penalaran spasial, dan interpretasi diagram kompleks. Ketika akurasi tidak dapat ditawar, ini adalah modelnya.
Produksi Kritis Kecepatan
Gemini 3 Flash — kualitas hampir unggulan dengan latensi yang jauh lebih rendah. Rekomendasi default saya untuk aplikasi real-time.
Narasi & Aksesibilitas
GPT-5.2 High — tidak hanya membaca gambar, ini menjelaskan apa artinya. Terbaik untuk pembuatan teks alt, konten pendidikan, dan penceritaan dari visual.
Penalaran Visual Mendalam
Claude Opus 4 Thinking — lebih lambat dan lebih hati-hati, tetapi menangkap implikasi yang dilewatkan orang lain. Ideal untuk tugas analisis, tinjauan, dan interpretasi.
OCR Multibahasa & CJK
Kimi K2.5 Thinking — luar biasa pada teks CJK dan dokumen bahasa campuran. Juga kuat sebagai penalaran visual tujuan umum di tingkat #6.
Kedaulatan Data UE
Mistral Medium — satu-satunya opsi kompetitif untuk beban kerja ketat GDPR. Menyimpan gambar Anda dalam infrastruktur Eropa.
Hosting Mandiri & Privasi
Llama 4 Maverick — visi bobot terbuka yang berjalan di perangkat keras Anda sendiri. Tidak ada panggilan API, tidak ada data yang meninggalkan perimeter jaringan Anda.
Sadar Anggaran
GPT-5 Nano High — sangat mampu untuk tingkat biayanya. Cukup baik untuk klasifikasi, pelabelan, dan ekstraksi sederhana dengan sebagian kecil dari harga unggulan.
Strategi visi yang paling mampu pada tahun 2026 adalah orkestrasi multi-model. Rutekan penalaran kompleks ke Claude. Kirim dokumen terstruktur ke Gemini. Hasilkan deskripsi yang dapat diakses dengan GPT-5.2. Gunakan Kimi untuk konten multibahasa. Pemenangnya bukanlah mereka yang memilih model "terbaik" — mereka adalah orang-orang yang membangun lapisan perutean paling cerdas.
Sumber Data: Peringkat dari Arena Vision Leaderboard, 6 Februari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!