Papan Peringkat AI Vision Arena 2026

Wawasan Inti

AI visual terbaik bukan lagi satu model tunggal. Melainkan mengetahui model mana yang digunakan untuk setiap masalah.

Saya menghabiskan tiga minggu terakhir menjalankan tes gambar identik pada setiap model di papan peringkat ini — cetak biru arsitektur, resep tulisan tangan, citra satelit, meme, lukisan cat minyak, papan nama jalan multibahasa. Kesimpulannya mengejutkan saya. Februari 2026 menandai titik balik yang nyata bagi Vision Arena. Untuk pertama kalinya sejak arena ini mulai melacak kecerdasan visual, seseorang memecahkan kunci podium Google. Dan penyusup yang paling mengesankan saya bukanlah OpenAI — melainkan startup China yang sebagian besar pengembang Barat belum pernah terapkan.

Papan Peringkat Vision

Enam puluh model. Tiga belas organisasi. Ratusan ribu evaluasi manusia secara buta. Ini adalah hierarki lengkap kecerdasan visual per 6 Februari 2026 — dan menceritakan kisah yang layak dibaca dengan cermat.

Peringkat	Model	Skor	Suara	Organisasi
🥇	Gemini 3 Pro	1289	11,297	Google
🥈	Gemini 3 Flash	1277	9,175	Google
🥉	Gpt 5.2 High	1257	2,749	OpenAI
#4	Gemini 3 Flash (thinking Minimal)	1256	7,313	Google
#5	Gpt 5.1 High	1252	7,299	OpenAI
#6	Kimi K2.5 Thinking	1251	2,979	Moonshot
#7	Gemini 2.5 Pro	1246	79,747	Google
#8	Chatgpt 4o Latest 20250326	1235	23,313	OpenAI
#9	Gpt 5.1	1235	7,974	OpenAI
#10	Kimi K2.5 Instant	1231	1,663	Moonshot
#11	Gemini 2.5 Flash Preview 09 2025	1225	5,293	Google
#12	Gpt 4.5 Preview 2025 02 27	1225	2,925	OpenAI
#13	Gpt 5.2	1223	3,013	OpenAI
#14	Gpt 5 Chat	1222	43,264	OpenAI
#15	Ernie 5.0 Preview 1220	1216	3,623	Baidu
#16	O3 2025 04 16	1216	49,181	OpenAI
#17	Gemini 2.5 Flash	1213	48,047	Google
#18	Gpt 4.1 2025 04 14	1213	44,463	OpenAI
#19	Qwen3 Vl 235b A22b Instruct	1211	10,750	Alibaba
#20	Gpt 5 High	1208	37,581	OpenAI
#21	Claude Opus 4 20250514 Thinking 16k	1206	1,495	Anthropic
#22	Claude Sonnet 4 20250514 Thinking 32k	1205	1,361	Anthropic
#23	Gpt 4.1 Mini 2025 04 14	1201	43,674	OpenAI
#24	O4 Mini 2025 04 16	1199	44,239	OpenAI
#25	Claude 3 7 Sonnet 20250219 Thinking 32k	1195	1,676	Anthropic
#26	O1 2024 12 17	1192	3,694	OpenAI
#27	Claude Opus 4 20250514	1191	2,579	Anthropic
#28	Gemini 2.5 Flash Lite Preview 06 17 Thinking	1188	39,110	Google
#29	Hunyuan Vision 1.5 Thinking	1187	2,869	Tencent
#30	Qwen3 Vl 235b A22b Thinking	1186	2,664	Alibaba
#31	Claude Sonnet 4 20250514	1186	2,066	Anthropic
#32	Grok 4 0709	1182	34,737	xAI
#33	Gpt 5 Mini High	1181	31,410	OpenAI
#34	Qwen Vl Max 2025 08 13	1181	3,454	Alibaba
#35	Gemini 1.5 Pro 002	1178	8,902	Google
#36	Claude 3 7 Sonnet 20250219	1177	4,674	Anthropic
#37	Gemini 2.5 Flash Lite Preview 09 2025 No Thinking	1173	5,330	Google
#38	Gemini 2.0 Flash 001	1170	9,875	Google
#39	Gpt 4o 2024 05 13	1162	23,273	OpenAI
#40	Glm 4.6v	1161	2,611	Z.ai
#41	Claude 3 5 Sonnet 20241022	1161	10,568	Anthropic
#42	Gemma 3 27b It	1156	18,534	Google
#43	Mistral Medium 2505	1155	11,519	Mistral
#44	Glm 4.5v	1154	3,576	Z.ai
#45	Step 1o Turbo 202506	1152	2,037	StepFun
#46	Hunyuan Large Vision	1151	1,440	Tencent
#47	Mistral Medium 2508	1150	41,998	Mistral
#48	Claude 3 5 Sonnet 20240620	1146	21,624	Anthropic
#49	Llama 4 Maverick 17b 128e Instruct	1145	7,410	Meta
#50	Gpt 5 Nano High	1144	4,325	OpenAI
#51	Step 3	1144	3,558	StepFun
#52	Mistral Small 2506	1139	11,713	Mistral
#53	Gemini 1.5 Flash 002	1139	7,241	Google
#54	Gemini 2.0 Flash Lite Preview 02 05	1133	3,991	Google
#55	Claude 3 5 Haiku 20241022	1130	1,583	Anthropic
#56	Mistral Small 3.1 24b Instruct 2503	1126	30,955	Mistral
#57	Llama 4 Scout 17b 16e Instruct	1125	6,826	Meta
#58	Step 1o Vision 32k Highres	1123	2,833	StepFun
#59	Qwen2.5 Vl 72b Instruct	1121	3,768	Alibaba
#60	Gpt 4o 2024 08 06	1118	3,376	OpenAI

Titik Balik Februari

🔎

Empat model baru masuk ke papan peringkat bulan ini — dan keempatnya mendarat di 13 besar. Ini belum pernah terjadi sebelumnya. Puncak tabel semakin kompetitif, bukan sebaliknya.

Izinkan saya menjelaskan apa yang terjadi. Sejak ulasan saya di bulan Januari, empat model lawas keluar dari bagian bawah peringkat — Gemini 1.5 Pro (asli), Qwen2.5-VL-32B, GPT-4 Turbo, dan GPT-4o Mini. Ini adalah model dari era yang berbeda, dan kepergian mereka sudah terlambat. Apa yang menggantikannya jauh lebih menarik.

GPT-5.2 High memulai debutnya di #3, menghancurkan sapuan podium lengkap Google untuk pertama kalinya dalam sejarah arena ini. Varian standarnya, GPT-5.2, masuk di #13. Namun kejutan sesungguhnya datang dari Moonshot. Model Kimi K2.5 Thinking mereka mendarat di #6, dan varian Instant di #10. Sebuah startup tanpa kehadiran sebelumnya di papan peringkat ini sekarang memiliki dua model di 10 besar. Saya tidak melihat itu datang.

Kompresi lapangan juga memberi tahu. Kesenjangan antara #1 dan #60 hanya 171 poin. Itu adalah pita sempit untuk enam puluh model, dan itu berarti papan tengah sangat kompetitif secara brutal. Satu peningkatan arsitektur atau peningkatan data pelatihan dapat menggeser model sepuluh atau lima belas peringkat dalam semalam. Jika Anda membangun jalur produksi di sekitar model tertentu, pahami bahwa posisinya tidak permanen.

Mata AI: Analisis Mendalam

Dinasti Google yang Nyaris Sempurna

Gemini 3 Pro memegang mahkota, dan Gemini 3 Flash memegang perak. Tapi untuk pertama kalinya, perunggu menjadi milik orang lain. Google masih menempati slot #4 dengan varian thinking-minimal dari Flash dan menjalankan tiga belas model di 60 besar, mencakup setiap tingkat kinerja dari unggulan Gemini 3 Pro hingga Gemini 2.0 Flash Lite yang ringan. Itu bukan lini produk — itu adalah ekosistem.

Apa Arti Sebenarnya Multimodal Asli

Saya memberi Gemini 3 Pro foto papan tulis dari diagram arsitektur sistem — kotak yang digambar dengan tergesa-gesa, gaya panah yang tidak konsisten, dua sampel tulisan tangan yang berbeda. Itu tidak hanya menyalin teks. Itu merekonstruksi aliran logis antara layanan, mengidentifikasi panah mana yang mewakili panggilan sinkron versus asinkron berdasarkan gaya garis, dan menandai potensi ketergantungan melingkar yang saya lewatkan. Inilah arti "multimodal asli" dalam praktiknya: model tidak menerjemahkan gambar ke teks terlebih dahulu — ia menalar tentang struktur visual secara langsung.

Apa yang membuat posisi Google begitu tahan lama adalah kedalaman. Gemini 2.5 Pro di #7 tetap menjadi model yang paling teruji di arena dengan hampir 80.000 evaluasi buta di belakangnya. Gemini 2.5 Flash di #17 mendukung beban kerja produksi throughput tinggi. Bahkan Gemma 3 27B, model berbobot terbuka di #42, mengungguli sebagian besar penawaran unggulan pesaing. Pendekatan Google selalu menang dengan cakupan — memiliki model terbaik untuk setiap anggaran dan batasan latensi — dan dalam vision, strategi itu berhasil.

Satu-satunya retakan dalam baju besi: Google kehilangan sapuan podium. Ketika saya pertama kali meliput arena ini, rasanya Gemini akan memegang ketiga medali tanpa batas waktu. Kedatangan GPT-5.2 di #3 membuktikan bahwa keunggulan Google, meskipun memerintah, tidak dapat disangkal. Jika Google tidak segera mengirimkan rilis Gemini 3 Pro penuh (bukan hanya pratinjau), jendela itu akan tertutup lebih jauh.

OpenAI Memecahkan Podium

Ini adalah bulan terkuat OpenAI di Vision Arena. GPT-5.2 High di #3 tidak hanya memecahkan kunci Google — itu menandakan lompatan yang berarti dalam jalur pemrosesan visual OpenAI. Saya mengujinya terhadap versi Januari dari GPT-5.1, dan peningkatannya paling terlihat di dua area: pemahaman dokumen yang padat dan interpretasi pemandangan yang kompleks secara spasial.

Keuntungan Visi Naratif

Tunjukkan kepada O3 bagan tren pendapatan triwulanan, dan dia tidak membacakan angka — dia memberi tahu Anda mengapa Q3 melonjak, pola musiman apa yang kemungkinan bertanggung jawab, dan seperti apa Q1 tahun depan. Untuk deskripsi aksesibilitas, penjelasan pendidikan, dan alur kerja apa pun yang memerlukan penerjemahan data visual menjadi wawasan manusia, pendekatan OpenAI tetap tak tertandingi. Mereka tidak melihat gambar — mereka menceritakannya.

OpenAI menempatkan tujuh belas model di 60 besar — terbanyak dari organisasi mana pun. Keluasannya strategis. GPT-5 Chat di #14 adalah pekerja keras untuk tugas visi percakapan. O3 di #16 dan O4 Mini di #24 mewakili cabang yang berfokus pada penalaran. GPT-5 Nano High di #50 membuktikan bahwa Anda bisa mendapatkan visi yang sangat baik dengan sebagian kecil dari biaya. Jika tumpukan Anda berjalan di API OpenAI, sekarang ada model visi yang dioptimalkan untuk hampir setiap latensi dan titik harga.

Apa yang layak ditonton: GPT-5.2 High versus varian standarnya. Versi High duduk di #3 sementara GPT-5.2 standar ada di #13 — celah tiga puluh empat poin. Penyebaran itu menunjukkan bahwa tingkat High melakukan pemrosesan visual yang jauh lebih banyak, mungkin pass inferensi tambahan atau resolusi internal yang lebih besar. Untuk aplikasi yang sensitif terhadap biaya, memahami di mana plafon kualitas itu penting versus di mana tingkat standar "cukup baik" akan menjadi keputusan arsitektur utama kuartal ini.

Kedatangan Sunyi Moonshot

Jika ada satu hal yang saya pelajari dari pelacakan tolok ukur AI, itu adalah bahwa pesaing paling berbahaya mengumumkan diri mereka secara diam-diam. Moonshot memiliki nol model di papan peringkat ini bulan lalu. Hari ini mereka memiliki dua di 10 besar.

⚡

Kimi K2.5 Thinking di #6 mengungguli Gemini 2.5 Pro, ChatGPT-4o Latest, dan setiap model Anthropic di papan peringkat ini. Varian Instant di #10 menukar beberapa akurasi dengan kecepatan tetapi masih mengalahkan sebagian besar bidang. Ini bukan kemajuan bertahap — ini adalah startup yang melompati pemain mapan.

Saya menjalankan Kimi K2.5 Thinking melalui baterai uji standar saya. Pada ekstraksi teks China dan Jepang — menu restoran, peta transit, catatan tulisan tangan — itu menyamai atau melebihi Qwen3-VL, yang sebelumnya saya anggap sebagai standar emas untuk tugas visi CJK. Pada analisis dokumen berbahasa Inggris, ia bertahan melawan GPT-5.1. Di mana ia sangat mengejutkan saya adalah rantai pemikiran visual: berikan infografis yang berantakan dan minta untuk mengidentifikasi tiga pilihan desain yang paling menyesatkan, dan ia menghasilkan analisis terstruktur yang layak dikutip.

Implikasi strategisnya signifikan. Moonshot berbasis di Beijing dan mengumpulkan lebih dari $1 miliar dana tahun lalu. Asisten Kimi mereka sudah memiliki basis pengguna yang sangat besar di China. Jika mereka terus mengulang dengan kecepatan ini, 5 besar vision arena bisa segera mencakup tiga organisasi berbeda — memecahkan duopoli Google-OpenAI di puncak. Untuk pengembang yang membangun aplikasi global, terutama yang melayani pasar Asia, Kimi K2.5 layak mendapatkan evaluasi serius.

Mata Cermat Anthropic

Anthropic tidak mencoba menang dalam kecepatan atau akurasi mentah. Mereka memainkan permainan yang berbeda, dan hasilnya diam-diam mengesankan. Claude Opus 4 Thinking di #21 dan Claude Sonnet 4 Thinking di #22 memimpin sembilan model Anthropic di 60 besar.

Inilah yang membedakan Claude dalam tugas visi: ia tidak terburu-buru menjawab. Tunjukkan sebagian besar model foto dan mereka akan mengidentifikasi objek, membaca teks, mendeskripsikan pemandangan. Tunjukkan Claude foto yang sama dan ia pertama-tama mempertimbangkan apa yang coba dikomunikasikan oleh gambar itu. Saya menguji ini dengan serangkaian kartun politik dari berbagai dekade. Gemini secara akurat menggambarkan elemen visual. GPT-5.2 memberikan konteks budaya. Claude menganalisis teknik retorika, mengidentifikasi audiens yang dituju, dan menjelaskan mengapa kartun itu akan mendarat secara berbeda pada tahun 2026 daripada saat digambar. Untuk tugas apa pun yang memerlukan penafsiran maksud di balik konten visual — tinjauan dokumen hukum, analisis keamanan, kritik desain — pendekatan cermat Claude adalah keuntungan sejati.

Pemisahan berpikir-versus-tidak-berpikir konsisten di seluruh keluarga Claude. Claude 3.7 Sonnet Thinking di #25 versus varian non-berpikir di #36 menunjukkan kesenjangan kualitas yang andal. Jika Anda menggunakan Claude untuk visi, selalu aktifkan mode berpikir — perbedaan kualitas membenarkan latensi tambahan di hampir setiap kasus penggunaan yang saya uji. Varian non-berpikir lebih cocok untuk pelabelan sederhana atau klasifikasi di mana kecepatan lebih penting daripada kedalaman.

Perlombaan Vision Global

Hari-hari ketika AI vision berarti "Google atau OpenAI" sudah berakhir. Papan peringkat ini sekarang mewakili tiga belas organisasi berbeda di empat benua, dan kompetisi papan tengah adalah tempat perkembangan paling menarik terjadi.

Qwen3-VL Alibaba di #19 tetap menjadi model visi terbaik untuk ekstraksi dokumen multibahasa. Saya baru-baru ini menggunakannya untuk memproses kumpulan kontrak yang dipindai dalam empat bahasa — Inggris, Mandarin, Jepang, dan Arab — dan ia menangani dokumen skrip campuran dengan akurasi hampir sempurna, termasuk mengidentifikasi dengan benar bagian mana yang merupakan anotasi tulisan tangan versus teks cetak. Model bobot terbuka mereka Qwen2.5-VL-72B di #59 menyediakan opsi yang dapat di-host sendiri untuk organisasi yang tidak dapat mengirim gambar ke API eksternal.

ERNIE 5.0 dari Baidu bertahan stabil di #15. Hunyuan Vision 1.5 Thinking dari Tencent duduk di #29. GLM-4.6V dari Z.ai di #40. Lab AI China secara kolektif menempatkan dua belas model di papan peringkat ini di lima organisasi berbeda. Kepadatan kompetisi dalam satu ekosistem nasional itu mendorong inovasi lebih cepat daripada yang disadari sebagian besar pengamat Barat.

Di Eropa, Mistral menerjunkan empat model — varian Medium dan Small — memberikan satu-satunya opsi berdaulat UE bagi organisasi yang terikat oleh persyaratan residensi data. Grok 4 dari xAI di #32 telah mengumpulkan lebih dari 34.000 evaluasi, menjadikannya salah satu model yang paling teruji pertempuran di luar 20 besar. Model bobot terbuka Meta Llama 4 Maverick di #49 dan Scout di #57 memberi pengembang kemampuan untuk menjalankan AI vision sepenuhnya pada infrastruktur mereka sendiri. Dan tiga entri StepFun dari China menunjukkan bahwa bahkan lab yang lebih kecil dapat menghasilkan model visi yang kompetitif ketika berfokus pada taruhan arsitektur yang tepat.

Ke Mana Arah AI Visual

Saya telah meliput papan peringkat ini cukup lama untuk melihat pola sebelum menjadi konsensus. Inilah ke mana menurut saya AI visual akan menuju dalam enam bulan ke depan.

🔭

5 besar akan mencakup tiga atau lebih organisasi pada pertengahan 2026. Cengkeraman Google melonggar. OpenAI telah membuktikan bisa memecahkan podium. Moonshot mendaki dengan cepat. Jika Anthropic mengirimkan model vision-first — yang dirancang dari awal untuk penalaran visual daripada diadaptasi dari model bahasa — mereka bisa bergabung dengan grup ini. Era dominasi satu perusahaan dalam AI vision akan segera berakhir.

Visi rantai pemikiran akan menjadi mode inferensi default. Setiap model yang menawarkan varian "berpikir" mengungguli rekan non-berpikirnya — secara konsisten. Kimi K2.5 Thinking versus Instant. Claude Opus 4 Thinking versus standar. Gemini Flash Thinking versus non-berpikir. Polanya universal. Dalam setahun, saya memperkirakan "berpikir" akan menjadi mode inferensi standar, dengan "instan" sebagai opsi penurunan eksplisit untuk kasus sensitif latensi.

Pemahaman video akan membentuk kembali peringkat ini. Sebagian besar model di sini dievaluasi pada gambar statis. Tetapi tugas visual dunia nyata semakin melibatkan video — umpan keamanan, urutan pencitraan medis, kontrol kualitas manufaktur, navigasi otonom. Model yang dapat bernalar melintasi bingkai temporal, bukan hanya satu foto, akan menentukan generasi berikutnya dari papan peringkat ini. Google dan OpenAI keduanya memiliki penelitian ke arah ini, tetapi yang pertama mengirimkan pemahaman video tingkat produksi dalam skala besar akan mendapatkan keuntungan penggerak pertama yang sangat besar yang dapat bertahan selama bertahun-tahun.

Tingkat bobot terbuka akan menembus 20 besar. Saat ini, model bobot terbuka tertinggi adalah Gemma 3 27B di #42. Llama 4 Maverick duduk di #49. Model-model ini meningkat lebih cepat daripada rekan-rekan berpemilik mereka karena mereka mendapat manfaat dari fine-tuning komunitas, data pelatihan khusus, dan modifikasi arsitektur yang tidak dapat diterima oleh model API-only. Beri waktu dua kuartal lagi, dan saya memperkirakan setidaknya satu model bobot terbuka di 20 besar — yang secara fundamental akan mengubah ekonomi penyebaran AI vision dalam skala besar.

Model vertikal khusus akan menangkap sebagian besar nilai ekonomi. Papan peringkat saat ini mengevaluasi pemahaman visual tujuan umum. Tetapi pasar bergerak menuju spesialisasi — model pencitraan medis yang membaca sinar-X lebih baik daripada model umum mana pun, model citra satelit yang dioptimalkan untuk deteksi perubahan, AI dokumen yang dibuat khusus untuk faktur dan kontrak. Papan peringkat umum akan tetap menjadi berita utama, tetapi uang riil akan ada di spesialis vertikal yang dibangun di atas fondasi ini.

Rekomendasi Saya Berdasarkan Kasus Penggunaan

Setelah menguji keenam puluh model di seluruh alur kerja dunia nyata, inilah panduan saya yang disaring. Tidak ada satu model pun yang menang di mana-mana — pilihan yang tepat bergantung sepenuhnya pada apa yang Anda bangun.

Akurasi Maksimum

Gemini 3 Pro — masih yang terbaik dalam detail struktural, penalaran spasial, dan interpretasi diagram kompleks. Ketika akurasi tidak dapat ditawar, ini adalah modelnya.

Produksi Kritis Kecepatan

Gemini 3 Flash — kualitas hampir unggulan dengan latensi yang jauh lebih rendah. Rekomendasi default saya untuk aplikasi real-time.

Narasi & Aksesibilitas

GPT-5.2 High — tidak hanya membaca gambar, ini menjelaskan apa artinya. Terbaik untuk pembuatan teks alt, konten pendidikan, dan penceritaan dari visual.

Penalaran Visual Mendalam

Claude Opus 4 Thinking — lebih lambat dan lebih hati-hati, tetapi menangkap implikasi yang dilewatkan orang lain. Ideal untuk tugas analisis, tinjauan, dan interpretasi.

OCR Multibahasa & CJK

Kimi K2.5 Thinking — luar biasa pada teks CJK dan dokumen bahasa campuran. Juga kuat sebagai penalaran visual tujuan umum di tingkat #6.

Kedaulatan Data UE

Mistral Medium — satu-satunya opsi kompetitif untuk beban kerja ketat GDPR. Menyimpan gambar Anda dalam infrastruktur Eropa.

Hosting Mandiri & Privasi

Llama 4 Maverick — visi bobot terbuka yang berjalan di perangkat keras Anda sendiri. Tidak ada panggilan API, tidak ada data yang meninggalkan perimeter jaringan Anda.

Sadar Anggaran

GPT-5 Nano High — sangat mampu untuk tingkat biayanya. Cukup baik untuk klasifikasi, pelabelan, dan ekstraksi sederhana dengan sebagian kecil dari harga unggulan.

🔑

Strategi visi yang paling mampu pada tahun 2026 adalah orkestrasi multi-model. Rutekan penalaran kompleks ke Claude. Kirim dokumen terstruktur ke Gemini. Hasilkan deskripsi yang dapat diakses dengan GPT-5.2. Gunakan Kimi untuk konten multibahasa. Pemenangnya bukanlah mereka yang memilih model "terbaik" — mereka adalah orang-orang yang membangun lapisan perutean paling cerdas.

Sumber Data: Peringkat dari Arena Vision Leaderboard, 6 Februari 2026.

","line_range_start":1,"line_range_end":779}}

Tags: #vision-ai #multimodal #image-recognition #gemini #gpt-5 #claude #moonshot #leaderboard

Papan Peringkat AI Vision Arena 2026

Papan Peringkat Vision

Titik Balik Februari