Papan Pendahulu AI Vision Arena 2026

Wawasan Teras

AI visual terbaik bukan lagi satu model tunggal. Ia adalah mengetahui model mana yang digunakan untuk setiap masalah.

Saya menghabiskan tiga minggu terakhir menjalankan ujian imej yang sama pada setiap model dalam papan pendahulu ini — pelan seni bina, preskripsi tulisan tangan, imejan satelit, meme, lukisan minyak, papan tanda jalan berbilang bahasa. Kesimpulannya mengejutkan saya. Februari 2026 menandakan titik perubahan sebenar bagi Vision Arena. Buat pertama kalinya sejak arena ini mula menjejak kecerdasan visual, seseorang telah memecahkan kunci podium Google. Dan penceroboh yang paling mengagumkan saya bukanlah OpenAI — ia adalah permulaan China yang kebanyakan pemaju Barat tidak pernah gunakan.

Papan Pendahulu Vision

Enam puluh model. Tiga belas organisasi. Ratusan ribu penilaian manusia secara buta. Ini adalah hierarki lengkap kecerdasan visual setakat 6 Februari 2026 — dan ia menceritakan kisah yang patut dibaca dengan teliti.

Pangkat	Model	Skor	Undi	Organisasi
🥇	Gemini 3 Pro	1289	11,297	Google
🥈	Gemini 3 Flash	1277	9,175	Google
🥉	Gpt 5.2 High	1257	2,749	OpenAI
#4	Gemini 3 Flash (thinking Minimal)	1256	7,313	Google
#5	Gpt 5.1 High	1252	7,299	OpenAI
#6	Kimi K2.5 Thinking	1251	2,979	Moonshot
#7	Gemini 2.5 Pro	1246	79,747	Google
#8	Chatgpt 4o Latest 20250326	1235	23,313	OpenAI
#9	Gpt 5.1	1235	7,974	OpenAI
#10	Kimi K2.5 Instant	1231	1,663	Moonshot
#11	Gemini 2.5 Flash Preview 09 2025	1225	5,293	Google
#12	Gpt 4.5 Preview 2025 02 27	1225	2,925	OpenAI
#13	Gpt 5.2	1223	3,013	OpenAI
#14	Gpt 5 Chat	1222	43,264	OpenAI
#15	Ernie 5.0 Preview 1220	1216	3,623	Baidu
#16	O3 2025 04 16	1216	49,181	OpenAI
#17	Gemini 2.5 Flash	1213	48,047	Google
#18	Gpt 4.1 2025 04 14	1213	44,463	OpenAI
#19	Qwen3 Vl 235b A22b Instruct	1211	10,750	Alibaba
#20	Gpt 5 High	1208	37,581	OpenAI
#21	Claude Opus 4 20250514 Thinking 16k	1206	1,495	Anthropic
#22	Claude Sonnet 4 20250514 Thinking 32k	1205	1,361	Anthropic
#23	Gpt 4.1 Mini 2025 04 14	1201	43,674	OpenAI
#24	O4 Mini 2025 04 16	1199	44,239	OpenAI
#25	Claude 3 7 Sonnet 20250219 Thinking 32k	1195	1,676	Anthropic
#26	O1 2024 12 17	1192	3,694	OpenAI
#27	Claude Opus 4 20250514	1191	2,579	Anthropic
#28	Gemini 2.5 Flash Lite Preview 06 17 Thinking	1188	39,110	Google
#29	Hunyuan Vision 1.5 Thinking	1187	2,869	Tencent
#30	Qwen3 Vl 235b A22b Thinking	1186	2,664	Alibaba
#31	Claude Sonnet 4 20250514	1186	2,066	Anthropic
#32	Grok 4 0709	1182	34,737	xAI
#33	Gpt 5 Mini High	1181	31,410	OpenAI
#34	Qwen Vl Max 2025 08 13	1181	3,454	Alibaba
#35	Gemini 1.5 Pro 002	1178	8,902	Google
#36	Claude 3 7 Sonnet 20250219	1177	4,674	Anthropic
#37	Gemini 2.5 Flash Lite Preview 09 2025 No Thinking	1173	5,330	Google
#38	Gemini 2.0 Flash 001	1170	9,875	Google
#39	Gpt 4o 2024 05 13	1162	23,273	OpenAI
#40	Glm 4.6v	1161	2,611	Z.ai
#41	Claude 3 5 Sonnet 20241022	1161	10,568	Anthropic
#42	Gemma 3 27b It	1156	18,534	Google
#43	Mistral Medium 2505	1155	11,519	Mistral
#44	Glm 4.5v	1154	3,576	Z.ai
#45	Step 1o Turbo 202506	1152	2,037	StepFun
#46	Hunyuan Large Vision	1151	1,440	Tencent
#47	Mistral Medium 2508	1150	41,998	Mistral
#48	Claude 3 5 Sonnet 20240620	1146	21,624	Anthropic
#49	Llama 4 Maverick 17b 128e Instruct	1145	7,410	Meta
#50	Gpt 5 Nano High	1144	4,325	OpenAI
#51	Step 3	1144	3,558	StepFun
#52	Mistral Small 2506	1139	11,713	Mistral
#53	Gemini 1.5 Flash 002	1139	7,241	Google
#54	Gemini 2.0 Flash Lite Preview 02 05	1133	3,991	Google
#55	Claude 3 5 Haiku 20241022	1130	1,583	Anthropic
#56	Mistral Small 3.1 24b Instruct 2503	1126	30,955	Mistral
#57	Llama 4 Scout 17b 16e Instruct	1125	6,826	Meta
#58	Step 1o Vision 32k Highres	1123	2,833	StepFun
#59	Qwen2.5 Vl 72b Instruct	1121	3,768	Alibaba
#60	Gpt 4o 2024 08 06	1118	3,376	OpenAI

Titik Perubahan Februari

🔎

Empat model baharu memasuki papan pendahulu bulan ini — dan keempat-empatnya mendarat dalam 13 teratas. Ini tidak pernah berlaku sebelum ini. Bahagian atas jadual semakin kompetitif, bukan sebaliknya.

Izinkan saya jelaskan apa yang berlaku. Sejak ulasan Januari saya, empat model lama telah keluar dari bahagian bawah ranking — Gemini 1.5 Pro (asal), Qwen2.5-VL-32B, GPT-4 Turbo, dan GPT-4o Mini. Ini adalah model dari era yang berbeza, dan pemergian mereka sudah lewat. Apa yang menggantikannya jauh lebih menarik.

GPT-5.2 High memulakan debutnya di #3, menghancurkan sapuan podium lengkap Google buat kali pertama dalam sejarah arena ini. Varian standardnya, GPT-5.2, masuk di #13. Tetapi kejutan sebenar datang dari Moonshot. Model Kimi K2.5 Thinking mereka mendarat di #6, dan varian Instant di #10. Sebuah permulaan tanpa kehadiran sebelumnya dalam papan pendahulu ini kini mempunyai dua model dalam 10 teratas. Saya tidak menjangkakannya.

Pemampatan bidang juga memberitahu. Jurang antara #1 dan #60 hanya 171 mata. Itu adalah jalur sempit untuk enam puluh model, dan ia bermakna bahagian tengah jadual sangat kompetitif secara kejam. Satu peningkatan seni bina atau peningkatan data latihan boleh mengalihkan model sepuluh atau lima belas kedudukan dalam sekelip mata. Jika anda membina saluran paip pengeluaran di sekitar model tertentu, fahami bahawa kedudukannya tidak kekal.

Mata AI: Analisis Mendalam

Dinasti Google yang Hampir Sempurna

Gemini 3 Pro memegang mahkota, dan Gemini 3 Flash memegang perak. Tetapi buat kali pertama, gangsa milik orang lain. Google masih menduduki slot #4 dengan varian thinking-minimal Flash dan menjalankan tiga belas model di seluruh 60 teratas, merangkumi setiap peringkat prestasi dari kemegahan Gemini 3 Pro hingga Gemini 2.0 Flash Lite yang ringan. Itu bukan barisan produk — ia adalah ekosistem.

Apa Maksud Multimodal Asli Sebenarnya

Saya memberi Gemini 3 Pro gambar papan putih rajah seni bina sistem — kotak yang dilukis dengan tergesa-gesa, gaya anak panah yang tidak konsisten, dua sampel tulisan tangan yang berbeza. Ia bukan sahaja menyalin teks. Ia membina semula aliran logik antara perkhidmatan, mengenal pasti anak panah mana yang mewakili panggilan segerak berbanding tak segerak berdasarkan gaya garis, dan menandakan potensi kebergantungan pekeliling yang saya terlepas. Inilah maksud "multimodal asli" dalam amalan: model tidak menterjemah imej ke teks terlebih dahulu — ia menaakul tentang struktur visual secara langsung.

Apa yang menjadikan kedudukan Google begitu tahan lama adalah kedalaman. Gemini 2.5 Pro di #7 kekal sebagai model yang paling teruji dalam arena dengan hampir 80,000 penilaian buta di belakangnya. Gemini 2.5 Flash di #17 memacu beban kerja pengeluaran daya pemprosesan tinggi. Malah Gemma 3 27B, model berat terbuka di #42, mengatasi kebanyakan tawaran utama pesaing. Pendekatan Google sentiasa untuk menang melalui liputan — mempunyai model terbaik untuk setiap bajet dan kekangan latensi — dan dalam visi, strategi itu berkesan.

Satu-satunya retakan dalam perisai: Google kehilangan sapuan podium. Apabila saya mula membuat liputan arena ini, rasanya Gemini akan memegang ketiga-tiga pingat selama-lamanya. Ketibaan GPT-5.2 di #3 membuktikan bahawa pendahuluan Google, walaupun memerintah, tidak dapat disangkal. Jika Google tidak menghantar keluaran Gemini 3 Pro penuh (bukan hanya pratonton) tidak lama lagi, tetingkap itu akan tertutup lebih jauh.

OpenAI Memecahkan Podium

Ini adalah bulan terkuat OpenAI dalam Vision Arena. GPT-5.2 High di #3 bukan sahaja memecahkan kunci Google — ia menandakan lonjakan bermakna dalam saluran paip pemprosesan visual OpenAI. Saya mengujinya berbanding versi Januari GPT-5.1, dan penambahbaikan paling ketara dalam dua bidang: pemahaman dokumen padat dan tafsiran adegan yang kompleks secara spatial.

Kelebihan Visi Naratif

Tunjukkan kepada O3 carta trend hasil suku tahunan, dan ia tidak menghafal nombor — ia memberitahu anda mengapa S3 melonjak, corak bermusim apa yang mungkin bertanggungjawab, dan bagaimana rupa S1 tahun depan. Untuk penerangan kebolehcapaian, penjelas pendidikan, dan sebarang aliran kerja yang memerlukan penterjemahan data visual ke dalam wawasan manusia, pendekatan OpenAI kekal tiada tandingan. Mereka tidak melihat imej — mereka menceritakannya.

OpenAI meletakkan tujuh belas model dalam 60 teratas — yang paling banyak daripada mana-mana organisasi. Keluasannya adalah strategik. GPT-5 Chat di #14 adalah kuda kerja untuk tugas visi perbualan. O3 di #16 dan O4 Mini di #24 mewakili cabang yang berfokus pada penaakulan. GPT-5 Nano High di #50 membuktikan anda boleh mendapatkan visi yang sangat baik dengan sebahagian kecil daripada kos. Jika timbunan anda berjalan pada API OpenAI, kini terdapat model visi yang dioptimumkan untuk hampir setiap titik latensi dan harga.

Apa yang patut diperhatikan: GPT-5.2 High berbanding varian standardnya. Versi High duduk di #3 manakala GPT-5.2 standard berada di #13 — jurang tiga puluh empat mata. Penyebaran itu menunjukkan bahawa tahap High melakukan pemprosesan visual yang jauh lebih banyak, mungkin pas inferens tambahan atau resolusi dalaman yang lebih besar. Bagi aplikasi yang sensitif terhadap kos, memahami di mana siling kualiti itu penting berbanding di mana tahap standard "cukup baik" akan menjadi keputusan seni bina utama suku ini.

Ketibaan Sunyi Moonshot

Jika ada satu perkara yang saya pelajari daripada menjejak penanda aras AI, ia adalah bahawa pesaing paling berbahaya mengumumkan diri mereka secara senyap. Moonshot mempunyai sifar model dalam papan pendahulu ini bulan lepas. Hari ini mereka mempunyai dua dalam 10 teratas.

⚡

Kimi K2.5 Thinking di #6 mengatasi Gemini 2.5 Pro, ChatGPT-4o Latest, dan setiap model Anthropic dalam papan pendahulu ini. Varian Instant di #10 menukar sedikit ketepatan untuk kelajuan tetapi masih mengalahkan sebahagian besar bidang. Ini bukan kemajuan beransur-ansur — ini adalah permulaan yang melompat pemain mapan.

Saya menjalankan Kimi K2.5 Thinking melalui bateri ujian standard saya. Pada pengekstrakan teks Cina dan Jepun — menu restoran, peta transit, nota tulisan tangan — ia menyamai atau melebihi Qwen3-VL, yang sebelum ini saya anggap sebagai standard emas untuk tugas visi CJK. Pada analisis dokumen bahasa Inggeris, ia bertahan menentang GPT-5.1. Di mana ia sangat mengejutkan saya adalah rantai pemikiran visual: berikan infografik yang berselerak dan minta untuk mengenal pasti tiga pilihan reka bentuk yang paling mengelirukan, dan ia menghasilkan analisis berstruktur yang layak dipetik.

Implikasi strategiknya ketara. Moonshot berpangkalan di Beijing dan mengumpul lebih daripada $1 bilion dalam pembiayaan tahun lepas. Pembantu Kimi mereka sudah mempunyai pangkalan pengguna yang besar di China. Jika mereka terus mengulangi pada kadar ini, 5 teratas arena visi tidak lama lagi boleh merangkumi tiga organisasi berbeza — memecahkan duopoli Google-OpenAI di bahagian atas. Bagi pemaju yang membina aplikasi global, terutamanya yang melayani pasaran Asia, Kimi K2.5 patut dinilai dengan serius.

Mata Teliti Anthropic

Anthropic tidak cuba menang pada kelajuan atau ketepatan mentah. Mereka bermain permainan yang berbeza, dan hasilnya secara senyap mengagumkan. Claude Opus 4 Thinking di #21 dan Claude Sonnet 4 Thinking di #22 mengetuai sembilan model Anthropic dalam 60 teratas.

Inilah yang membezakan Claude dalam tugas visi: ia tidak terburu-buru menjawab. Tunjukkan kepada kebanyakan model gambar dan mereka akan mengenal pasti objek, membaca teks, menerangkan pemandangan. Tunjukkan kepada Claude foto yang sama dan ia terlebih dahulu mempertimbangkan apa yang cuba disampaikan oleh imej itu. Saya menguji ini dengan satu set kartun politik dari dekad yang berbeza. Gemini menggambarkan elemen visual dengan tepat. GPT-5.2 memberikan konteks budaya. Claude menganalisis teknik retorik, mengenal pasti penonton yang dituju, dan menjelaskan mengapa kartun itu akan mendarat secara berbeza pada tahun 2026 berbanding ketika ia dilukis. Bagi sebarang tugas yang memerlukan tafsiran niat di sebalik kandungan visual — semakan dokumen undang-undang, analisis keselamatan, kritikan reka bentuk — pendekatan teliti Claude adalah kelebihan tulen.

Pemisahan berfikir-berbanding-tidak-berfikir adalah konsisten merentasi keluarga Claude. Claude 3.7 Sonnet Thinking di #25 berbanding varian tidak berfikir di #36 menunjukkan jurang kualiti yang boleh dipercayai. Jika anda menggunakan Claude untuk visi, sentiasa dayakan mod berfikir — perbezaan kualiti mewajarkan latensi tambahan dalam hampir setiap kes penggunaan yang saya uji. Varian tidak berfikir lebih sesuai untuk pelabelan mudah atau klasifikasi di mana kelajuan lebih penting daripada kedalaman.

Perlumbaan Vision Global

Hari-hari apabila AI visi bermakna "Google atau OpenAI" sudah berakhir. Papan pendahulu ini kini mewakili tiga belas organisasi berbeza di empat benua, dan persaingan pertengahan jadual adalah di mana perkembangan paling menarik berlaku.

Qwen3-VL Alibaba di #19 kekal sebagai model visi terbaik untuk pengekstrakan dokumen berbilang bahasa. Saya baru-baru ini menggunakannya untuk memproses kumpulan kontrak yang diimbas dalam empat bahasa — Inggeris, Mandarin, Jepun, dan Arab — dan ia mengendalikan dokumen skrip bercampur dengan ketepatan hampir sempurna, termasuk mengenal pasti dengan betul bahagian mana yang merupakan anotasi tulisan tangan berbanding teks bercetak. Model berat terbuka mereka Qwen2.5-VL-72B di #59 menyediakan pilihan boleh dihoskan sendiri untuk organisasi yang tidak boleh menghantar imej ke API luaran.

ERNIE 5.0 dari Baidu bertahan stabil di #15. Hunyuan Vision 1.5 Thinking dari Tencent duduk di #29. GLM-4.6V dari Z.ai di #40. Makmal AI China secara kolektif meletakkan dua belas model dalam papan pendahulu ini merentasi lima organisasi berbeza. Kepadatan persaingan dalam satu ekosistem nasional itu memacu inovasi lebih cepat daripada yang disedari oleh kebanyakan pemerhati Barat.

Di Eropah, Mistral meletakkan empat model — varian Medium dan Small — menyediakan satu-satunya pilihan berdaulat EU untuk organisasi yang terikat dengan keperluan residensi data. Grok 4 dari xAI di #32 telah mengumpul lebih daripada 34,000 penilaian, menjadikannya salah satu model yang paling teruji pertempuran di luar 20 teratas. Berat terbuka Meta Llama 4 Maverick di #49 dan Scout di #57 memberi pemaju keupayaan untuk menjalankan AI visi sepenuhnya pada infrastruktur mereka sendiri. Dan tiga penyertaan StepFun dari China menunjukkan bahawa walaupun makmal yang lebih kecil boleh menghasilkan model visi yang kompetitif apabila memberi tumpuan kepada pertaruhan seni bina yang betul.

Ke Mana Arah AI Visual

Saya telah membuat liputan papan pendahulu ini cukup lama untuk melihat corak sebelum ia menjadi konsensus. Inilah ke mana saya fikir AI visual akan menuju dalam enam bulan akan datang.

🔭

5 teratas akan merangkumi tiga atau lebih organisasi menjelang pertengahan 2026. Cengkaman Google semakin longgar. OpenAI telah membuktikan ia boleh memecahkan podium. Moonshot mendaki dengan pantas. Jika Anthropic menghantar model vision-first — yang direka dari bawah untuk penaakulan visual dan bukannya disesuaikan daripada model bahasa — mereka boleh menyertai kumpulan ini. Era dominasi satu syarikat dalam AI visi akan berakhir.

Visi rantaian pemikiran akan menjadi mod inferens lalai. Setiap model yang menawarkan varian "berfikir" mengatasi rakan sejawatnya yang tidak berfikir — secara konsisten. Kimi K2.5 Thinking berbanding Instant. Claude Opus 4 Thinking berbanding standard. Gemini Flash Thinking berbanding tidak berfikir. Coraknya adalah sejagat. Dalam setahun, saya menjangkakan "berfikir" akan menjadi mod inferens standard, dengan "segera" sebagai pilihan penurunan eksplisit untuk kes sensitif latensi.

Pemahaman video akan membentuk semula kedudukan ini. Kebanyakan model di sini dinilai pada imej statik. Tetapi tugas visual dunia nyata semakin melibatkan video — suapan keselamatan, urutan pengimejan perubatan, kawalan kualiti pembuatan, navigasi autonomi. Model yang boleh menaakul merentasi bingkai temporal, bukan hanya petikan tunggal, akan menentukan generasi seterusnya papan pendahulu ini. Google dan OpenAI kedua-duanya mempunyai penyelidikan ke arah ini, tetapi yang pertama menghantar pemahaman video gred pengeluaran pada skala akan mendapat kelebihan penggerak pertama yang besar yang boleh berterusan selama bertahun-tahun.

Tahap berat terbuka akan menembusi 20 teratas. Pada masa ini, model berat terbuka tertinggi ialah Gemma 3 27B di #42. Llama 4 Maverick duduk di #49. Model-model ini bertambah baik lebih cepat daripada rakan sejawatan proprietari mereka kerana mereka mendapat manfaat daripada penalaan halus komuniti, data latihan tersuai, dan pengubahsuaian seni bina yang model API-only tidak boleh terima. Beri dua suku lagi, dan saya menjangkakan sekurang-kurangnya satu model berat terbuka dalam 20 teratas — yang akan mengubah ekonomi penggunaan AI visi pada skala secara asas.

Model menegak khusus akan menangkap sebahagian besar nilai ekonomi. Papan pendahulu semasa menilai pemahaman visual tujuan umum. Tetapi pasaran bergerak ke arah pengkhususan — model pengimejan perubatan yang membaca sinar-X lebih baik daripada mana-mana model umum, model imejan satelit yang dioptimumkan untuk pengesanan perubahan, AI dokumen yang dibina khusus untuk invois dan kontrak. Papan pendahulu umum akan kekal sebagai tajuk utama, tetapi wang sebenar akan berada dalam pakar menegak yang dibina di atas asas ini.

Cadangan Saya Mengikut Kes Penggunaan

Selepas menguji kesemua enam puluh model merentasi aliran kerja dunia nyata, inilah panduan saya yang disaring. Tiada model tunggal yang menang di mana-mana — pilihan yang tepat bergantung sepenuhnya pada apa yang anda bina.

Ketepatan Maksimum

Gemini 3 Pro — masih yang terbaik pada perincian struktur, penaakulan ruang, dan tafsiran rajah kompleks. Apabila ketepatan tidak boleh dirunding, ini adalah modelnya.

Pengeluaran Kritikal Kelajuan

Gemini 3 Flash — kualiti hampir kemegahan pada latensi yang jauh lebih rendah. Cadangan lalai saya untuk aplikasi masa nyata.

Naratif & Kebolehcapaian

GPT-5.2 High — bukan sahaja membaca imej, ia menerangkan maksudnya. Terbaik untuk penjanaan teks alt, kandungan pendidikan, dan penceritaan daripada visual.

Penaakulan Visual Mendalam

Claude Opus 4 Thinking — lebih perlahan dan lebih teliti, tetapi menangkap implikasi yang orang lain terlepas. Ideal untuk tugas analisis, semakan, dan tafsiran.

OCR Berbilang Bahasa & CJK

Kimi K2.5 Thinking — luar biasa pada teks CJK dan dokumen bahasa campuran. Juga kuat sebagai pemikir visual tujuan umum di peringkat #6.

Kedaulatan Data EU

Mistral Medium — satu-satunya pilihan kompetitif untuk beban kerja ketat GDPR. Menyimpan imej anda dalam infrastruktur Eropah.

Pengehosan Sendiri & Privasi

Llama 4 Maverick — visi berat terbuka yang berjalan pada perkakasan anda sendiri. Tiada panggilan API, tiada data meninggalkan perimeter rangkaian anda.

Sedar Bajet

GPT-5 Nano High — sangat berkebolehan untuk peringkat kosnya. Cukup baik untuk klasifikasi, pelabelan, dan pengekstrakan mudah pada sebahagian kecil daripada harga kemegahan.

🔑

Strategi visi yang paling berkeupayaan pada tahun 2026 adalah orkestrasi berbilang model. Halakan penaakulan kompleks kepada Claude. Hantar dokumen berstruktur kepada Gemini. Hasilkan penerangan boleh akses dengan GPT-5.2. Gunakan Kimi untuk kandungan berbilang bahasa. Pemenang bukanlah mereka yang memilih model "terbaik" — mereka adalah mereka yang membina lapisan penghalaan paling pintar.

Sumber Data: Kedudukan daripada Arena Vision Leaderboard, 6 Februari 2026.

","line_range_start":1,"line_range_end":779}}

Tags: #vision-ai #multimodal #image-recognition #gemini #gpt-5 #claude #moonshot #leaderboard

Papan Pendahulu AI Vision Arena 2026

Papan Pendahulu Vision

Titik Perubahan Februari