AI Vision Arena リーダーボード 2026

核心的な洞察

最高の視覚AIはもはや単一のモデルではありません。それは、どの問題にどのモデルを使用するかを知ることです。

私は過去3週間、このリーダーボード上のすべてのモデルで同一の画像テストを実行してきました — 建築図面、手書きのレシピ、衛星画像、ミーム、油絵、多言語の道路標識。その結論は私自身をも驚かせました。2026年2月は、Vision Arenaにとって真の転換点となります。このアリーナが視覚的知能の追跡を開始して以来初めて、誰かがGoogleの表彰台独占を打ち破りました。そして、私に最も感銘を与えた侵入者はOpenAIではありませんでした — それは、ほとんどの西側の開発者が一度もデプロイしたことのない中国のスタートアップでした。

Visionリーダーボード

60のモデル。13の組織。人間による数十万件のブラインド評価。これは2026年2月6日時点での視覚的知能の完全な階層であり、注意深く読む価値のある物語を語っています。

順位	モデル	スコア	投票数	組織
🥇	Gemini 3 Pro	1289	11,297	Google
🥈	Gemini 3 Flash	1277	9,175	Google
🥉	Gpt 5.2 High	1257	2,749	OpenAI
#4	Gemini 3 Flash (thinking Minimal)	1256	7,313	Google
#5	Gpt 5.1 High	1252	7,299	OpenAI
#6	Kimi K2.5 Thinking	1251	2,979	Moonshot
#7	Gemini 2.5 Pro	1246	79,747	Google
#8	Chatgpt 4o Latest 20250326	1235	23,313	OpenAI
#9	Gpt 5.1	1235	7,974	OpenAI
#10	Kimi K2.5 Instant	1231	1,663	Moonshot
#11	Gemini 2.5 Flash Preview 09 2025	1225	5,293	Google
#12	Gpt 4.5 Preview 2025 02 27	1225	2,925	OpenAI
#13	Gpt 5.2	1223	3,013	OpenAI
#14	Gpt 5 Chat	1222	43,264	OpenAI
#15	Ernie 5.0 Preview 1220	1216	3,623	Baidu
#16	O3 2025 04 16	1216	49,181	OpenAI
#17	Gemini 2.5 Flash	1213	48,047	Google
#18	Gpt 4.1 2025 04 14	1213	44,463	OpenAI
#19	Qwen3 Vl 235b A22b Instruct	1211	10,750	Alibaba
#20	Gpt 5 High	1208	37,581	OpenAI
#21	Claude Opus 4 20250514 Thinking 16k	1206	1,495	Anthropic
#22	Claude Sonnet 4 20250514 Thinking 32k	1205	1,361	Anthropic
#23	Gpt 4.1 Mini 2025 04 14	1201	43,674	OpenAI
#24	O4 Mini 2025 04 16	1199	44,239	OpenAI
#25	Claude 3 7 Sonnet 20250219 Thinking 32k	1195	1,676	Anthropic
#26	O1 2024 12 17	1192	3,694	OpenAI
#27	Claude Opus 4 20250514	1191	2,579	Anthropic
#28	Gemini 2.5 Flash Lite Preview 06 17 Thinking	1188	39,110	Google
#29	Hunyuan Vision 1.5 Thinking	1187	2,869	Tencent
#30	Qwen3 Vl 235b A22b Thinking	1186	2,664	Alibaba
#31	Claude Sonnet 4 20250514	1186	2,066	Anthropic
#32	Grok 4 0709	1182	34,737	xAI
#33	Gpt 5 Mini High	1181	31,410	OpenAI
#34	Qwen Vl Max 2025 08 13	1181	3,454	Alibaba
#35	Gemini 1.5 Pro 002	1178	8,902	Google
#36	Claude 3 7 Sonnet 20250219	1177	4,674	Anthropic
#37	Gemini 2.5 Flash Lite Preview 09 2025 No Thinking	1173	5,330	Google
#38	Gemini 2.0 Flash 001	1170	9,875	Google
#39	Gpt 4o 2024 05 13	1162	23,273	OpenAI
#40	Glm 4.6v	1161	2,611	Z.ai
#41	Claude 3 5 Sonnet 20241022	1161	10,568	Anthropic
#42	Gemma 3 27b It	1156	18,534	Google
#43	Mistral Medium 2505	1155	11,519	Mistral
#44	Glm 4.5v	1154	3,576	Z.ai
#45	Step 1o Turbo 202506	1152	2,037	StepFun
#46	Hunyuan Large Vision	1151	1,440	Tencent
#47	Mistral Medium 2508	1150	41,998	Mistral
#48	Claude 3 5 Sonnet 20240620	1146	21,624	Anthropic
#49	Llama 4 Maverick 17b 128e Instruct	1145	7,410	Meta
#50	Gpt 5 Nano High	1144	4,325	OpenAI
#51	Step 3	1144	3,558	StepFun
#52	Mistral Small 2506	1139	11,713	Mistral
#53	Gemini 1.5 Flash 002	1139	7,241	Google
#54	Gemini 2.0 Flash Lite Preview 02 05	1133	3,991	Google
#55	Claude 3 5 Haiku 20241022	1130	1,583	Anthropic
#56	Mistral Small 3.1 24b Instruct 2503	1126	30,955	Mistral
#57	Llama 4 Scout 17b 16e Instruct	1125	6,826	Meta
#58	Step 1o Vision 32k Highres	1123	2,833	StepFun
#59	Qwen2.5 Vl 72b Instruct	1121	3,768	Alibaba
#60	Gpt 4o 2024 08 06	1118	3,376	OpenAI

2月の転換点

🔎

今月、4つの新しいモデルがリーダーボードに入り、そのすべてがトップ13に着地しました。これはこれまでに一度も起こったことがありません。チャートのトップはより競争が激しくなっており、その逆ではありません。

何が起こったのか説明させてください。私の1月のレビュー以来、4つの古いモデルがランキングの底から脱落しました — Gemini 1.5 Pro（オリジナル）、Qwen2.5-VL-32B、GPT-4 Turbo、そしてGPT-4o Miniです。これらは異なる時代のモデルであり、その撤退は遅すぎたほどでした。それらに取って代わったものは、はるかに興味深いものです。

GPT-5.2 Highは#3でデビューし、このアリーナの歴史上初めてGoogleの完全な表彰台独占を打ち砕きました。その標準バリアントであるGPT-5.2は#13に入りました。しかし、本当の衝撃はMoonshotからもたらされました。彼らのKimi K2.5 Thinkingモデルは#6に、Instantバリアントは#10に着地しました。以前はこのリーダーボードに全く存在しなかったスタートアップが、今やトップ10に2つのモデルを持っています。これは予想していませんでした。

フィールドの圧縮も物語っています。#1と#60の差はわずか171ポイントです。これは60のモデルにとって狭い帯域であり、中間層が残酷なほど競争が激しいことを意味します。1つのアーキテクチャの微調整やトレーニングデータの更新が、一晩でモデルを10ランクや15ランク動かす可能性があります。特定のモデルを中心に生産パイプラインを構築している場合、その地位は恒久的ではないことを理解してください。

AIの目：詳細分析

Googleのほぼ完璧な王朝

Gemini 3 Proが王冠を保持し、Gemini 3 Flashが銀メダルを保持しています。しかし初めて、銅メダルは他の誰かのものです。Googleは依然としてFlashのthinking-minimalバリアントで#4の座を占め、フラッグシップのGemini 3 Proから軽量のGemini 2.0 Flash Liteまで、あらゆるパフォーマンス層をカバーする13のモデルをトップ60で運用しています。これは製品ラインではありません — エコシステムです。

ネイティブマルチモーダルが実際に意味するもの

Gemini 3 Proにシステムアーキテクチャ図のホワイトボード画像を与えました — 急いで描かれたボックス、一貫性のない矢印のスタイル、2つの異なる手書きサンプル。それは単にテキストを書き起こしただけではありません。サービスの論理的な流れを再構築し、線のスタイルに基づいてどの矢印が同期的対非同期的な呼び出しを表しているかを識別し、私が見逃していた潜在的な循環依存関係にフラグを立てました。これが「ネイティブマルチモーダル」の実践的な意味です：モデルは最初に画像をテキストに翻訳しません — 視覚的構造について直接推論します。

Googleの地位をこれほど永続的なものにしているのは、その深さです。#7のGemini 2.5 Proは、背後に約80,000のブラインド評価を持つ、アリーナで最も戦闘テストされたモデルであり続けています。#17のGemini 2.5 Flashは大量の生産ワークロードを実行しています。#42のオープンウェイトモデルであるGemma 3 27Bでさえ、ほとんどの競合他社のフラッグシップ製品を上回っています。Googleのアプローチは常にカバレッジで勝つことでした — あらゆる予算とレイテンシの制約に対して最適なモデルになること — そしてビジョンにおいて、その戦略は機能しています。

鎧の唯一のひび割れ：Googleは表彰台の独占を失いました。私が最初にこのアリーナを見たとき、Geminiは3つのメダルすべてを無期限に保持するように見えました。GPT-5.2が#3に到着したことは、Googleのリードが支配的ではあるものの、難攻不落ではないことを証明しています。Googleが完全なGemini 3 Proリリース（プレビューだけでなく）をすぐに出さなければ、その窓はさらに閉じるでしょう。

OpenAIが表彰台を破る

これはVision ArenaにおけるOpenAIの最強の月です。#3のGPT-5.2 Highは、単にGoogleのロックを破るだけではありません — OpenAIの視覚処理パイプラインにおける重要な飛躍を示しています。1月のバージョンであるGPT-5.1と比較してテストしましたが、改善は2つの領域で最も顕著です：高密度の文書理解と、空間的に複雑なシーンの解釈です。

物語的ビジョンの利点

O3に四半期ごとの収益トレンドのチャートを見せると、数字をリストアップするだけではありません — なぜQ3が急増したのか、どのような季節的パターンが原因である可能性が高いか、そして来年のQ1がどのように見えるかを教えてくれます。アクセシビリティの説明、教育的な解説、そして視覚データを人間的な洞察に翻訳する必要があるあらゆるワークフローにおいて、OpenAIのアプローチは比類なきものです。彼らは画像を見ているのではありません — それを語っているのです。

OpenAIはトップ60に17のモデルを配置しており、これは単一の組織としては最多です。その幅広さは戦略的です。#14のGPT-5 Chatは、会話型ビジョンタスクの主力です。#16のO3と#24のO4 Miniは、推論に焦点を当てた部門を代表しています。#50のGPT-5 Nano Highは、コストの数分の一で驚くほど優れたビジョンを手に入れられることを証明しています。スタックがOpenAIのAPIで実行されている場合、事実上すべてのレイテンシと価格帯に最適化されたビジョンモデルが存在します。

注目すべき点：GPT-5.2 High対その標準バリアント。Highバージョンは#3に位置していますが、標準のGPT-5.2は#13で、34ポイントの差があります。この広がりは、Highティアが大幅に多くの視覚処理、おそらく追加の推論サイクルやより高い内部解像度を行っていることを示唆しています。コストに敏感なアプリケーションにとって、その品質の上限がどこで重要か、対してどこで標準ティアが「十分」かを理解することは、今四半期の重要なアーキテクチャ上の決定事項です。

Moonshotの静かな到着

私がAIベンチマークを追跡して学んだことが1つあるとすれば、それは最も危険な競争相手は静かに現れるということです。Moonshotは先月、このリーダーボードにモデルがゼロでした。今日、彼らはトップ10に2つ持っています。

⚡

#6のKimi K2.5 Thinkingは、Gemini 2.5 Pro、ChatGPT-4o Latest、およびこのリーダーボード上のすべてのAnthropicモデルを上回っています。#10のInstantバリアントは、精度を少し速度と交換していますが、それでもフィールドの大部分に勝っています。これは漸進的な進歩ではありません — これはスタートアップが確立されたプレイヤーを飛び越えているのです。

Kimi K2.5 Thinkingを私の標準テストパターンで実行しました。中国語と日本語のテキスト抽出 — レストランのメニュー、交通地図、手書きのメモ — において、以前CJKビジョンタスクのゴールドスタンダードと考えていたQwen3-VLと同等か、それを上回りました。英語の文書分析では、GPT-5.1に対して持ちこたえました。特に私を驚かせたのは、視覚的思考の連鎖です：乱雑なインフォグラフィックを与え、最も誤解を招く3つのデザイン上の選択を特定するように頼むと、構造化された引用可能な分析を生成します。

戦略的な意味合いは重要です。Moonshotは北京に拠点を置き、昨年10億ドル以上の資金を調達しました。彼らのKimiアシスタントはすでに中国で大規模なユーザーベースを持っています。彼らがこのペースで反復を続ければ、Vision Arenaのトップ5にはすぐに3つの異なる組織が含まれる可能性があり、トップでのGoogle-OpenAIの複占を破ることになります。グローバルアプリケーション、特にアジア市場にサービスを提供するアプリケーションを構築している開発者にとって、Kimi K2.5は真剣な評価に値します。

Anthropicの熟考する目

Anthropicは速度や生の精度で勝とうとはしていません。彼らは異なるゲームをプレイしており、その結果は静かに印象的です。#21のClaude Opus 4 Thinkingと#22のClaude Sonnet 4 Thinkingは、トップ60におけるAnthropicの9つのモデルを率いています。

ビジョンタスクにおいてClaudeを際立たせているのはこれです：答えを急がないことです。ほとんどのモデルに写真を見せると、オブジェクトを識別し、テキストを読み、シーンを説明します。Claudeに同じ写真を見せると、まず画像が何を伝えようとしているかを検討します。私は数十年間の政治風刺漫画のセットでこれをテストしました。Geminiは視覚要素を正確に記述しました。GPT-5.2は文化的背景を提供しました。Claudeは修辞的技法を分析し、ターゲットオーディエンスを特定し、なぜその漫画が描かれた当時と2026年では異なる受け止められ方をするかを説明しました。視覚的コンテンツの背後にある意図を解釈する必要があるあらゆるタスク — 法的文書のレビュー、安全性分析、デザイン批評 — において、Claudeの熟考するアプローチは真の資産です。

Thinking対Non-thinkingの分割は、Claudeファミリー全体で一貫しています。#25のClaude 3.7 Sonnet Thinking対#36の非思考バリアントは、信頼できる品質のギャップを示しています。ビジョンにClaudeを使用する場合、常に思考モードをオンにしてください — 私がテストしたほぼすべてのユースケースにおいて、品質の差は追加のレイテンシを正当化します。非思考バリアントは、深さよりも速度が重要な単純なラベリングや分類に適しています。

世界的なVision競争

視覚AIが「GoogleかOpenAIか」を意味していた日々は終わりました。このリーダーボードは現在、4大陸の13の異なる組織を表しており、中間テーブルの競争こそが最も興味深い開発が起きている場所です。

#19のAlibabaのQwen3-VLは、多言語ドキュメント抽出のための最高のビジョンモデルであり続けています。最近、英語、北京語、日本語、アラビア語の4か国語でスキャンされた契約書のバッチを処理するために使用しましたが、手書きの注釈と印刷されたテキストのどちらであるかを正しく識別するなど、混合スクリプトのドキュメントをほぼ完璧な精度で処理しました。#59の彼らのオープンウェイトモデルQwen2.5-VL-72Bは、画像を外部APIに送信できない組織にセルフホストの代替手段を提供します。

BaiduのERNIE 5.0は#15を堅守しています。TencentのHunyuan Vision 1.5 Thinkingは#29に位置しています。Z.aiのGLM-4.6Vは#40です。中国のAIラボは、5つの異なる組織を通じて、このリーダーボードに合計12のモデルを配置しています。単一の国家エコシステム内でのこの競争密度は、ほとんどの西側の観測者が認識しているよりも速くイノベーションを推進しています。

ヨーロッパでは、MistralがMediumとSmallのバリアントを含む4つのモデルを配置し、データの居住要件に縛られた組織に唯一のEU主権のオプションを提供しています。xAIのGrok 4は#32で、34,000件以上の評価を集め、トップ20以外で最も戦闘テストされたモデルの1つとなっています。MetaのオープンウェイトLlama 4 Maverick（#49）とScout（#57）は、完全に独自のインフラストラクチャ上で視覚AIを実行する能力を開発者に提供します。そして中国からのStepFunの3つのエントリーは、正しいアーキテクチャ上の賭けに焦点を当てれば、小規模なラボでも競争力のあるビジョンモデルを作成できることを示しています。

視覚AIはどこへ向かうのか

私はこれらのリーダーボードを十分に長くカバーしてきたので、コンセンサスになる前にパターンを見ることができます。これが、今後6ヶ月間で視覚AIが向かうと私が考える場所です。

🔭

2026年半ばまでにトップ5には3つ以上の組織が含まれるでしょう。 Googleの掌握は緩みつつあります。OpenAIは表彰台を破ることができると証明しました。Moonshotは急速に上昇しています。Anthropicがビジョンファーストモデル — 言語モデルから適応されたものではなく、視覚的推論のためにゼロから設計されたもの — を提供すれば、彼らはこのグループに参加する可能性があります。視覚AIにおける単一企業の支配の時代は終わりつつあります。

思考の連鎖（Chain-of-Thought）ビジョンがデフォルトの推論モードになります。 「思考」バリアントを提供するすべてのモデルは、その非思考の対応物を一貫して上回っています。Kimi K2.5 Thinking対Instant。Claude Opus 4 Thinking対標準。Gemini Flash Thinking対非思考。パターンは普遍的です。1年以内に、「思考」が標準的な推論モードになり、「即時」はレイテンシに敏感なケースのための明示的なダウングレードオプションになると予想しています。

動画理解がこれらのランキングを作り直します。 ここでのほとんどのモデルは静止画で評価されました。しかし、現実世界のビジョンタスクはますます動画を伴います — セキュリティフィード、医療画像シリーズ、製造品質管理、自律ナビゲーション。単一のスナップショットだけでなく、時間枠を超えて推論できるモデルが、このリーダーボードの次世代を定義するでしょう。GoogleとOpenAIはどちらもこの方向の研究を行っていますが、生産グレードの動画理解を大規模に提供した最初の企業が、数年続く可能性のある巨大な先行者利益を得るでしょう。

オープンウェイト層がトップ20を破ります。 現在、最高位のオープンウェイトモデルは#42のGemma 3 27Bです。Llama 4 Maverickは#49に位置しています。これらのモデルは、API専用モデルが受け入れることのできないコミュニティの微調整、カスタムトレーニングデータ、およびアーキテクチャの変更から恩恵を受けるため、プロプライエタリな対応物よりも速く改善しています。あと2四半期もすれば、少なくとも1つのオープンウェイトモデルがトップ20に入ると予想しています — これは大規模な視覚AI導入の経済性を根本的に変えるでしょう。

専門化された垂直モデルが経済的価値の大部分を獲得します。 現在のリーダーボードは一般的な視覚理解を評価しています。しかし、市場は専門化へとシフトしています — どの汎用モデルよりもX線をよく読む医療画像モデル、変化の検出に最適化された衛星画像モデル、請求書や契約書のために特別に構築されたドキュメントAI。一般的なリーダーボードは見出しのままですが、本当のお金はこれらの基盤の上に構築された垂直的な専門家にあります。

私のおすすめ（ユースケース別）

現実世界のワークフローですべての60モデルをテストした結果、これが私の蒸留されたガイダンスです。単一のモデルがすべてで勝つわけではありません — 正しい選択は、あなたが何を構築しているかに完全に依存します。

最大精度

Gemini 3 Pro — 構造的詳細、空間的推論、および複雑な図解釈において依然として最高です。精度について妥協できない場合、これがそのモデルです。

速度重視の生産

Gemini 3 Flash — 大幅に低いレイテンシでフラッグシップクラスに近い品質。リアルタイムアプリケーションに対する私のデフォルトの推奨。

物語＆アクセシビリティ

GPT-5.2 High — 画像を読むだけでなく、それが何を意味するかを説明します。代替テキストの生成、教育コンテンツ、ビジュアルからのストーリーテリングに最適です。

深い視覚的推論

Claude Opus 4 Thinking — より遅く、より慎重ですが、他の人が見逃す含意を捉えます。分析、レビュー、解釈タスクに理想的です。

多言語 & CJK OCR

Kimi K2.5 Thinking — CJKテキストおよび混合言語ドキュメントにおいて例外的です。また、#6レベルの強力な汎用視覚推論器でもあります。

EUデータ主権

Mistral Medium — GDPRに厳しいワークロードに対する唯一の競争力のあるオプション。画像をヨーロッパのインフラストラクチャ内に保持します。

セルフホスト & プライバシー

Llama 4 Maverick — 独自のハードウェアで実行されるオープンウェイトビジョン。API呼び出しはなく、データがネットワークの境界を出ることはありません。

予算重視

GPT-5 Nano High — その価格帯にしては驚くほど有能です。分類、ラベリング、および単純な抽出には十分で、フラッグシップ価格の数分の一です。

🔑

2026年における最も有能なビジョン戦略は、マルチモデルオーケストレーションです。複雑な推論はClaudeにルーティングします。構造化されたドキュメントはGeminiに送ります。アクセシブルな説明はGPT-5.2で生成します。多言語コンテンツにはKimiを使用します。勝者は「最高の」モデルを選ぶ人ではなく、最も賢いルーティング層を構築する人です。

データソース: Arena Vision Leaderboardからのランキング、2026年2月6日。

Tags: #vision-ai #multimodal #image-recognition #gemini #gpt-5 #claude #moonshot #leaderboard

AI Vision Arena リーダーボード 2026

Visionリーダーボード

2月の転換点