最高の視覚AIはもはや単一のモデルではありません。それは、どの問題にどのモデルを使用するかを知ることです。
私は過去3週間、このリーダーボード上のすべてのモデルで同一の画像テストを実行してきました — 建築図面、手書きのレシピ、衛星画像、ミーム、油絵、多言語の道路標識。その結論は私自身をも驚かせました。2026年2月は、Vision Arenaにとって真の転換点となります。このアリーナが視覚的知能の追跡を開始して以来初めて、誰かがGoogleの表彰台独占を打ち破りました。そして、私に最も感銘を与えた侵入者はOpenAIではありませんでした — それは、ほとんどの西側の開発者が一度もデプロイしたことのない中国のスタートアップでした。
Visionリーダーボード
60のモデル。13の組織。人間による数十万件のブラインド評価。これは2026年2月6日時点での視覚的知能の完全な階層であり、注意深く読む価値のある物語を語っています。
2月の転換点
今月、4つの新しいモデルがリーダーボードに入り、そのすべてがトップ13に着地しました。これはこれまでに一度も起こったことがありません。チャートのトップはより競争が激しくなっており、その逆ではありません。
何が起こったのか説明させてください。私の1月のレビュー以来、4つの古いモデルがランキングの底から脱落しました — Gemini 1.5 Pro(オリジナル)、Qwen2.5-VL-32B、GPT-4 Turbo、そしてGPT-4o Miniです。これらは異なる時代のモデルであり、その撤退は遅すぎたほどでした。それらに取って代わったものは、はるかに興味深いものです。
GPT-5.2 Highは#3でデビューし、このアリーナの歴史上初めてGoogleの完全な表彰台独占を打ち砕きました。その標準バリアントであるGPT-5.2は#13に入りました。しかし、本当の衝撃はMoonshotからもたらされました。彼らのKimi K2.5 Thinkingモデルは#6に、Instantバリアントは#10に着地しました。以前はこのリーダーボードに全く存在しなかったスタートアップが、今やトップ10に2つのモデルを持っています。これは予想していませんでした。
フィールドの圧縮も物語っています。#1と#60の差はわずか171ポイントです。これは60のモデルにとって狭い帯域であり、中間層が残酷なほど競争が激しいことを意味します。1つのアーキテクチャの微調整やトレーニングデータの更新が、一晩でモデルを10ランクや15ランク動かす可能性があります。特定のモデルを中心に生産パイプラインを構築している場合、その地位は恒久的ではないことを理解してください。
AIの目:詳細分析
Googleのほぼ完璧な王朝
Gemini 3 Proが王冠を保持し、Gemini 3 Flashが銀メダルを保持しています。しかし初めて、銅メダルは他の誰かのものです。Googleは依然としてFlashのthinking-minimalバリアントで#4の座を占め、フラッグシップのGemini 3 Proから軽量のGemini 2.0 Flash Liteまで、あらゆるパフォーマンス層をカバーする13のモデルをトップ60で運用しています。これは製品ラインではありません — エコシステムです。
ネイティブマルチモーダルが実際に意味するもの
Gemini 3 Proにシステムアーキテクチャ図のホワイトボード画像を与えました — 急いで描かれたボックス、一貫性のない矢印のスタイル、2つの異なる手書きサンプル。それは単にテキストを書き起こしただけではありません。サービスの論理的な流れを再構築し、線のスタイルに基づいてどの矢印が同期的対非同期的な呼び出しを表しているかを識別し、私が見逃していた潜在的な循環依存関係にフラグを立てました。これが「ネイティブマルチモーダル」の実践的な意味です:モデルは最初に画像をテキストに翻訳しません — 視覚的構造について直接推論します。
Googleの地位をこれほど永続的なものにしているのは、その深さです。#7のGemini 2.5 Proは、背後に約80,000のブラインド評価を持つ、アリーナで最も戦闘テストされたモデルであり続けています。#17のGemini 2.5 Flashは大量の生産ワークロードを実行しています。#42のオープンウェイトモデルであるGemma 3 27Bでさえ、ほとんどの競合他社のフラッグシップ製品を上回っています。Googleのアプローチは常にカバレッジで勝つことでした — あらゆる予算とレイテンシの制約に対して最適なモデルになること — そしてビジョンにおいて、その戦略は機能しています。
鎧の唯一のひび割れ:Googleは表彰台の独占を失いました。私が最初にこのアリーナを見たとき、Geminiは3つのメダルすべてを無期限に保持するように見えました。GPT-5.2が#3に到着したことは、Googleのリードが支配的ではあるものの、難攻不落ではないことを証明しています。Googleが完全なGemini 3 Proリリース(プレビューだけでなく)をすぐに出さなければ、その窓はさらに閉じるでしょう。
OpenAIが表彰台を破る
これはVision ArenaにおけるOpenAIの最強の月です。#3のGPT-5.2 Highは、単にGoogleのロックを破るだけではありません — OpenAIの視覚処理パイプラインにおける重要な飛躍を示しています。1月のバージョンであるGPT-5.1と比較してテストしましたが、改善は2つの領域で最も顕著です:高密度の文書理解と、空間的に複雑なシーンの解釈です。
物語的ビジョンの利点
O3に四半期ごとの収益トレンドのチャートを見せると、数字をリストアップするだけではありません — なぜQ3が急増したのか、どのような季節的パターンが原因である可能性が高いか、そして来年のQ1がどのように見えるかを教えてくれます。アクセシビリティの説明、教育的な解説、そして視覚データを人間的な洞察に翻訳する必要があるあらゆるワークフローにおいて、OpenAIのアプローチは比類なきものです。彼らは画像を見ているのではありません — それを語っているのです。
OpenAIはトップ60に17のモデルを配置しており、これは単一の組織としては最多です。その幅広さは戦略的です。#14のGPT-5 Chatは、会話型ビジョンタスクの主力です。#16のO3と#24のO4 Miniは、推論に焦点を当てた部門を代表しています。#50のGPT-5 Nano Highは、コストの数分の一で驚くほど優れたビジョンを手に入れられることを証明しています。スタックがOpenAIのAPIで実行されている場合、事実上すべてのレイテンシと価格帯に最適化されたビジョンモデルが存在します。
注目すべき点:GPT-5.2 High対その標準バリアント。Highバージョンは#3に位置していますが、標準のGPT-5.2は#13で、34ポイントの差があります。この広がりは、Highティアが大幅に多くの視覚処理、おそらく追加の推論サイクルやより高い内部解像度を行っていることを示唆しています。コストに敏感なアプリケーションにとって、その品質の上限がどこで重要か、対してどこで標準ティアが「十分」かを理解することは、今四半期の重要なアーキテクチャ上の決定事項です。
Moonshotの静かな到着
私がAIベンチマークを追跡して学んだことが1つあるとすれば、それは最も危険な競争相手は静かに現れるということです。Moonshotは先月、このリーダーボードにモデルがゼロでした。今日、彼らはトップ10に2つ持っています。
#6のKimi K2.5 Thinkingは、Gemini 2.5 Pro、ChatGPT-4o Latest、およびこのリーダーボード上のすべてのAnthropicモデルを上回っています。#10のInstantバリアントは、精度を少し速度と交換していますが、それでもフィールドの大部分に勝っています。これは漸進的な進歩ではありません — これはスタートアップが確立されたプレイヤーを飛び越えているのです。
Kimi K2.5 Thinkingを私の標準テストパターンで実行しました。中国語と日本語のテキスト抽出 — レストランのメニュー、交通地図、手書きのメモ — において、以前CJKビジョンタスクのゴールドスタンダードと考えていたQwen3-VLと同等か、それを上回りました。英語の文書分析では、GPT-5.1に対して持ちこたえました。特に私を驚かせたのは、視覚的思考の連鎖です:乱雑なインフォグラフィックを与え、最も誤解を招く3つのデザイン上の選択を特定するように頼むと、構造化された引用可能な分析を生成します。
戦略的な意味合いは重要です。Moonshotは北京に拠点を置き、昨年10億ドル以上の資金を調達しました。彼らのKimiアシスタントはすでに中国で大規模なユーザーベースを持っています。彼らがこのペースで反復を続ければ、Vision Arenaのトップ5にはすぐに3つの異なる組織が含まれる可能性があり、トップでのGoogle-OpenAIの複占を破ることになります。グローバルアプリケーション、特にアジア市場にサービスを提供するアプリケーションを構築している開発者にとって、Kimi K2.5は真剣な評価に値します。
Anthropicの熟考する目
Anthropicは速度や生の精度で勝とうとはしていません。彼らは異なるゲームをプレイしており、その結果は静かに印象的です。#21のClaude Opus 4 Thinkingと#22のClaude Sonnet 4 Thinkingは、トップ60におけるAnthropicの9つのモデルを率いています。
ビジョンタスクにおいてClaudeを際立たせているのはこれです:答えを急がないことです。ほとんどのモデルに写真を見せると、オブジェクトを識別し、テキストを読み、シーンを説明します。Claudeに同じ写真を見せると、まず画像が何を伝えようとしているかを検討します。私は数十年間の政治風刺漫画のセットでこれをテストしました。Geminiは視覚要素を正確に記述しました。GPT-5.2は文化的背景を提供しました。Claudeは修辞的技法を分析し、ターゲットオーディエンスを特定し、なぜその漫画が描かれた当時と2026年では異なる受け止められ方をするかを説明しました。視覚的コンテンツの背後にある意図を解釈する必要があるあらゆるタスク — 法的文書のレビュー、安全性分析、デザイン批評 — において、Claudeの熟考するアプローチは真の資産です。
Thinking対Non-thinkingの分割は、Claudeファミリー全体で一貫しています。#25のClaude 3.7 Sonnet Thinking対#36の非思考バリアントは、信頼できる品質のギャップを示しています。ビジョンにClaudeを使用する場合、常に思考モードをオンにしてください — 私がテストしたほぼすべてのユースケースにおいて、品質の差は追加のレイテンシを正当化します。非思考バリアントは、深さよりも速度が重要な単純なラベリングや分類に適しています。
世界的なVision競争
視覚AIが「GoogleかOpenAIか」を意味していた日々は終わりました。このリーダーボードは現在、4大陸の13の異なる組織を表しており、中間テーブルの競争こそが最も興味深い開発が起きている場所です。
#19のAlibabaのQwen3-VLは、多言語ドキュメント抽出のための最高のビジョンモデルであり続けています。最近、英語、北京語、日本語、アラビア語の4か国語でスキャンされた契約書のバッチを処理するために使用しましたが、手書きの注釈と印刷されたテキストのどちらであるかを正しく識別するなど、混合スクリプトのドキュメントをほぼ完璧な精度で処理しました。#59の彼らのオープンウェイトモデルQwen2.5-VL-72Bは、画像を外部APIに送信できない組織にセルフホストの代替手段を提供します。
BaiduのERNIE 5.0は#15を堅守しています。TencentのHunyuan Vision 1.5 Thinkingは#29に位置しています。Z.aiのGLM-4.6Vは#40です。中国のAIラボは、5つの異なる組織を通じて、このリーダーボードに合計12のモデルを配置しています。単一の国家エコシステム内でのこの競争密度は、ほとんどの西側の観測者が認識しているよりも速くイノベーションを推進しています。
ヨーロッパでは、MistralがMediumとSmallのバリアントを含む4つのモデルを配置し、データの居住要件に縛られた組織に唯一のEU主権のオプションを提供しています。xAIのGrok 4は#32で、34,000件以上の評価を集め、トップ20以外で最も戦闘テストされたモデルの1つとなっています。MetaのオープンウェイトLlama 4 Maverick(#49)とScout(#57)は、完全に独自のインフラストラクチャ上で視覚AIを実行する能力を開発者に提供します。そして中国からのStepFunの3つのエントリーは、正しいアーキテクチャ上の賭けに焦点を当てれば、小規模なラボでも競争力のあるビジョンモデルを作成できることを示しています。
視覚AIはどこへ向かうのか
私はこれらのリーダーボードを十分に長くカバーしてきたので、コンセンサスになる前にパターンを見ることができます。これが、今後6ヶ月間で視覚AIが向かうと私が考える場所です。
2026年半ばまでにトップ5には3つ以上の組織が含まれるでしょう。 Googleの掌握は緩みつつあります。OpenAIは表彰台を破ることができると証明しました。Moonshotは急速に上昇しています。Anthropicがビジョンファーストモデル — 言語モデルから適応されたものではなく、視覚的推論のためにゼロから設計されたもの — を提供すれば、彼らはこのグループに参加する可能性があります。視覚AIにおける単一企業の支配の時代は終わりつつあります。
思考の連鎖(Chain-of-Thought)ビジョンがデフォルトの推論モードになります。 「思考」バリアントを提供するすべてのモデルは、その非思考の対応物を一貫して上回っています。Kimi K2.5 Thinking対Instant。Claude Opus 4 Thinking対標準。Gemini Flash Thinking対非思考。パターンは普遍的です。1年以内に、「思考」が標準的な推論モードになり、「即時」はレイテンシに敏感なケースのための明示的なダウングレードオプションになると予想しています。
動画理解がこれらのランキングを作り直します。 ここでのほとんどのモデルは静止画で評価されました。しかし、現実世界のビジョンタスクはますます動画を伴います — セキュリティフィード、医療画像シリーズ、製造品質管理、自律ナビゲーション。単一のスナップショットだけでなく、時間枠を超えて推論できるモデルが、このリーダーボードの次世代を定義するでしょう。GoogleとOpenAIはどちらもこの方向の研究を行っていますが、生産グレードの動画理解を大規模に提供した最初の企業が、数年続く可能性のある巨大な先行者利益を得るでしょう。
オープンウェイト層がトップ20を破ります。 現在、最高位のオープンウェイトモデルは#42のGemma 3 27Bです。Llama 4 Maverickは#49に位置しています。これらのモデルは、API専用モデルが受け入れることのできないコミュニティの微調整、カスタムトレーニングデータ、およびアーキテクチャの変更から恩恵を受けるため、プロプライエタリな対応物よりも速く改善しています。あと2四半期もすれば、少なくとも1つのオープンウェイトモデルがトップ20に入ると予想しています — これは大規模な視覚AI導入の経済性を根本的に変えるでしょう。
専門化された垂直モデルが経済的価値の大部分を獲得します。 現在のリーダーボードは一般的な視覚理解を評価しています。しかし、市場は専門化へとシフトしています — どの汎用モデルよりもX線をよく読む医療画像モデル、変化の検出に最適化された衛星画像モデル、請求書や契約書のために特別に構築されたドキュメントAI。一般的なリーダーボードは見出しのままですが、本当のお金はこれらの基盤の上に構築された垂直的な専門家にあります。
私のおすすめ(ユースケース別)
現実世界のワークフローですべての60モデルをテストした結果、これが私の蒸留されたガイダンスです。単一のモデルがすべてで勝つわけではありません — 正しい選択は、あなたが何を構築しているかに完全に依存します。
最大精度
Gemini 3 Pro — 構造的詳細、空間的推論、および複雑な図解釈において依然として最高です。精度について妥協できない場合、これがそのモデルです。
速度重視の生産
Gemini 3 Flash — 大幅に低いレイテンシでフラッグシップクラスに近い品質。リアルタイムアプリケーションに対する私のデフォルトの推奨。
物語&アクセシビリティ
GPT-5.2 High — 画像を読むだけでなく、それが何を意味するかを説明します。代替テキストの生成、教育コンテンツ、ビジュアルからのストーリーテリングに最適です。
深い視覚的推論
Claude Opus 4 Thinking — より遅く、より慎重ですが、他の人が見逃す含意を捉えます。分析、レビュー、解釈タスクに理想的です。
多言語 & CJK OCR
Kimi K2.5 Thinking — CJKテキストおよび混合言語ドキュメントにおいて例外的です。また、#6レベルの強力な汎用視覚推論器でもあります。
EUデータ主権
Mistral Medium — GDPRに厳しいワークロードに対する唯一の競争力のあるオプション。画像をヨーロッパのインフラストラクチャ内に保持します。
セルフホスト & プライバシー
Llama 4 Maverick — 独自のハードウェアで実行されるオープンウェイトビジョン。API呼び出しはなく、データがネットワークの境界を出ることはありません。
予算重視
GPT-5 Nano High — その価格帯にしては驚くほど有能です。分類、ラベリング、および単純な抽出には十分で、フラッグシップ価格の数分の一です。
2026年における最も有能なビジョン戦略は、マルチモデルオーケストレーションです。複雑な推論はClaudeにルーティングします。構造化されたドキュメントはGeminiに送ります。アクセシブルな説明はGPT-5.2で生成します。多言語コンテンツにはKimiを使用します。勝者は「最高の」モデルを選ぶ人ではなく、最も賢いルーティング層を構築する人です。
データソース: Arena Vision Leaderboardからのランキング、2026年2月6日。
ディスカッション
0 コメントコメントを残す
この記事についてご感想をお聞かせください!