2026 AI 視覺競技場排行榜

核心洞察

最好的視覺 AI 不再是單一模型,而是知道針對每個問題該用哪個模型

過去三週,我對排行榜上的每一個模型進行了相同的圖像測試——建築藍圖、手寫處方、衛星圖像、網路迷因、油畫、多語言路標。結論甚至讓我感到驚訝。2026 年 2 月標誌著 Vision Arena(視覺競技場) 的一個真正轉折點。自從該競技場開始追蹤視覺智能以來,第一次有人打破了 Google 對領獎台的壟斷。而最讓我印象深刻的闖入者並非 OpenAI,而是一家大多數西方開發者從未部署過的中國初創公司。

視覺 AI 排行榜

60 個模型。13 家機構。數十萬次盲測評估。這是截至 2026 年 2 月 6 日的視覺智能完整層級——它講述了一個值得仔細閱讀的故事。

排名 模型 得分 票數 機構
🥇
Gemini 3 Pro 128911,297Google
🥈
Gemini 3 Flash 12779,175Google
🥉
Gpt 5.2 High 12572,749OpenAI
#4
Gemini 3 Flash (thinking Minimal) 12567,313Google
#5
Gpt 5.1 High 12527,299OpenAI
#6
Kimi K2.5 Thinking 12512,979Moonshot
#7
Gemini 2.5 Pro 124679,747Google
#8
Chatgpt 4o Latest 20250326 123523,313OpenAI
#9
Gpt 5.1 12357,974OpenAI
#10
Kimi K2.5 Instant 12311,663Moonshot
#11
Gemini 2.5 Flash Preview 09 2025 12255,293Google
#12
Gpt 4.5 Preview 2025 02 27 12252,925OpenAI
#13
Gpt 5.2 12233,013OpenAI
#14
Gpt 5 Chat 122243,264OpenAI
#15
Ernie 5.0 Preview 1220 12163,623Baidu
#16
O3 2025 04 16 121649,181OpenAI
#17
Gemini 2.5 Flash 121348,047Google
#18
Gpt 4.1 2025 04 14 121344,463OpenAI
#19
Qwen3 Vl 235b A22b Instruct 121110,750Alibaba
#20
Gpt 5 High 120837,581OpenAI
#21
Claude Opus 4 20250514 Thinking 16k 12061,495Anthropic
#22
Claude Sonnet 4 20250514 Thinking 32k 12051,361Anthropic
#23
Gpt 4.1 Mini 2025 04 14 120143,674OpenAI
#24
O4 Mini 2025 04 16 119944,239OpenAI
#25
Claude 3 7 Sonnet 20250219 Thinking 32k 11951,676Anthropic
#26
O1 2024 12 17 11923,694OpenAI
#27
Claude Opus 4 20250514 11912,579Anthropic
#28
Gemini 2.5 Flash Lite Preview 06 17 Thinking 118839,110Google
#29
Hunyuan Vision 1.5 Thinking 11872,869Tencent
#30
Qwen3 Vl 235b A22b Thinking 11862,664Alibaba
#31
Claude Sonnet 4 20250514 11862,066Anthropic
#32
Grok 4 0709 118234,737xAI
#33
Gpt 5 Mini High 118131,410OpenAI
#34
Qwen Vl Max 2025 08 13 11813,454Alibaba
#35
Gemini 1.5 Pro 002 11788,902Google
#36
Claude 3 7 Sonnet 20250219 11774,674Anthropic
#37
Gemini 2.5 Flash Lite Preview 09 2025 No Thinking 11735,330Google
#38
Gemini 2.0 Flash 001 11709,875Google
#39
Gpt 4o 2024 05 13 116223,273OpenAI
#40
Glm 4.6v 11612,611Z.ai
#41
Claude 3 5 Sonnet 20241022 116110,568Anthropic
#42
Gemma 3 27b It 115618,534Google
#43
Mistral Medium 2505 115511,519Mistral
#44
Glm 4.5v 11543,576Z.ai
#45
Step 1o Turbo 202506 11522,037StepFun
#46
Hunyuan Large Vision 11511,440Tencent
#47
Mistral Medium 2508 115041,998Mistral
#48
Claude 3 5 Sonnet 20240620 114621,624Anthropic
#49
Llama 4 Maverick 17b 128e Instruct 11457,410Meta
#50
Gpt 5 Nano High 11444,325OpenAI
#51
Step 3 11443,558StepFun
#52
Mistral Small 2506 113911,713Mistral
#53
Gemini 1.5 Flash 002 11397,241Google
#54
Gemini 2.0 Flash Lite Preview 02 05 11333,991Google
#55
Claude 3 5 Haiku 20241022 11301,583Anthropic
#56
Mistral Small 3.1 24b Instruct 2503 112630,955Mistral
#57
Llama 4 Scout 17b 16e Instruct 11256,826Meta
#58
Step 1o Vision 32k Highres 11232,833StepFun
#59
Qwen2.5 Vl 72b Instruct 11213,768Alibaba
#60
Gpt 4o 2024 08 06 11183,376OpenAI

二月的轉折點

🔎

本月有四個新模型進入排行榜——而且這四個全都進入了前 13 名。這是前所未有的。榜首的競爭變得更加激烈,而不是減緩。

讓我解釋一下發生了什麼。自 1 月份的評測以來,四個舊模型掉出了榜單底部——Gemini 1.5 Pro(原始版)、Qwen2.5-VL-32B、GPT-4 Turbo 和 GPT-4o Mini。這些是屬於不同時代的模型,它們的離場是遲早的事。取而代之的模型則更加有趣。

GPT-5.2 High 首次登場即佔據 #3,這是該競技場歷史上首次有人打破 Google 對前三名的完全包攬。其標準版 GPT-5.2 排在 #13。但真正的震驚來自 Moonshot(月之暗面)。他們的 Kimi K2.5 Thinking 模型位列 #6,Instant 變體位列 #10。一家此前在此排行榜上毫無存在感的初創公司,現在有兩款模型進入前 10 名。這完全出乎我的意料。

領域的壓縮也說明了問題。第 1 名和第 60 名之間的差距僅為 171 分。對於 60 個模型來說,這是一個狹窄的範圍,這意味著中游競爭異常殘酷。單一的架構改進或訓練數據升級可能會讓排名一夜之間變動 10 或 15 位。如果你正圍繞特定模型構建生產流程,請明白它的位置並非永久不變。

AI 之眼:深度解析

Google 近乎完美的王朝

Gemini 3 Pro 摘得桂冠,Gemini 3 Flash 獲得銀牌。但銅牌第一次屬於別人。Google 仍然憑藉 Flash 的 thinking-minimal 變體佔據第 4 位,並在前 60 名中擁有 13 個模型,涵蓋了從旗艦級 Gemini 3 Pro 到輕量級 Gemini 2.0 Flash Lite 的每一個性能層級。這不是一條產品線——這是一個生態系統。

真正的原生多模態意味著什麼

我給 Gemini 3 Pro 餵了一張系統架構圖的白板照片——草草畫出的方框、不一致的箭頭樣式、兩種不同的筆跡。它不僅僅是轉錄文字。它重建了服務之間的邏輯流,根據線條樣式識別出哪些箭頭代表同步調用與異步調用,並標記出了我遺漏的一個潛在循環依賴。這就是「原生多模態」在實踐中的意義:模型不是先將圖像轉化為文本——它是直接對視覺結構進行推理。

Google 地位如此穩固的原因在於深度。排在第 7 位的 Gemini 2.5 Pro 擁有近 80,000 次盲測評估,是競技場中久經考驗的模型。排在第 17 位的 Gemini 2.5 Flash 支撐著高吞吐量的生產工作負載。即使是排在第 42 位的 Gemma 3 27B 這一開源權重模型,表現也優於大多數競爭對手的旗艦產品。Google 的策略一直是通過覆蓋面取勝——為每個預算和延遲約束提供最佳模型——在視覺領域,這一策略正在奏效。

唯一的裂痕是:Google 失去了對領獎台的包攬。當我第一次報導這個競技場時,感覺 Gemini 似乎會無限期地佔據所有三枚獎牌。GPT-5.2 在第 3 位的出現證明,Google 的領先優勢雖然具有統治力,但並非不可戰勝。如果 Google 不盡快發布完整的 Gemini 3 Pro 版本(而不僅僅是預覽版),那個窗口將進一步縮小。

OpenAI 衝擊領獎台

這是 OpenAI 在 Vision Arena 表現最強勁的一個月。GPT-5.2 High 位於第 3 位,這不僅打破了 Google 的封鎖——它標誌著 OpenAI 視覺處理流程的一次有意義的飛躍。我將其與 1 月份的 GPT-5.1 進行了對比測試,改進在兩個領域最為明顯:密集文檔理解和空間複雜場景解讀。

敘事性視覺優勢

O3 展示一張季度收入趨勢圖表,它不會背誦數字——它會告訴你為什麼第三季度激增,哪些季節性模式可能是原因,以及明年的第一季度可能是什麼樣子。對於無障礙描述、教育解釋以及任何需要將視覺數據轉化為人類洞察的工作流程,OpenAI 的方法仍然無與倫比。它們不只是看圖像——它們敘述圖像。

OpenAI 在前 60 名中擁有 17 個模型——是所有機構中最多的。這種廣度是戰略性的。排在第 14 位的 GPT-5 Chat 是對話式視覺任務的主力。O3(第 16 位)和 O4 Mini(第 24 位)代表了專注於推理的分支。排在第 50 位的 GPT-5 Nano High 證明了你可以以極低的成本獲得驚人的視覺能力。如果你的技術棧運行在 OpenAI 的 API 上,現在幾乎針對每個延遲和價格點都有優化的視覺模型。

值得關注的是:GPT-5.2 High 與其標準變體的對比。High 版本位於第 3 位,而標準版 GPT-5.2 位於第 13 位——差距達 34 分。這一差距表明 High 層級正在進行大量的視覺處理,可能是額外的推理傳遞或更大的內部分辨率。對於成本敏感的應用,了解質量上限在哪裡至關重要,而判斷標準層級在哪裡「足夠好」將是本季度的關鍵架構決策。

Moonshot 的悄然降臨

如果說我在追蹤 AI 基準測試中學到了一件事,那就是最危險的競爭對手總是悄無聲息地宣布自己。Moonshot 上個月在此排行榜上的模型數量為零。今天,他們在前 10 名中擁有兩個。

Kimi K2.5 Thinking 位於 #6,表現優於 Gemini 2.5 Pro、ChatGPT-4o Latest 以及此排行榜上的每一個 Anthropic 模型。Instant 變體位於 #10,犧牲了一些準確性以換取速度,但仍然擊敗了大部分領域。這不是漸進式進步——這是一家初創公司超越老牌玩家的飛躍。

我對 Kimi K2.5 Thinking 進行了標準測試。在中文和日文文本提取方面——餐廳菜單、交通地圖、手寫筆記——它比肩甚至超過了 Qwen3-VL,後者我之前認為是 CJK 視覺任務的黃金標準。在英語文檔分析方面,它與 GPT-5.1 不相上下。讓我特別驚訝的是視覺思維鏈:給它一張雜亂的信息圖,讓它找出三個最具誤導性的設計選擇,它能生成結構化、值得引用的分析。

戰略意義重大。Moonshot 總部位於北京,去年籌集了超過 10 億美元的資金。他們的 Kimi 助手在中國已經擁有龐大的用戶群。如果他們繼續以這種速度迭代,視覺競技場的前 5 名很快可能包括三個不同的機構——打破 Google 和 OpenAI 在頂端的雙寡頭壟斷。對於構建全球應用的開發者,尤其是服務於亞洲市場的開發者,Kimi K2.5 值得認真評估。

Anthropic 的審慎之眼

Anthropic 並不試圖在速度或原始準確性上獲勝。他們在玩不同的遊戲,結果悄然令人印象深刻。Claude Opus 4 Thinking(第 21 位)和 Claude Sonnet 4 Thinking(第 22 位)領銜 Anthropic 在前 60 名中的 9 個模型

這是 Claude 在視覺任務中的獨特之處:它不急於給出答案。給大多數模型看一張照片,它們會識別物體、閱讀文字、描述場景。給 Claude 看同一張照片,它首先會考慮圖像試圖傳達什麼。我用一組不同年代的政治漫畫測試了這一點。Gemini 準確描述了視覺元素。GPT-5.2 提供了文化背景。Claude 分析了修辭手法,確定了目標受眾,並解釋了為什麼這幅漫畫在 2026 年的效果與繪製時不同。對於任何需要解釋視覺內容背後意圖的任務——法律文件審查、安全分析、設計評論——Claude 的審慎方法是一個真正的優勢。

思考與非思考的區別在 Claude 家族中是一致的。Claude 3.7 Sonnet Thinking 在第 25 位,而非思考變體在第 36 位,顯示了可靠的質量差距。如果你使用 Claude 進行視覺任務,請始終啟用思考模式——在幾乎所有我測試過的用例中,質量差異都證明了增加延遲是合理的。非思考變體更適合簡單的標籤或分類,在這種情況下速度比深度更重要。

全球視覺競賽

視覺 AI 意味著「Google 或 OpenAI」的日子已經結束。此排行榜現在代表了四大洲的 13 個不同機構,中游競爭正在發生最有趣的發展。

阿里巴巴的 Qwen3-VL 在第 19 位,仍然是多語言文檔提取的最佳視覺模型。我最近用它處理了一批四種語言的掃描合同——英語、普通話、日語和阿拉伯語——它以近乎完美的準確度處理了混合腳本文件,包括正確識別哪些部分是手寫註釋,哪些是打印文本。他們的開源權重 Qwen2.5-VL-72B 在第 59 位,為無法將圖像發送到外部 API 的組織提供了可自行託管的選擇。

百度的 ERNIE 5.0 穩居第 15 位。騰訊的 Hunyuan Vision 1.5 Thinking 位於第 29 位。Z.ai 的 GLM-4.6V 位於第 40 位。中國 AI 實驗室總共有來自五個不同機構的 12 個模型進入此排行榜。單一國家生態系統內的這種競爭密度正在推動創新,速度比大多數西方觀察家意識到的要快。

在歐洲,Mistral 擁有四個模型——Medium 和 Small 變體——為受數據駐留要求約束的組織提供了唯一的歐盟主權選擇。xAI 的 Grok 4 位於第 32 位,已積累超過 34,000 次評估,使其成為前 20 名之外最經得起考驗的模型之一。Meta 的開源權重 Llama 4 Maverick(第 49 位)和 Scout(第 57 位)使開發者能夠完全在自己的基礎設施上運行視覺 AI。來自中國的 StepFun(階躍星辰) 的三個條目表明,只要專注於正確的架構押注,即使是較小的實驗室也能生產出具有競爭力的視覺模型。

視覺 AI 的未來走向

我報導這些排行榜的時間已經足夠長,能在模式成為共識之前看到它們。以下是我認為未來六個月視覺 AI 的發展方向。

🔭

到 2026 年年中,前 5 名將包括三個或更多機構。 Google 的控制正在鬆動。OpenAI 已經證明它可以衝擊領獎台。Moonshot 正在快速攀升。如果 Anthropic 發布一款視覺優先的模型——一款從頭開始為視覺推理設計的模型,而不是從語言模型改編而來的——他們可能會加入這個群體。視覺 AI 一家獨大的時代正在結束。

思維鏈視覺將成為默認推理模式。 每一個提供「思考」變體的模型都勝過其非思考對應物——始終如一。Kimi K2.5 Thinking 對比 Instant。Claude Opus 4 Thinking 對比標準版。Gemini Flash Thinking 對比非思考版。這種模式是普遍的。一年內,我預計「思考」將成為標準推理模式,而「即時」將成為對延遲敏感用例的明確降級選項。

視頻理解將重塑這些排名。 這裡的大多數模型都是在靜態圖像上進行評估的。但現實世界的視覺任務越來越多地涉及視頻——安全源、醫學影像序列、製造質量控制、自動導航。能夠跨時間幀推理而不僅僅是單一快照的模型將定義下一代排行榜。Google 和 OpenAI 都在這個方向上進行了研究,但第一個大規模推出生產級視頻理解的公司將獲得巨大的先發優勢,這種優勢可能會持續數年。

開源權重層級將突破前 20 名。 目前,最高的開源權重模型是第 42 位的 Gemma 3 27B。Llama 4 Maverick 位於第 49 位。這些模型的改進速度比專有同行更快,因為它們受益於社區微調、自定義訓練數據以及 API 專用模型無法獲得的架構修改。再過兩個季度,我預計至少有一個開源權重模型進入前 20 名——這將從根本上改變大規模部署視覺 AI 的經濟性。

垂直領域的專用模型將獲取大部分經濟價值。 目前的排行榜評估的是通用視覺理解。但市場正朝著專業化方向發展——讀取 X 射線的醫學影像模型比任何通用模型都好,針對變化檢測優化的衛星圖像模型,專為發票和合同構建的文檔 AI。通用排行榜將仍然是頭條新聞,但真正的資金將流向建立在這些基礎之上的垂直專家。

針對不同用例的建議

在對所有 60 個模型進行了現實工作流程測試後,這是我提煉出的指導意見。沒有一個模型在所有方面都獲勝——正確的選擇完全取決於你在構建什麼。

最高準確度

Gemini 3 Pro — 在結構細節、空間推理和複雜圖表解釋方面仍然是最好的。當準確性不可商量時,這就是你要的模型。

速度關鍵型生產

Gemini 3 Flash — 以大幅降低的延遲提供接近旗艦級的質量。我對實時應用的默認推薦。

敘事與無障礙

GPT-5.2 High — 不僅僅是讀取圖像,還能解釋它們的含義。最適合生成替代文本、教育內容和視覺故事講述。

深度視覺推理

Claude Opus 4 Thinking — 更慢、更深思熟慮,但能捕捉到其他人錯過的含義。非常適合分析、審查和解釋任務。

多語言與 CJK OCR

Kimi K2.5 Thinking — 在 CJK 文本和混合語言文檔方面表現出色。作為第 6 梯隊的通用視覺推理器也很強。

歐盟數據主權

Mistral Medium — 針對 GDPR 嚴格工作負載的唯一競爭選項。將你的圖像保留在歐洲基礎設施內。

自行託管與隱私

Llama 4 Maverick — 在你自己的硬件上運行的開源權重視覺模型。沒有 API 調用,沒有數據離開你的網絡邊界。

預算敏感型

GPT-5 Nano High — 以其成本層級來看能力驚人。足以用於分類、標籤和簡單提取,價格僅為旗艦的一小部分。

🔑

2026 年最強大的視覺策略是多模型編排。將複雜的推理路由給 Claude。發送結構化文檔給 Gemini。用 GPT-5.2 生成可訪問的描述。用 Kimi 處理多語言內容。贏家不會是那些挑選「最佳」模型的人,而是那些構建最智能路由層的人。


數據來源:Arena Vision 排行榜,排名截至 2026 年 2 月 6 日。

討論

0 條評論

留下評論

成為第一個分享您想法的人!