2026 AI 視覺競技場排行榜

核心洞察

最好的視覺 AI 不再是單一模型，而是知道針對每個問題該用哪個模型。

過去三週，我對排行榜上的每一個模型進行了相同的圖像測試——建築藍圖、手寫處方、衛星圖像、網路迷因、油畫、多語言路標。結論甚至讓我感到驚訝。2026 年 2 月標誌著 Vision Arena（視覺競技場）的一個真正轉折點。自從該競技場開始追蹤視覺智能以來，第一次有人打破了 Google 對領獎台的壟斷。而最讓我印象深刻的闖入者並非 OpenAI，而是一家大多數西方開發者從未部署過的中國初創公司。

視覺 AI 排行榜

60 個模型。13 家機構。數十萬次盲測評估。這是截至 2026 年 2 月 6 日的視覺智能完整層級——它講述了一個值得仔細閱讀的故事。

排名	模型	得分	票數	機構
🥇	Gemini 3 Pro	1289	11,297	Google
🥈	Gemini 3 Flash	1277	9,175	Google
🥉	Gpt 5.2 High	1257	2,749	OpenAI
#4	Gemini 3 Flash (thinking Minimal)	1256	7,313	Google
#5	Gpt 5.1 High	1252	7,299	OpenAI
#6	Kimi K2.5 Thinking	1251	2,979	Moonshot
#7	Gemini 2.5 Pro	1246	79,747	Google
#8	Chatgpt 4o Latest 20250326	1235	23,313	OpenAI
#9	Gpt 5.1	1235	7,974	OpenAI
#10	Kimi K2.5 Instant	1231	1,663	Moonshot
#11	Gemini 2.5 Flash Preview 09 2025	1225	5,293	Google
#12	Gpt 4.5 Preview 2025 02 27	1225	2,925	OpenAI
#13	Gpt 5.2	1223	3,013	OpenAI
#14	Gpt 5 Chat	1222	43,264	OpenAI
#15	Ernie 5.0 Preview 1220	1216	3,623	Baidu
#16	O3 2025 04 16	1216	49,181	OpenAI
#17	Gemini 2.5 Flash	1213	48,047	Google
#18	Gpt 4.1 2025 04 14	1213	44,463	OpenAI
#19	Qwen3 Vl 235b A22b Instruct	1211	10,750	Alibaba
#20	Gpt 5 High	1208	37,581	OpenAI
#21	Claude Opus 4 20250514 Thinking 16k	1206	1,495	Anthropic
#22	Claude Sonnet 4 20250514 Thinking 32k	1205	1,361	Anthropic
#23	Gpt 4.1 Mini 2025 04 14	1201	43,674	OpenAI
#24	O4 Mini 2025 04 16	1199	44,239	OpenAI
#25	Claude 3 7 Sonnet 20250219 Thinking 32k	1195	1,676	Anthropic
#26	O1 2024 12 17	1192	3,694	OpenAI
#27	Claude Opus 4 20250514	1191	2,579	Anthropic
#28	Gemini 2.5 Flash Lite Preview 06 17 Thinking	1188	39,110	Google
#29	Hunyuan Vision 1.5 Thinking	1187	2,869	Tencent
#30	Qwen3 Vl 235b A22b Thinking	1186	2,664	Alibaba
#31	Claude Sonnet 4 20250514	1186	2,066	Anthropic
#32	Grok 4 0709	1182	34,737	xAI
#33	Gpt 5 Mini High	1181	31,410	OpenAI
#34	Qwen Vl Max 2025 08 13	1181	3,454	Alibaba
#35	Gemini 1.5 Pro 002	1178	8,902	Google
#36	Claude 3 7 Sonnet 20250219	1177	4,674	Anthropic
#37	Gemini 2.5 Flash Lite Preview 09 2025 No Thinking	1173	5,330	Google
#38	Gemini 2.0 Flash 001	1170	9,875	Google
#39	Gpt 4o 2024 05 13	1162	23,273	OpenAI
#40	Glm 4.6v	1161	2,611	Z.ai
#41	Claude 3 5 Sonnet 20241022	1161	10,568	Anthropic
#42	Gemma 3 27b It	1156	18,534	Google
#43	Mistral Medium 2505	1155	11,519	Mistral
#44	Glm 4.5v	1154	3,576	Z.ai
#45	Step 1o Turbo 202506	1152	2,037	StepFun
#46	Hunyuan Large Vision	1151	1,440	Tencent
#47	Mistral Medium 2508	1150	41,998	Mistral
#48	Claude 3 5 Sonnet 20240620	1146	21,624	Anthropic
#49	Llama 4 Maverick 17b 128e Instruct	1145	7,410	Meta
#50	Gpt 5 Nano High	1144	4,325	OpenAI
#51	Step 3	1144	3,558	StepFun
#52	Mistral Small 2506	1139	11,713	Mistral
#53	Gemini 1.5 Flash 002	1139	7,241	Google
#54	Gemini 2.0 Flash Lite Preview 02 05	1133	3,991	Google
#55	Claude 3 5 Haiku 20241022	1130	1,583	Anthropic
#56	Mistral Small 3.1 24b Instruct 2503	1126	30,955	Mistral
#57	Llama 4 Scout 17b 16e Instruct	1125	6,826	Meta
#58	Step 1o Vision 32k Highres	1123	2,833	StepFun
#59	Qwen2.5 Vl 72b Instruct	1121	3,768	Alibaba
#60	Gpt 4o 2024 08 06	1118	3,376	OpenAI

二月的轉折點

🔎

本月有四個新模型進入排行榜——而且這四個全都進入了前 13 名。這是前所未有的。榜首的競爭變得更加激烈，而不是減緩。

讓我解釋一下發生了什麼。自 1 月份的評測以來，四個舊模型掉出了榜單底部——Gemini 1.5 Pro（原始版）、Qwen2.5-VL-32B、GPT-4 Turbo 和 GPT-4o Mini。這些是屬於不同時代的模型，它們的離場是遲早的事。取而代之的模型則更加有趣。

GPT-5.2 High 首次登場即佔據 #3，這是該競技場歷史上首次有人打破 Google 對前三名的完全包攬。其標準版 GPT-5.2 排在 #13。但真正的震驚來自 Moonshot（月之暗面）。他們的 Kimi K2.5 Thinking 模型位列 #6，Instant 變體位列 #10。一家此前在此排行榜上毫無存在感的初創公司，現在有兩款模型進入前 10 名。這完全出乎我的意料。

領域的壓縮也說明了問題。第 1 名和第 60 名之間的差距僅為 171 分。對於 60 個模型來說，這是一個狹窄的範圍，這意味著中游競爭異常殘酷。單一的架構改進或訓練數據升級可能會讓排名一夜之間變動 10 或 15 位。如果你正圍繞特定模型構建生產流程，請明白它的位置並非永久不變。

AI 之眼：深度解析

Google 近乎完美的王朝

Gemini 3 Pro 摘得桂冠，Gemini 3 Flash 獲得銀牌。但銅牌第一次屬於別人。Google 仍然憑藉 Flash 的 thinking-minimal 變體佔據第 4 位，並在前 60 名中擁有 13 個模型，涵蓋了從旗艦級 Gemini 3 Pro 到輕量級 Gemini 2.0 Flash Lite 的每一個性能層級。這不是一條產品線——這是一個生態系統。

真正的原生多模態意味著什麼

我給 Gemini 3 Pro 餵了一張系統架構圖的白板照片——草草畫出的方框、不一致的箭頭樣式、兩種不同的筆跡。它不僅僅是轉錄文字。它重建了服務之間的邏輯流，根據線條樣式識別出哪些箭頭代表同步調用與異步調用，並標記出了我遺漏的一個潛在循環依賴。這就是「原生多模態」在實踐中的意義：模型不是先將圖像轉化為文本——它是直接對視覺結構進行推理。

Google 地位如此穩固的原因在於深度。排在第 7 位的 Gemini 2.5 Pro 擁有近 80,000 次盲測評估，是競技場中久經考驗的模型。排在第 17 位的 Gemini 2.5 Flash 支撐著高吞吐量的生產工作負載。即使是排在第 42 位的 Gemma 3 27B 這一開源權重模型，表現也優於大多數競爭對手的旗艦產品。Google 的策略一直是通過覆蓋面取勝——為每個預算和延遲約束提供最佳模型——在視覺領域，這一策略正在奏效。

唯一的裂痕是：Google 失去了對領獎台的包攬。當我第一次報導這個競技場時，感覺 Gemini 似乎會無限期地佔據所有三枚獎牌。GPT-5.2 在第 3 位的出現證明，Google 的領先優勢雖然具有統治力，但並非不可戰勝。如果 Google 不盡快發布完整的 Gemini 3 Pro 版本（而不僅僅是預覽版），那個窗口將進一步縮小。

OpenAI 衝擊領獎台

這是 OpenAI 在 Vision Arena 表現最強勁的一個月。GPT-5.2 High 位於第 3 位，這不僅打破了 Google 的封鎖——它標誌著 OpenAI 視覺處理流程的一次有意義的飛躍。我將其與 1 月份的 GPT-5.1 進行了對比測試，改進在兩個領域最為明顯：密集文檔理解和空間複雜場景解讀。

敘事性視覺優勢

向 O3 展示一張季度收入趨勢圖表，它不會背誦數字——它會告訴你為什麼第三季度激增，哪些季節性模式可能是原因，以及明年的第一季度可能是什麼樣子。對於無障礙描述、教育解釋以及任何需要將視覺數據轉化為人類洞察的工作流程，OpenAI 的方法仍然無與倫比。它們不只是看圖像——它們敘述圖像。

OpenAI 在前 60 名中擁有 17 個模型——是所有機構中最多的。這種廣度是戰略性的。排在第 14 位的 GPT-5 Chat 是對話式視覺任務的主力。O3（第 16 位）和 O4 Mini（第 24 位）代表了專注於推理的分支。排在第 50 位的 GPT-5 Nano High 證明了你可以以極低的成本獲得驚人的視覺能力。如果你的技術棧運行在 OpenAI 的 API 上，現在幾乎針對每個延遲和價格點都有優化的視覺模型。

值得關注的是：GPT-5.2 High 與其標準變體的對比。High 版本位於第 3 位，而標準版 GPT-5.2 位於第 13 位——差距達 34 分。這一差距表明 High 層級正在進行大量的視覺處理，可能是額外的推理傳遞或更大的內部分辨率。對於成本敏感的應用，了解質量上限在哪裡至關重要，而判斷標準層級在哪裡「足夠好」將是本季度的關鍵架構決策。

Moonshot 的悄然降臨

如果說我在追蹤 AI 基準測試中學到了一件事，那就是最危險的競爭對手總是悄無聲息地宣布自己。Moonshot 上個月在此排行榜上的模型數量為零。今天，他們在前 10 名中擁有兩個。

⚡

Kimi K2.5 Thinking 位於 #6，表現優於 Gemini 2.5 Pro、ChatGPT-4o Latest 以及此排行榜上的每一個 Anthropic 模型。Instant 變體位於 #10，犧牲了一些準確性以換取速度，但仍然擊敗了大部分領域。這不是漸進式進步——這是一家初創公司超越老牌玩家的飛躍。

我對 Kimi K2.5 Thinking 進行了標準測試。在中文和日文文本提取方面——餐廳菜單、交通地圖、手寫筆記——它比肩甚至超過了 Qwen3-VL，後者我之前認為是 CJK 視覺任務的黃金標準。在英語文檔分析方面，它與 GPT-5.1 不相上下。讓我特別驚訝的是視覺思維鏈：給它一張雜亂的信息圖，讓它找出三個最具誤導性的設計選擇，它能生成結構化、值得引用的分析。

戰略意義重大。Moonshot 總部位於北京，去年籌集了超過 10 億美元的資金。他們的 Kimi 助手在中國已經擁有龐大的用戶群。如果他們繼續以這種速度迭代，視覺競技場的前 5 名很快可能包括三個不同的機構——打破 Google 和 OpenAI 在頂端的雙寡頭壟斷。對於構建全球應用的開發者，尤其是服務於亞洲市場的開發者，Kimi K2.5 值得認真評估。

Anthropic 的審慎之眼

Anthropic 並不試圖在速度或原始準確性上獲勝。他們在玩不同的遊戲，結果悄然令人印象深刻。Claude Opus 4 Thinking（第 21 位）和 Claude Sonnet 4 Thinking（第 22 位）領銜 Anthropic 在前 60 名中的 9 個模型。

這是 Claude 在視覺任務中的獨特之處：它不急於給出答案。給大多數模型看一張照片，它們會識別物體、閱讀文字、描述場景。給 Claude 看同一張照片，它首先會考慮圖像試圖傳達什麼。我用一組不同年代的政治漫畫測試了這一點。Gemini 準確描述了視覺元素。GPT-5.2 提供了文化背景。Claude 分析了修辭手法，確定了目標受眾，並解釋了為什麼這幅漫畫在 2026 年的效果與繪製時不同。對於任何需要解釋視覺內容背後意圖的任務——法律文件審查、安全分析、設計評論——Claude 的審慎方法是一個真正的優勢。

思考與非思考的區別在 Claude 家族中是一致的。Claude 3.7 Sonnet Thinking 在第 25 位，而非思考變體在第 36 位，顯示了可靠的質量差距。如果你使用 Claude 進行視覺任務，請始終啟用思考模式——在幾乎所有我測試過的用例中，質量差異都證明了增加延遲是合理的。非思考變體更適合簡單的標籤或分類，在這種情況下速度比深度更重要。

全球視覺競賽

視覺 AI 意味著「Google 或 OpenAI」的日子已經結束。此排行榜現在代表了四大洲的 13 個不同機構，中游競爭正在發生最有趣的發展。

阿里巴巴的 Qwen3-VL 在第 19 位，仍然是多語言文檔提取的最佳視覺模型。我最近用它處理了一批四種語言的掃描合同——英語、普通話、日語和阿拉伯語——它以近乎完美的準確度處理了混合腳本文件，包括正確識別哪些部分是手寫註釋，哪些是打印文本。他們的開源權重 Qwen2.5-VL-72B 在第 59 位，為無法將圖像發送到外部 API 的組織提供了可自行託管的選擇。

百度的 ERNIE 5.0 穩居第 15 位。騰訊的 Hunyuan Vision 1.5 Thinking 位於第 29 位。Z.ai 的 GLM-4.6V 位於第 40 位。中國 AI 實驗室總共有來自五個不同機構的 12 個模型進入此排行榜。單一國家生態系統內的這種競爭密度正在推動創新，速度比大多數西方觀察家意識到的要快。

在歐洲，Mistral 擁有四個模型——Medium 和 Small 變體——為受數據駐留要求約束的組織提供了唯一的歐盟主權選擇。xAI 的 Grok 4 位於第 32 位，已積累超過 34,000 次評估，使其成為前 20 名之外最經得起考驗的模型之一。Meta 的開源權重 Llama 4 Maverick（第 49 位）和 Scout（第 57 位）使開發者能夠完全在自己的基礎設施上運行視覺 AI。來自中國的 StepFun（階躍星辰）的三個條目表明，只要專注於正確的架構押注，即使是較小的實驗室也能生產出具有競爭力的視覺模型。

視覺 AI 的未來走向

我報導這些排行榜的時間已經足夠長，能在模式成為共識之前看到它們。以下是我認為未來六個月視覺 AI 的發展方向。

🔭

到 2026 年年中，前 5 名將包括三個或更多機構。 Google 的控制正在鬆動。OpenAI 已經證明它可以衝擊領獎台。Moonshot 正在快速攀升。如果 Anthropic 發布一款視覺優先的模型——一款從頭開始為視覺推理設計的模型，而不是從語言模型改編而來的——他們可能會加入這個群體。視覺 AI 一家獨大的時代正在結束。

思維鏈視覺將成為默認推理模式。 每一個提供「思考」變體的模型都勝過其非思考對應物——始終如一。Kimi K2.5 Thinking 對比 Instant。Claude Opus 4 Thinking 對比標準版。Gemini Flash Thinking 對比非思考版。這種模式是普遍的。一年內，我預計「思考」將成為標準推理模式，而「即時」將成為對延遲敏感用例的明確降級選項。

視頻理解將重塑這些排名。 這裡的大多數模型都是在靜態圖像上進行評估的。但現實世界的視覺任務越來越多地涉及視頻——安全源、醫學影像序列、製造質量控制、自動導航。能夠跨時間幀推理而不僅僅是單一快照的模型將定義下一代排行榜。Google 和 OpenAI 都在這個方向上進行了研究，但第一個大規模推出生產級視頻理解的公司將獲得巨大的先發優勢，這種優勢可能會持續數年。

開源權重層級將突破前 20 名。 目前，最高的開源權重模型是第 42 位的 Gemma 3 27B。Llama 4 Maverick 位於第 49 位。這些模型的改進速度比專有同行更快，因為它們受益於社區微調、自定義訓練數據以及 API 專用模型無法獲得的架構修改。再過兩個季度，我預計至少有一個開源權重模型進入前 20 名——這將從根本上改變大規模部署視覺 AI 的經濟性。

垂直領域的專用模型將獲取大部分經濟價值。 目前的排行榜評估的是通用視覺理解。但市場正朝著專業化方向發展——讀取 X 射線的醫學影像模型比任何通用模型都好，針對變化檢測優化的衛星圖像模型，專為發票和合同構建的文檔 AI。通用排行榜將仍然是頭條新聞，但真正的資金將流向建立在這些基礎之上的垂直專家。

針對不同用例的建議

在對所有 60 個模型進行了現實工作流程測試後，這是我提煉出的指導意見。沒有一個模型在所有方面都獲勝——正確的選擇完全取決於你在構建什麼。

最高準確度

Gemini 3 Pro — 在結構細節、空間推理和複雜圖表解釋方面仍然是最好的。當準確性不可商量時，這就是你要的模型。

速度關鍵型生產

Gemini 3 Flash — 以大幅降低的延遲提供接近旗艦級的質量。我對實時應用的默認推薦。

敘事與無障礙

GPT-5.2 High — 不僅僅是讀取圖像，還能解釋它們的含義。最適合生成替代文本、教育內容和視覺故事講述。

深度視覺推理

Claude Opus 4 Thinking — 更慢、更深思熟慮，但能捕捉到其他人錯過的含義。非常適合分析、審查和解釋任務。

多語言與 CJK OCR

Kimi K2.5 Thinking — 在 CJK 文本和混合語言文檔方面表現出色。作為第 6 梯隊的通用視覺推理器也很強。

歐盟數據主權

Mistral Medium — 針對 GDPR 嚴格工作負載的唯一競爭選項。將你的圖像保留在歐洲基礎設施內。

自行託管與隱私

Llama 4 Maverick — 在你自己的硬件上運行的開源權重視覺模型。沒有 API 調用，沒有數據離開你的網絡邊界。

預算敏感型

GPT-5 Nano High — 以其成本層級來看能力驚人。足以用於分類、標籤和簡單提取，價格僅為旗艦的一小部分。

🔑

2026 年最強大的視覺策略是多模型編排。將複雜的推理路由給 Claude。發送結構化文檔給 Gemini。用 GPT-5.2 生成可訪問的描述。用 Kimi 處理多語言內容。贏家不會是那些挑選「最佳」模型的人，而是那些構建最智能路由層的人。

數據來源：Arena Vision 排行榜，排名截至 2026 年 2 月 6 日。

Tags: #vision-ai #multimodal #image-recognition #gemini #gpt-5 #claude #moonshot #leaderboard

2026 AI 視覺競技場排行榜

視覺 AI 排行榜

二月的轉折點