AI thị giác tốt nhất không còn là một mô hình đơn lẻ. Đó là việc biết mô hình nào nên dùng cho từng vấn đề.
Tôi đã dành ba tuần qua để chạy các bài kiểm tra hình ảnh giống hệt nhau trên mọi mô hình trong bảng xếp hạng này — bản thiết kế kiến trúc, đơn thuốc viết tay, hình ảnh vệ tinh, meme, tranh sơn dầu, biển báo đường phố đa ngôn ngữ. Kết luận làm chính tôi ngạc nhiên. Tháng 2 năm 2026 đánh dấu một bước ngoặt thực sự cho Vision Arena. Lần đầu tiên kể từ khi đấu trường này bắt đầu theo dõi trí tuệ thị giác, ai đó đã phá vỡ sự thống trị bục vinh quang của Google. Và kẻ xâm nhập khiến tôi ấn tượng nhất không phải là OpenAI — đó là một công ty khởi nghiệp Trung Quốc mà hầu hết các nhà phát triển phương Tây chưa bao giờ triển khai.
Bảng Xếp Hạng Vision
Sáu mươi mô hình. Mười ba tổ chức. Hàng trăm ngàn đánh giá mù từ con người. Đây là hệ thống phân cấp đầy đủ của trí tuệ thị giác tính đến ngày 6 tháng 2 năm 2026 — và nó kể một câu chuyện đáng để đọc kỹ.
| Hạng | Mô hình | Điểm | Phiếu bầu | Tổ chức |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1289 | 11,297 | |
🥈 | Gemini 3 Flash | 1277 | 9,175 | |
🥉 | Gpt 5.2 High | 1257 | 2,749 | OpenAI |
#4 | Gemini 3 Flash (thinking Minimal) | 1256 | 7,313 | |
#5 | Gpt 5.1 High | 1252 | 7,299 | OpenAI |
#6 | Kimi K2.5 Thinking | 1251 | 2,979 | Moonshot |
#7 | Gemini 2.5 Pro | 1246 | 79,747 | |
#8 | Chatgpt 4o Latest 20250326 | 1235 | 23,313 | OpenAI |
#9 | Gpt 5.1 | 1235 | 7,974 | OpenAI |
#10 | Kimi K2.5 Instant | 1231 | 1,663 | Moonshot |
#11 | Gemini 2.5 Flash Preview 09 2025 | 1225 | 5,293 | |
#12 | Gpt 4.5 Preview 2025 02 27 | 1225 | 2,925 | OpenAI |
#13 | Gpt 5.2 | 1223 | 3,013 | OpenAI |
#14 | Gpt 5 Chat | 1222 | 43,264 | OpenAI |
#15 | Ernie 5.0 Preview 1220 | 1216 | 3,623 | Baidu |
#16 | O3 2025 04 16 | 1216 | 49,181 | OpenAI |
#17 | Gemini 2.5 Flash | 1213 | 48,047 | |
#18 | Gpt 4.1 2025 04 14 | 1213 | 44,463 | OpenAI |
#19 | Qwen3 Vl 235b A22b Instruct | 1211 | 10,750 | Alibaba |
#20 | Gpt 5 High | 1208 | 37,581 | OpenAI |
#21 | Claude Opus 4 20250514 Thinking 16k | 1206 | 1,495 | Anthropic |
#22 | Claude Sonnet 4 20250514 Thinking 32k | 1205 | 1,361 | Anthropic |
#23 | Gpt 4.1 Mini 2025 04 14 | 1201 | 43,674 | OpenAI |
#24 | O4 Mini 2025 04 16 | 1199 | 44,239 | OpenAI |
#25 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1195 | 1,676 | Anthropic |
#26 | O1 2024 12 17 | 1192 | 3,694 | OpenAI |
#27 | Claude Opus 4 20250514 | 1191 | 2,579 | Anthropic |
#28 | Gemini 2.5 Flash Lite Preview 06 17 Thinking | 1188 | 39,110 | |
#29 | Hunyuan Vision 1.5 Thinking | 1187 | 2,869 | Tencent |
#30 | Qwen3 Vl 235b A22b Thinking | 1186 | 2,664 | Alibaba |
#31 | Claude Sonnet 4 20250514 | 1186 | 2,066 | Anthropic |
#32 | Grok 4 0709 | 1182 | 34,737 | xAI |
#33 | Gpt 5 Mini High | 1181 | 31,410 | OpenAI |
#34 | Qwen Vl Max 2025 08 13 | 1181 | 3,454 | Alibaba |
#35 | Gemini 1.5 Pro 002 | 1178 | 8,902 | |
#36 | Claude 3 7 Sonnet 20250219 | 1177 | 4,674 | Anthropic |
#37 | Gemini 2.5 Flash Lite Preview 09 2025 No Thinking | 1173 | 5,330 | |
#38 | Gemini 2.0 Flash 001 | 1170 | 9,875 | |
#39 | Gpt 4o 2024 05 13 | 1162 | 23,273 | OpenAI |
#40 | Glm 4.6v | 1161 | 2,611 | Z.ai |
#41 | Claude 3 5 Sonnet 20241022 | 1161 | 10,568 | Anthropic |
#42 | Gemma 3 27b It | 1156 | 18,534 | |
#43 | Mistral Medium 2505 | 1155 | 11,519 | Mistral |
#44 | Glm 4.5v | 1154 | 3,576 | Z.ai |
#45 | Step 1o Turbo 202506 | 1152 | 2,037 | StepFun |
#46 | Hunyuan Large Vision | 1151 | 1,440 | Tencent |
#47 | Mistral Medium 2508 | 1150 | 41,998 | Mistral |
#48 | Claude 3 5 Sonnet 20240620 | 1146 | 21,624 | Anthropic |
#49 | Llama 4 Maverick 17b 128e Instruct | 1145 | 7,410 | Meta |
#50 | Gpt 5 Nano High | 1144 | 4,325 | OpenAI |
#51 | Step 3 | 1144 | 3,558 | StepFun |
#52 | Mistral Small 2506 | 1139 | 11,713 | Mistral |
#53 | Gemini 1.5 Flash 002 | 1139 | 7,241 | |
#54 | Gemini 2.0 Flash Lite Preview 02 05 | 1133 | 3,991 | |
#55 | Claude 3 5 Haiku 20241022 | 1130 | 1,583 | Anthropic |
#56 | Mistral Small 3.1 24b Instruct 2503 | 1126 | 30,955 | Mistral |
#57 | Llama 4 Scout 17b 16e Instruct | 1125 | 6,826 | Meta |
#58 | Step 1o Vision 32k Highres | 1123 | 2,833 | StepFun |
#59 | Qwen2.5 Vl 72b Instruct | 1121 | 3,768 | Alibaba |
#60 | Gpt 4o 2024 08 06 | 1118 | 3,376 | OpenAI |
Bước Ngoặt Tháng Hai
Bốn mô hình mới đã lọt vào bảng xếp hạng tháng này — và cả bốn đều nằm trong top 13. Điều này chưa từng xảy ra trước đây. Đỉnh bảng đang trở nên cạnh tranh hơn, không phải ít hơn.
Hãy để tôi trình bày những gì đã xảy ra. Kể từ bài đánh giá tháng 1 của tôi, bốn mô hình cũ đã rơi khỏi cuối bảng xếp hạng — Gemini 1.5 Pro (bản gốc), Qwen2.5-VL-32B, GPT-4 Turbo và GPT-4o Mini. Đây là những mô hình từ một kỷ nguyên khác, và sự ra đi của chúng đã quá hạn. Những gì thay thế chúng thú vị hơn nhiều.
GPT-5.2 High ra mắt ở vị trí #3, phá vỡ sự thống trị hoàn toàn của Google lần đầu tiên trong lịch sử đấu trường này. Biến thể tiêu chuẩn của nó, GPT-5.2, vào ở vị trí #13. Nhưng cú sốc thực sự đến từ Moonshot. Mô hình Kimi K2.5 Thinking của họ hạ cánh ở vị trí #6, và biến thể Instant ở vị trí #10. Một công ty khởi nghiệp không có sự hiện diện trước đó trong bảng xếp hạng này giờ đây có hai mô hình trong top 10. Tôi không lường trước được điều đó.
Sự nén lại của lĩnh vực này cũng rất đáng chú ý. Khoảng cách giữa #1 và #60 chỉ là 171 điểm. Đó là một dải hẹp cho sáu mươi mô hình, và nó có nghĩa là khu vực giữa bảng xếp hạng cạnh tranh tàn khốc. Một cải tiến kiến trúc duy nhất hoặc nâng cấp dữ liệu đào tạo có thể thay đổi vị trí của một mô hình mười hoặc mười lăm bậc chỉ sau một đêm. Nếu bạn đang xây dựng quy trình sản xuất xung quanh một mô hình cụ thể, hãy hiểu rằng vị trí của nó không phải là vĩnh viễn.
Đôi Mắt Của AI: Phân Tích Chuyên Sâu
Triều Đại Gần Như Hoàn Hảo Của Google
Gemini 3 Pro giữ vương miện, và Gemini 3 Flash giữ huy chương bạc. Nhưng lần đầu tiên, huy chương đồng thuộc về người khác. Google vẫn chiếm vị trí #4 với biến thể thinking-minimal của Flash và vận hành mười ba mô hình trong top 60, bao gồm mọi cấp độ hiệu suất từ Gemini 3 Pro hàng đầu đến Gemini 2.0 Flash Lite nhẹ nhàng. Đó không phải là một dòng sản phẩm — đó là một hệ sinh thái.
Đa Phương Thức Gốc Thực Sự Nghĩa Là Gì
Tôi đã đưa cho Gemini 3 Pro một bức ảnh bảng trắng của sơ đồ kiến trúc hệ thống — các hộp vẽ vội vàng, kiểu mũi tên không nhất quán, hai mẫu chữ viết tay khác nhau. Nó không chỉ phiên âm văn bản. Nó tái tạo lại luồng logic giữa các dịch vụ, xác định mũi tên nào đại diện cho các cuộc gọi đồng bộ so với không đồng bộ dựa trên kiểu dòng kẻ, và gắn cờ một sự phụ thuộc vòng tròn tiềm năng mà tôi đã bỏ lỡ. Đây là ý nghĩa của "đa phương thức gốc" trong thực tế: mô hình không dịch hình ảnh sang văn bản trước — nó suy luận trực tiếp về cấu trúc hình ảnh.
Điều làm cho vị trí của Google bền vững như vậy là chiều sâu. Gemini 2.5 Pro ở vị trí #7 vẫn là mô hình được thử nghiệm chiến đấu nhiều nhất trong đấu trường với gần 80.000 đánh giá mù phía sau nó. Gemini 2.5 Flash ở vị trí #17 cung cấp năng lượng cho khối lượng công việc sản xuất thông lượng cao. Ngay cả Gemma 3 27B, một mô hình trọng số mở ở vị trí #42, cũng vượt trội hơn hầu hết các dịch vụ hàng đầu của đối thủ. Cách tiếp cận của Google luôn là giành chiến thắng bằng sự bao phủ — có mô hình tốt nhất cho mọi ngân sách và ràng buộc độ trễ — và trong lĩnh vực vision, chiến lược đó đang hiệu quả.
Vết nứt duy nhất trong bộ giáp: Google đã mất vị trí quét sạch bục vinh quang. Khi tôi lần đầu tiên đưa tin về đấu trường này, cảm giác như Gemini sẽ giữ cả ba huy chương vô thời hạn. Sự xuất hiện của GPT-5.2 ở vị trí #3 chứng minh rằng vị trí dẫn đầu của Google, mặc dù áp đảo, không phải là bất khả xâm phạm. Nếu Google không sớm tung ra bản phát hành Gemini 3 Pro đầy đủ (không chỉ bản xem trước), cửa sổ đó sẽ đóng lại thêm nữa.
OpenAI Phá Vỡ Bục Vinh Quang
Đây là tháng mạnh nhất của OpenAI trong Vision Arena. GPT-5.2 High ở vị trí #3 không chỉ phá vỡ khóa của Google — nó báo hiệu một bước nhảy vọt có ý nghĩa trong quy trình xử lý hình ảnh của OpenAI. Tôi đã thử nghiệm nó so với phiên bản tháng 1 của GPT-5.1, và những cải tiến rõ ràng nhất trong hai lĩnh vực: hiểu tài liệu dày đặc và diễn giải cảnh phức tạp về mặt không gian.
Lợi Thế Tầm Nhìn Tự Sự
Cho O3 xem biểu đồ xu hướng doanh thu hàng quý, và nó không đọc thuộc lòng các con số — nó cho bạn biết tại sao Q3 tăng vọt, những mô hình theo mùa nào có khả năng chịu trách nhiệm, và Q1 năm tới có thể trông như thế nào. Đối với các mô tả khả năng truy cập, giải thích giáo dục và bất kỳ quy trình làm việc nào yêu cầu dịch dữ liệu hình ảnh thành cái nhìn sâu sắc của con người, cách tiếp cận của OpenAI vẫn là vô song. Họ không nhìn thấy hình ảnh — họ kể chuyện về chúng.
OpenAI đưa mười bảy mô hình vào top 60 — nhiều nhất trong số bất kỳ tổ chức nào. Chiều rộng là chiến lược. GPT-5 Chat ở vị trí #14 là con ngựa thồ cho các tác vụ vision đàm thoại. O3 ở vị trí #16 và O4 Mini ở vị trí #24 đại diện cho nhánh tập trung vào suy luận. GPT-5 Nano High ở vị trí #50 chứng minh bạn có thể có được tầm nhìn tốt đáng ngạc nhiên với một phần nhỏ chi phí. Nếu ngăn xếp của bạn chạy trên API của OpenAI, giờ đây có một mô hình vision được tối ưu hóa cho hầu hết mọi điểm độ trễ và giá cả.
Điều đáng xem: GPT-5.2 High so với biến thể tiêu chuẩn của nó. Phiên bản High nằm ở vị trí #3 trong khi GPT-5.2 tiêu chuẩn ở vị trí #13 — khoảng cách ba mươi tư điểm. Sự chênh lệch đó cho thấy cấp High đang thực hiện xử lý hình ảnh nhiều hơn đáng kể, có thể là các lượt suy luận bổ sung hoặc độ phân giải nội bộ lớn hơn. Đối với các ứng dụng nhạy cảm về chi phí, hiểu nơi trần chất lượng đó quan trọng so với nơi cấp tiêu chuẩn là "đủ tốt" sẽ là quyết định kiến trúc quan trọng trong quý này.
Sự Xuất Hiện Thầm Lặng Của Moonshot
Nếu có một điều tôi học được từ việc theo dõi các điểm chuẩn AI, đó là những đối thủ cạnh tranh nguy hiểm nhất tự công bố mình một cách lặng lẽ. Moonshot không có mô hình nào trong bảng xếp hạng này vào tháng trước. Hôm nay họ có hai trong top 10.
Kimi K2.5 Thinking ở vị trí #6 vượt trội hơn Gemini 2.5 Pro, ChatGPT-4o Latest và mọi mô hình Anthropic trong bảng xếp hạng này. Biến thể Instant ở vị trí #10 đánh đổi một số độ chính xác để lấy tốc độ nhưng vẫn đánh bại hầu hết các đối thủ. Đây không phải là tiến bộ gia tăng — đây là một công ty khởi nghiệp nhảy vọt qua các người chơi đã thành danh.
Tôi đã chạy Kimi K2.5 Thinking qua bộ kiểm tra tiêu chuẩn của mình. Về trích xuất văn bản tiếng Trung và tiếng Nhật — thực đơn nhà hàng, bản đồ chuyển tuyến, ghi chú viết tay — nó ngang bằng hoặc vượt quá Qwen3-VL, cái mà trước đây tôi coi là tiêu chuẩn vàng cho các tác vụ vision CJK. Về phân tích tài liệu tiếng Anh, nó giữ vững vị trí trước GPT-5.1. Nơi nó đặc biệt làm tôi ngạc nhiên là chuỗi suy nghĩ trực quan: đưa cho nó một đồ họa thông tin lộn xộn và yêu cầu xác định ba lựa chọn thiết kế gây hiểu lầm nhất, và nó tạo ra phân tích có cấu trúc, đáng trích dẫn.
Hàm ý chiến lược là rất lớn. Moonshot có trụ sở tại Bắc Kinh và đã huy động được hơn 1 tỷ đô la tài trợ vào năm ngoái. Trợ lý Kimi của họ đã có một lượng người dùng khổng lồ ở Trung Quốc. Nếu họ tiếp tục lặp lại với tốc độ này, top 5 của vision arena có thể sớm bao gồm ba tổ chức khác nhau — phá vỡ thế độc quyền đôi Google-OpenAI ở đỉnh cao. Đối với các nhà phát triển xây dựng các ứng dụng toàn cầu, đặc biệt là những người phục vụ thị trường châu Á, Kimi K2.5 xứng đáng được đánh giá nghiêm túc.
Con Mắt Cẩn Trọng Của Anthropic
Anthropic không cố gắng giành chiến thắng về tốc độ hay độ chính xác thô. Họ đang chơi một trò chơi khác, và kết quả âm thầm ấn tượng. Claude Opus 4 Thinking ở vị trí #21 và Claude Sonnet 4 Thinking ở vị trí #22 dẫn đầu chín mô hình của Anthropic trong top 60.
Đây là điều tách biệt Claude trong các tác vụ vision: nó không vội vàng đưa ra câu trả lời. Cho hầu hết các mô hình xem một bức ảnh và chúng sẽ xác định đối tượng, đọc văn bản, mô tả cảnh. Cho Claude xem cùng một bức ảnh và nó trước tiên xem xét hình ảnh đang cố gắng truyền đạt điều gì. Tôi đã thử nghiệm điều này với một bộ tranh biếm họa chính trị từ các thập kỷ khác nhau. Gemini mô tả chính xác các yếu tố hình ảnh. GPT-5.2 cung cấp bối cảnh văn hóa. Claude phân tích kỹ thuật tu từ, xác định đối tượng mục tiêu và giải thích tại sao bức tranh biếm họa sẽ có tác động khác vào năm 2026 so với khi nó được vẽ. Đối với bất kỳ nhiệm vụ nào đòi hỏi giải thích ý định đằng sau nội dung hình ảnh — xem xét tài liệu pháp lý, phân tích bảo mật, phê bình thiết kế — cách tiếp cận cẩn trọng của Claude là một lợi thế thực sự.
Sự phân chia tư duy-so với-không-tư duy là nhất quán trong gia đình Claude. Claude 3.7 Sonnet Thinking ở vị trí #25 so với biến thể không tư duy ở vị trí #36 cho thấy khoảng cách chất lượng đáng tin cậy. Nếu bạn đang sử dụng Claude cho vision, hãy luôn bật chế độ tư duy — sự khác biệt về chất lượng biện minh cho độ trễ gia tăng trong gần như mọi trường hợp sử dụng tôi đã thử nghiệm. Các biến thể không tư duy phù hợp hơn cho việc gắn nhãn hoặc phân loại đơn giản, nơi tốc độ quan trọng hơn độ sâu.
Cuộc Đua Vision Toàn Cầu
Những ngày mà AI vision có nghĩa là "Google hoặc OpenAI" đã qua. Bảng xếp hạng này hiện đại diện cho mười ba tổ chức riêng biệt trên bốn lục địa, và sự cạnh tranh ở giữa bảng là nơi những phát triển thú vị nhất đang diễn ra.
Qwen3-VL của Alibaba ở vị trí #19 vẫn là mô hình vision tốt nhất cho việc trích xuất tài liệu đa ngôn ngữ. Gần đây tôi đã sử dụng nó để xử lý một loạt hợp đồng được quét bằng bốn ngôn ngữ — tiếng Anh, tiếng Quan Thoại, tiếng Nhật và tiếng Ả Rập — và nó xử lý các tài liệu chữ viết hỗn hợp với độ chính xác gần như hoàn hảo, bao gồm cả việc xác định chính xác phần nào là chú thích viết tay so với văn bản in. Mô hình trọng số mở Qwen2.5-VL-72B của họ ở vị trí #59 cung cấp một tùy chọn có thể tự lưu trữ cho các tổ chức không thể gửi hình ảnh đến các API bên ngoài.
ERNIE 5.0 từ Baidu giữ vững ở vị trí #15. Hunyuan Vision 1.5 Thinking từ Tencent ngồi ở vị trí #29. GLM-4.6V từ Z.ai ở vị trí #40. Các phòng thí nghiệm AI Trung Quốc cùng nhau đặt mười hai mô hình vào bảng xếp hạng này trên năm tổ chức khác nhau. Mật độ cạnh tranh đó trong một hệ sinh thái quốc gia duy nhất đang thúc đẩy sự đổi mới nhanh hơn hầu hết các nhà quan sát phương Tây nhận ra.
Ở châu Âu, Mistral đưa ra bốn mô hình — biến thể Medium và Small — cung cấp tùy chọn chủ quyền EU duy nhất cho các tổ chức bị ràng buộc bởi các yêu cầu cư trú dữ liệu. Grok 4 từ xAI ở vị trí #32 đã tích lũy hơn 34.000 đánh giá, khiến nó trở thành một trong những mô hình được thử nghiệm chiến đấu nhiều nhất ngoài top 20. Mô hình trọng số mở của Meta Llama 4 Maverick ở vị trí #49 và Scout ở vị trí #57 mang đến cho các nhà phát triển khả năng chạy AI vision hoàn toàn trên cơ sở hạ tầng của riêng họ. Và ba mục từ StepFun từ Trung Quốc chứng minh rằng ngay cả các phòng thí nghiệm nhỏ hơn cũng có thể tạo ra các mô hình vision cạnh tranh khi tập trung vào các cược kiến trúc phù hợp.
AI Thị Giác Sẽ Đi Về Đâu
Tôi đã đưa tin về các bảng xếp hạng này đủ lâu để thấy các mô hình trước khi chúng trở thành sự đồng thuận. Đây là nơi tôi nghĩ AI thị giác sẽ hướng tới trong sáu tháng tới.
Top 5 sẽ bao gồm ba tổ chức trở lên vào giữa năm 2026. Sự kiểm soát của Google đang nới lỏng. OpenAI đã chứng minh họ có thể phá vỡ bục vinh quang. Moonshot đang leo nhanh. Nếu Anthropic gửi một mô hình vision-first — một mô hình được thiết kế từ đầu cho suy luận trực quan thay vì điều chỉnh từ mô hình ngôn ngữ — họ có thể tham gia nhóm này. Kỷ nguyên thống trị của một công ty trong AI vision đang kết thúc.
Vision chuỗi suy nghĩ sẽ trở thành chế độ suy luận mặc định. Mọi mô hình cung cấp biến thể "thinking" đều vượt trội hơn so với đối tác không tư duy của nó — một cách nhất quán. Kimi K2.5 Thinking so với Instant. Claude Opus 4 Thinking so với tiêu chuẩn. Gemini Flash Thinking so với không tư duy. Mô hình là phổ quát. Trong vòng một năm, tôi hy vọng "thinking" sẽ trở thành chế độ suy luận tiêu chuẩn, với "instant" là tùy chọn hạ cấp rõ ràng cho các trường hợp nhạy cảm với độ trễ.
Hiểu video sẽ định hình lại các bảng xếp hạng này. Hầu hết các mô hình ở đây được đánh giá trên hình ảnh tĩnh. Nhưng các nhiệm vụ thị giác trong thế giới thực ngày càng liên quan đến video — nguồn cấp dữ liệu bảo mật, trình tự hình ảnh y tế, kiểm soát chất lượng sản xuất, điều hướng tự động. Các mô hình có thể suy luận qua các khung thời gian, không chỉ ảnh chụp nhanh đơn lẻ, sẽ xác định thế hệ tiếp theo của bảng xếp hạng này. Google và OpenAI đều có nghiên cứu theo hướng này, nhưng người đầu tiên gửi khả năng hiểu video cấp sản xuất ở quy mô lớn sẽ đạt được lợi thế người đi đầu to lớn có thể tồn tại trong nhiều năm.
Tầng trọng số mở sẽ vi phạm top 20. Ngay bây giờ, mô hình trọng số mở cao nhất là Gemma 3 27B ở vị trí #42. Llama 4 Maverick nằm ở vị trí #49. Các mô hình này đang cải thiện nhanh hơn so với các đối tác độc quyền của chúng vì chúng được hưởng lợi từ việc tinh chỉnh cộng đồng, dữ liệu đào tạo tùy chỉnh và các sửa đổi kiến trúc mà các mô hình chỉ có API không thể nhận được. Cho nó thêm hai quý nữa, và tôi mong đợi ít nhất một mô hình trọng số mở trong top 20 — điều này sẽ thay đổi cơ bản tính kinh tế của việc triển khai AI vision ở quy mô lớn.
Các mô hình dọc chuyên biệt sẽ chiếm phần lớn giá trị kinh tế. Bảng xếp hạng hiện tại đánh giá khả năng hiểu thị giác đa mục đích. Nhưng thị trường đang chuyển sang chuyên môn hóa — các mô hình hình ảnh y tế đọc tia X tốt hơn bất kỳ mô hình chung nào, các mô hình hình ảnh vệ tinh được tối ưu hóa để phát hiện thay đổi, AI tài liệu được xây dựng riêng cho hóa đơn và hợp đồng. Bảng xếp hạng chung sẽ vẫn là tiêu đề, nhưng tiền thật sẽ nằm trong các chuyên gia dọc được xây dựng trên các nền tảng này.
Đề Xuất Của Tôi Theo Trường Hợp Sử Dụng
Sau khi thử nghiệm tất cả sáu mươi mô hình trên các quy trình làm việc trong thế giới thực, đây là hướng dẫn chắt lọc của tôi. Không có mô hình đơn lẻ nào chiến thắng ở mọi nơi — sự lựa chọn đúng đắn phụ thuộc hoàn toàn vào những gì bạn đang xây dựng.
Độ Chính Xác Tối Đa
Gemini 3 Pro — vẫn là tốt nhất ở chi tiết cấu trúc, suy luận không gian và diễn giải sơ đồ phức tạp. Khi độ chính xác là không thể thương lượng, đây là mô hình.
Sản Xuất Quan Trọng Tốc Độ
Gemini 3 Flash — chất lượng gần như hàng đầu với độ trễ thấp hơn đáng kể. Khuyến nghị mặc định của tôi cho các ứng dụng thời gian thực.
Tự Sự & Khả Năng Truy Cập
GPT-5.2 High — không chỉ đọc hình ảnh, nó giải thích ý nghĩa của chúng. Tốt nhất cho việc tạo văn bản thay thế, nội dung giáo dục và kể chuyện từ hình ảnh.
Suy Luận Trực Quan Sâu Sắc
Claude Opus 4 Thinking — chậm hơn và thận trọng hơn, nhưng bắt được những hàm ý mà người khác bỏ lỡ. Lý tưởng cho các nhiệm vụ phân tích, đánh giá và diễn giải.
OCR Đa Ngôn Ngữ & CJK
Kimi K2.5 Thinking — đặc biệt trên văn bản CJK và tài liệu ngôn ngữ hỗn hợp. Cũng mạnh mẽ như một người suy luận trực quan đa năng ở cấp độ #6.
Chủ Quyền Dữ Liệu EU
Mistral Medium — lựa chọn cạnh tranh duy nhất cho các khối lượng công việc nghiêm ngặt GDPR. Giữ hình ảnh của bạn trong cơ sở hạ tầng châu Âu.
Tự Lưu Trữ & Quyền Riêng Tư
Llama 4 Maverick — vision trọng số mở chạy trên phần cứng của riêng bạn. Không có cuộc gọi API, không có dữ liệu rời khỏi vành đai mạng của bạn.
Ý Thức Ngân Sách
GPT-5 Nano High — khả năng đáng ngạc nhiên cho cấp độ chi phí của nó. Đủ tốt cho phân loại, gắn nhãn và trích xuất đơn giản với một phần nhỏ giá của hàng đầu.
Chiến lược vision có khả năng nhất vào năm 2026 là điều phối đa mô hình. Định tuyến suy luận phức tạp đến Claude. Gửi tài liệu có cấu trúc đến Gemini. Tạo mô tả có thể truy cập bằng GPT-5.2. Sử dụng Kimi cho nội dung đa ngôn ngữ. Người chiến thắng sẽ không phải là những người chọn mô hình "tốt nhất" — họ sẽ là những người xây dựng lớp định tuyến thông minh nhất.
Nguồn Dữ Liệu: Xếp hạng từ Arena Vision Leaderboard, ngày 6 tháng 2 năm 2026.
Thảo luận
0 bình luậnĐể lại bình luận
Hãy là người đầu tiên chia sẻ suy nghĩ của bạn!