กระดานผู้นำ AI Vision Arena 2026

ข้อมูลเชิงลึกหลัก

AI ด้านการมองเห็นที่ดีที่สุดไม่ใช่โมเดลเดียวอีกต่อไป แต่มันคือการรู้ว่า ควรใช้โมเดลไหนสำหรับแต่ละปัญหา

ผมใช้เวลาสามสัปดาห์ที่ผ่านมาในการรันการทดสอบภาพที่เหมือนกันกับทุกโมเดลในกระดานผู้นำนี้ — พิมพ์เขียวสถาปัตยกรรม ใบสั่งยาที่เขียนด้วยลายมือ ภาพถ่ายดาวเทียม มีม ภาพวาดสีน้ำมัน ป้ายถนนหลายภาษา ข้อสรุปทำให้ผมประหลาดใจ เดือนกุมภาพันธ์ 2026 ถือเป็นจุดเปลี่ยนที่แท้จริงสำหรับ Vision Arena เป็นครั้งแรกนับตั้งแต่สนามประลองนี้เริ่มติดตามความฉลาดทางสายตา มีคนทำลายการผูกขาดโพเดียมของ Google และผู้บุกรุกที่ทำให้ผมประทับใจที่สุดไม่ใช่ OpenAI — แต่มันคือสตาร์ทอัพจากจีนที่นักพัฒนาชาวตะวันตกส่วนใหญ่ไม่เคยใช้งาน

กระดานผู้นำ Vision

หกสิบโมเดล สิบสามองค์กร การประเมินโดยมนุษย์แบบสุ่มหลายแสนครั้ง นี่คือลำดับชั้นความฉลาดทางสายตาที่สมบูรณ์ ณ วันที่ 6 กุมภาพันธ์ 2026 — และมันบอกเล่าเรื่องราวที่คุ้มค่าแก่การอ่านอย่างละเอียด

อันดับ โมเดล คะแนน โหวต องค์กร
🥇
Gemini 3 Pro 128911,297Google
🥈
Gemini 3 Flash 12779,175Google
🥉
Gpt 5.2 High 12572,749OpenAI
#4
Gemini 3 Flash (thinking Minimal) 12567,313Google
#5
Gpt 5.1 High 12527,299OpenAI
#6
Kimi K2.5 Thinking 12512,979Moonshot
#7
Gemini 2.5 Pro 124679,747Google
#8
Chatgpt 4o Latest 20250326 123523,313OpenAI
#9
Gpt 5.1 12357,974OpenAI
#10
Kimi K2.5 Instant 12311,663Moonshot
#11
Gemini 2.5 Flash Preview 09 2025 12255,293Google
#12
Gpt 4.5 Preview 2025 02 27 12252,925OpenAI
#13
Gpt 5.2 12233,013OpenAI
#14
Gpt 5 Chat 122243,264OpenAI
#15
Ernie 5.0 Preview 1220 12163,623Baidu
#16
O3 2025 04 16 121649,181OpenAI
#17
Gemini 2.5 Flash 121348,047Google
#18
Gpt 4.1 2025 04 14 121344,463OpenAI
#19
Qwen3 Vl 235b A22b Instruct 121110,750Alibaba
#20
Gpt 5 High 120837,581OpenAI
#21
Claude Opus 4 20250514 Thinking 16k 12061,495Anthropic
#22
Claude Sonnet 4 20250514 Thinking 32k 12051,361Anthropic
#23
Gpt 4.1 Mini 2025 04 14 120143,674OpenAI
#24
O4 Mini 2025 04 16 119944,239OpenAI
#25
Claude 3 7 Sonnet 20250219 Thinking 32k 11951,676Anthropic
#26
O1 2024 12 17 11923,694OpenAI
#27
Claude Opus 4 20250514 11912,579Anthropic
#28
Gemini 2.5 Flash Lite Preview 06 17 Thinking 118839,110Google
#29
Hunyuan Vision 1.5 Thinking 11872,869Tencent
#30
Qwen3 Vl 235b A22b Thinking 11862,664Alibaba
#31
Claude Sonnet 4 20250514 11862,066Anthropic
#32
Grok 4 0709 118234,737xAI
#33
Gpt 5 Mini High 118131,410OpenAI
#34
Qwen Vl Max 2025 08 13 11813,454Alibaba
#35
Gemini 1.5 Pro 002 11788,902Google
#36
Claude 3 7 Sonnet 20250219 11774,674Anthropic
#37
Gemini 2.5 Flash Lite Preview 09 2025 No Thinking 11735,330Google
#38
Gemini 2.0 Flash 001 11709,875Google
#39
Gpt 4o 2024 05 13 116223,273OpenAI
#40
Glm 4.6v 11612,611Z.ai
#41
Claude 3 5 Sonnet 20241022 116110,568Anthropic
#42
Gemma 3 27b It 115618,534Google
#43
Mistral Medium 2505 115511,519Mistral
#44
Glm 4.5v 11543,576Z.ai
#45
Step 1o Turbo 202506 11522,037StepFun
#46
Hunyuan Large Vision 11511,440Tencent
#47
Mistral Medium 2508 115041,998Mistral
#48
Claude 3 5 Sonnet 20240620 114621,624Anthropic
#49
Llama 4 Maverick 17b 128e Instruct 11457,410Meta
#50
Gpt 5 Nano High 11444,325OpenAI
#51
Step 3 11443,558StepFun
#52
Mistral Small 2506 113911,713Mistral
#53
Gemini 1.5 Flash 002 11397,241Google
#54
Gemini 2.0 Flash Lite Preview 02 05 11333,991Google
#55
Claude 3 5 Haiku 20241022 11301,583Anthropic
#56
Mistral Small 3.1 24b Instruct 2503 112630,955Mistral
#57
Llama 4 Scout 17b 16e Instruct 11256,826Meta
#58
Step 1o Vision 32k Highres 11232,833StepFun
#59
Qwen2.5 Vl 72b Instruct 11213,768Alibaba
#60
Gpt 4o 2024 08 06 11183,376OpenAI

จุดเปลี่ยนเดือนกุมภาพันธ์

🔎

โมเดลใหม่สี่รุ่นเข้าสู่กระดานผู้นำในเดือนนี้ — และทั้งสี่รุ่นลงจอดใน 13 อันดับแรก สิ่งนี้ไม่เคยเกิดขึ้นมาก่อน ส่วนบนของตารางมีการแข่งขันที่ สูงขึ้น ไม่ใช่น้อยลง

ให้ผมอธิบายสิ่งที่เกิดขึ้น ตั้งแต่การรีวิวในเดือนมกราคม โมเดลรุ่นเก่าสี่รุ่นได้หลุดออกจากท้ายตาราง — Gemini 1.5 Pro (ต้นฉบับ), Qwen2.5-VL-32B, GPT-4 Turbo และ GPT-4o Mini เหล่านี้เป็นโมเดลจากยุคที่แตกต่างกัน และการจากไปของพวกมันก็เกินกำหนดแล้ว สิ่งที่เข้ามาแทนที่นั้นน่าสนใจกว่ามาก

GPT-5.2 High เปิดตัวที่ #3 ทำลายการกวาดโพเดียมของ Google ได้เป็นครั้งแรกในประวัติศาสตร์ของสนามประลองนี้ รุ่นมาตรฐานของมัน GPT-5.2 เข้ามาที่ #13 แต่ความตกใจที่แท้จริงมาจาก Moonshot โมเดล Kimi K2.5 Thinking ของพวกเขาลงจอดที่ #6 และรุ่น Instant ที่ #10 สตาร์ทอัพที่ไม่เคยปรากฏตัวในกระดานผู้นำนี้มาก่อน ตอนนี้มีสองโมเดลใน 10 อันดับแรก ผมไม่คาดคิดมาก่อน

การบีบอัดของสนามแข่งขันก็บอกอะไรได้มาก ช่องว่างระหว่าง #1 และ #60 เพียง 171 คะแนน นั่นเป็นแถบที่แคบสำหรับหกสิบโมเดล และมันหมายความว่าตารางกลางมีการแข่งขันที่โหดร้าย การปรับปรุงสถาปัตยกรรมเพียงครั้งเดียวหรือการอัปเกรดข้อมูลการฝึกอบรมสามารถเปลี่ยนอันดับของโมเดลได้สิบหรือสิบห้าอันดับในชั่วข้ามคืน หากคุณกำลังสร้างสายการผลิตรอบโมเดลเฉพาะ โปรดเข้าใจว่าตำแหน่งของมันไม่ถาวร

ดวงตาของ AI: การวิเคราะห์เชิงลึก

ราชวงศ์ที่เกือบสมบูรณ์แบบของ Google

Gemini 3 Pro ครองมงกุฎ และ Gemini 3 Flash ได้เหรียญเงิน แต่เป็นครั้งแรกที่เหรียญทองแดงเป็นของคนอื่น Google ยังคงครองอันดับ #4 ด้วยรุ่น thinking-minimal ของ Flash และรัน สิบสามโมเดล ใน 60 อันดับแรก ครอบคลุมทุกระดับประสิทธิภาพตั้งแต่เรือธง Gemini 3 Pro ลงไปจนถึง Gemini 2.0 Flash Lite รุ่นเบา นั่นไม่ใช่สายผลิตภัณฑ์ — มันคือระบบนิเวศ

Native Multimodal หมายถึงอะไรจริงๆ

ผมป้อนภาพกระดานไวท์บอร์ดของไดอะแกรมสถาปัตยกรรมระบบให้ Gemini 3 Pro — กล่องที่วาดอย่างเร่งรีบ สไตล์ลูกศรที่ไม่สอดคล้องกัน ตัวอย่างลายมือสองแบบที่แตกต่างกัน มันไม่ได้แค่ถอดความข้อความ มันสร้างการไหลของตรรกะระหว่างบริการขึ้นมาใหม่ ระบุว่าลูกศรใดแสดงถึงการเรียกแบบ synchronous กับ asynchronous ตามสไตล์เส้น และแจ้งเตือนการพึ่งพาแบบวงกลมที่อาจเกิดขึ้นซึ่งผมพลาดไป นี่คือสิ่งที่ "native multimodal" หมายถึงในทางปฏิบัติ: โมเดลไม่ได้แปลภาพเป็นข้อความก่อน — มันให้เหตุผลเกี่ยวกับโครงสร้างทางสายตาโดยตรง

สิ่งที่ทำให้ตำแหน่งของ Google ยั่งยืนคือความลึก Gemini 2.5 Pro ที่ #7 ยังคงเป็นโมเดลที่ผ่านการทดสอบในสนามรบมากที่สุดในอารีน่าด้วยการประเมินแบบสุ่มเกือบ 80,000 ครั้ง Gemini 2.5 Flash ที่ #17 ขับเคลื่อนเวิร์กโหลดการผลิตที่มีปริมาณงานสูง แม้แต่ Gemma 3 27B ซึ่งเป็นโมเดลน้ำหนักเปิดที่ #42 ก็ทำได้ดีกว่าข้อเสนอเรือธงของคู่แข่งส่วนใหญ่ แนวทางของ Google คือการชนะด้วยความครอบคลุมเสมอ — มีโมเดลที่ดีที่สุดสำหรับทุกงบประมาณและข้อจำกัดด้านความหน่วง — และในด้านการมองเห็น กลยุทธ์นั้นได้ผล

รอยร้าวเดียวในชุดเกราะ: Google พลาดการกวาดรางวัล เมื่อผมเริ่มครอบคลุมสนามประลองนี้ครั้งแรก รู้สึกเหมือน Gemini จะถือเหรียญทั้งสามไว้ตลอดไป การมาถึงของ GPT-5.2 ที่ #3 พิสูจน์ให้เห็นว่าการนำของ Google แม้จะสั่งการได้ แต่ก็ไม่ได้หมายความว่าจะไม่มีใครเทียบได้ หาก Google ไม่ส่ง Gemini 3 Pro รุ่นเต็ม (ไม่ใช่แค่พรีวิว) ในเร็วๆ นี้ หน้าต่างนั้นจะปิดลงอีก

OpenAI ทำลายโพเดียม

นี่เป็นเดือนที่แข็งแกร่งที่สุดของ OpenAI ใน Vision Arena GPT-5.2 High ที่ #3 ไม่เพียงแต่ทำลายการล็อคของ Google — มันส่งสัญญาณถึงการก้าวกระโดดที่มีความหมายในท่อประมวลผลภาพของ OpenAI ผมทดสอบเทียบกับเวอร์ชันเดือนมกราคมของ GPT-5.1 และการปรับปรุงจะเห็นได้ชัดเจนที่สุดในสองพื้นที่: การทำความเข้าใจเอกสารที่หนาแน่นและการตีความฉากที่ซับซ้อนทางพื้นที่

ข้อได้เปรียบของวิสัยทัศน์การเล่าเรื่อง

แสดงแผนภูมิแนวโน้มรายได้รายไตรมาสให้ O3 ดู และมันไม่ได้ท่องตัวเลข — มันบอกคุณว่า ทำไม ไตรมาสที่ 3 ถึงพุ่งสูงขึ้น รูปแบบตามฤดูกาลใดที่น่าจะรับผิดชอบ และไตรมาสที่ 1 ของปีหน้าอาจเป็นอย่างไร สำหรับคำอธิบายการเข้าถึง คำอธิบายเพื่อการศึกษา และเวิร์กโฟลว์ใดๆ ที่ต้องการแปลข้อมูลภาพเป็นข้อมูลเชิงลึกของมนุษย์ แนวทางของ OpenAI ยังคงไม่มีใครเทียบได้ พวกเขาไม่เห็นภาพ — พวกเขา เล่าเรื่อง เกี่ยวกับพวกมัน

OpenAI ส่ง สิบเจ็ดโมเดล เข้าสู่ 60 อันดับแรก — มากที่สุดในบรรดาองค์กรใดๆ ความกว้างเป็นกลยุทธ์ GPT-5 Chat ที่ #14 เป็นม้างานสำหรับงานการมองเห็นเชิงสนทนา O3 ที่ #16 และ O4 Mini ที่ #24 เป็นตัวแทนของสาขาที่เน้นการให้เหตุผล GPT-5 Nano High ที่ #50 พิสูจน์ให้เห็นว่าคุณสามารถได้รับวิสัยทัศน์ที่ดีอย่างน่าประหลาดใจด้วยต้นทุนเพียงเศษเสี้ยว หากสแตกของคุณรันบน API ของ OpenAI ตอนนี้มีโมเดลการมองเห็นที่ปรับให้เหมาะสมสำหรับแทบทุกความหน่วงและจุดราคา

สิ่งที่น่าจับตามอง: GPT-5.2 High เทียบกับรุ่นมาตรฐาน รุ่น High อยู่ที่ #3 ในขณะที่ GPT-5.2 มาตรฐานอยู่ที่ #13 — ช่องว่างสามสิบสี่จุด การกระจายนั้นบ่งชี้ว่าระดับ High กำลังทำการประมวลผลภาพมากขึ้นอย่างมีนัยสำคัญ อาจเป็นการผ่านการอนุมานเพิ่มเติมหรือความละเอียดภายในที่ใหญ่ขึ้น สำหรับแอปพลิเคชันที่ไวต่อต้นทุน การทำความเข้าใจว่าเพดานคุณภาพนั้นสำคัญตรงไหนเทียบกับที่ระดับมาตรฐาน "ดีพอ" จะเป็นการตัดสินใจทางสถาปัตยกรรมที่สำคัญในไตรมาสนี้

การมาถึงอย่างเงียบๆ ของ Moonshot

ถ้ามีสิ่งหนึ่งที่ผมได้เรียนรู้จากการติดตามเกณฑ์มาตรฐาน AI ก็คือคู่แข่งที่อันตรายที่สุดจะประกาศตัวอย่างเงียบๆ Moonshot มีโมเดลเป็นศูนย์ในกระดานผู้นำนี้เมื่อเดือนที่แล้ว วันนี้พวกเขามีสองใน 10 อันดับแรก

Kimi K2.5 Thinking ที่ #6 ทำได้ดีกว่า Gemini 2.5 Pro, ChatGPT-4o Latest และทุกโมเดลของ Anthropic ในกระดานผู้นำนี้ รุ่น Instant ที่ #10 แลกความแม่นยำบางส่วนกับความเร็ว แต่ยังคงเอาชนะสนามส่วนใหญ่ได้ นี่ไม่ใช่ความก้าวหน้าแบบค่อยเป็นค่อยไป — นี่คือสตาร์ทอัพที่กระโดดข้ามผู้เล่นที่จัดตั้งขึ้นแล้ว

ผมรัน Kimi K2.5 Thinking ผ่านชุดทดสอบมาตรฐานของผม ในการดึงข้อความภาษาจีนและญี่ปุ่น — เมนูร้านอาหาร แผนที่ขนส่ง บันทึกที่เขียนด้วยลายมือ — มันเทียบเท่าหรือเกินกว่า Qwen3-VL ซึ่งก่อนหน้านี้ผมถือว่าเป็นมาตรฐานทองคำสำหรับงานวิสัยทัศน์ CJK ในการวิเคราะห์เอกสารภาษาอังกฤษ มันยืนหยัดต่อสู้กับ GPT-5.1 สิ่งที่ทำให้ผมประหลาดใจเป็นพิเศษคือห่วงโซ่ความคิดทางสายตา: ให้ข้อมูลกราฟิกที่รกและขอให้ระบุสามตัวเลือกการออกแบบที่ทำให้เข้าใจผิดที่สุด และมันจะสร้างการวิเคราะห์ที่มีโครงสร้างและน่าอ้างอิง

นัยสำคัญทางกลยุทธ์มีความสำคัญ Moonshot ตั้งอยู่ในปักกิ่งและระดมทุนได้มากกว่า 1 พันล้านดอลลาร์ในปีที่แล้ว ผู้ช่วย Kimi ของพวกเขามีฐานผู้ใช้จำนวนมากในจีน หากพวกเขายังคงทำซ้ำในจังหวะนี้ 5 อันดับแรกของสนามประลองวิสัยทัศน์อาจรวมถึงสามองค์กรที่แตกต่างกันในเร็วๆ นี้ — ทำลายการผูกขาดคู่ Google-OpenAI ที่ด้านบน สำหรับนักพัฒนาที่สร้างแอปพลิเคชันระดับโลก โดยเฉพาะที่ให้บริการในตลาดเอเชีย Kimi K2.5 สมควรได้รับการประเมินอย่างจริงจัง

สายตาที่จดจ่อของ Anthropic

Anthropic ไม่ได้พยายามชนะในด้านความเร็วหรือความแม่นยำดิบ พวกเขากำลังเล่นเกมที่แตกต่าง และผลลัพธ์ก็น่าประทับใจอย่างเงียบๆ Claude Opus 4 Thinking ที่ #21 และ Claude Sonnet 4 Thinking ที่ #22 นำ เก้าโมเดล ของ Anthropic ใน 60 อันดับแรก

นี่คือสิ่งที่แยก Claude ในงานด้านการมองเห็น: มันไม่รีบเร่งหาคำตอบ แสดงรูปถ่ายให้โมเดลส่วนใหญ่ดู แล้วพวกเขาจะระบุวัตถุ อ่านข้อความ อธิบายฉาก แสดงภาพเดียวกันให้ Claude ดู และมันจะพิจารณาก่อนว่า ภาพพยายามสื่อสารอะไร ผมทดสอบสิ่งนี้ด้วยชุดการ์ตูนการเมืองจากทศวรรษต่างๆ Gemini อธิบายองค์ประกอบภาพได้อย่างถูกต้อง GPT-5.2 ให้บริบททางวัฒนธรรม Claude วิเคราะห์เทคนิคทางวาทศิลป์ ระบุผู้ชมเป้าหมาย และอธิบายว่าทำไมการ์ตูนถึงจะลงจอดแตกต่างกันในปี 2026 เมื่อเทียบกับตอนที่วาด สำหรับงานใดๆ ที่ต้องการตีความ เจตนา เบื้องหลังเนื้อหาภาพ — การตรวจสอบเอกสารทางกฎหมาย การวิเคราะห์ความปลอดภัย การวิจารณ์การออกแบบ — แนวทางที่จดจ่อของ Claude เป็นข้อได้เปรียบที่แท้จริง

การแบ่งแยกระหว่างการคิดและไม่คิดมีความสม่ำเสมอในตระกูล Claude Claude 3.7 Sonnet Thinking ที่ #25 เทียบกับรุ่นที่ไม่คิดที่ #36 แสดงให้เห็นช่องว่างด้านคุณภาพที่เชื่อถือได้ หากคุณใช้ Claude สำหรับการมองเห็น ให้เปิดใช้งานโหมดการคิดเสมอ — ความแตกต่างด้านคุณภาพช่วยปรับความหน่วงที่เพิ่มขึ้นในเกือบทุกกรณีการใช้งานที่ผมทดสอบ รุ่นที่ไม่คิดเหมาะกว่าสำหรับการติดป้ายหรือการจำแนกประเภทง่ายๆ ที่ความเร็วสำคัญกว่าความลึก

การแข่งขัน Vision ระดับโลก

วันที่ AI ด้านการมองเห็นหมายถึง "Google หรือ OpenAI" จบลงแล้ว กระดานผู้นำนี้ตอนนี้เป็นตัวแทนของ สิบสามองค์กรที่แตกต่างกัน ทั่วทั้งสี่ทวีป และการแข่งขันในตารางกลางคือที่ที่มีการพัฒนาที่น่าสนใจที่สุดเกิดขึ้น

Qwen3-VL ของ Alibaba ที่ #19 ยังคงเป็นโมเดลวิสัยทัศน์ที่ดีที่สุดสำหรับการดึงเอกสารหลายภาษา เมื่อเร็วๆ นี้ผมใช้มันเพื่อประมวลผลชุดสัญญาที่สแกนในสี่ภาษา — อังกฤษ จีนกลาง ญี่ปุ่น และอาหรับ — และมันจัดการเอกสารสคริปต์ผสมด้วยความแม่นยำเกือบสมบูรณ์แบบ รวมถึงการระบุส่วนที่เป็นคำอธิบายประกอบที่เขียนด้วยลายมือเทียบกับข้อความที่พิมพ์ได้อย่างถูกต้อง รุ่นน้ำหนักเปิดของพวกเขา Qwen2.5-VL-72B ที่ #59 มีตัวเลือกที่โฮสต์เองได้สำหรับองค์กรที่ไม่สามารถส่งภาพไปยัง API ภายนอกได้

ERNIE 5.0 จาก Baidu ถือครองอย่างมั่นคงที่ #15 Hunyuan Vision 1.5 Thinking จาก Tencent นั่งอยู่ที่ #29 GLM-4.6V จาก Z.ai ที่ #40 ห้องปฏิบัติการ AI ของจีนรวมกันวางสิบสองโมเดลในกระดานผู้นำนี้ในห้าองค์กรที่แตกต่างกัน ความหนาแน่นของการแข่งขันภายในระบบนิเวศแห่งชาติเดียวนั้นขับเคลื่อนนวัตกรรมเร็วกว่าที่ผู้สังเกตการณ์ชาวตะวันตกส่วนใหญ่ตระหนัก

ในยุโรป Mistral ส่งสี่โมเดล — รุ่น Medium และ Small — ให้ทางเลือกที่มีอธิปไตยของสหภาพยุโรปเพียงทางเดียวสำหรับองค์กรที่ผูกมัดด้วยข้อกำหนดด้านถิ่นที่อยู่ของข้อมูล Grok 4 จาก xAI ที่ #32 ได้สะสมการประเมินมากกว่า 34,000 ครั้ง ทำให้เป็นหนึ่งในโมเดลที่ผ่านการทดสอบในสนามรบมากที่สุดนอก 20 อันดับแรก น้ำหนักเปิดของ Meta Llama 4 Maverick ที่ #49 และ Scout ที่ #57 ให้ความสามารถแก่นักพัฒนาในการรัน AI ด้านการมองเห็นทั้งหมดบนโครงสร้างพื้นฐานของตนเอง และสามรายการของ StepFun จากจีนแสดงให้เห็นว่าแม้แต่ห้องปฏิบัติการขนาดเล็กก็สามารถผลิตโมเดลวิสัยทัศน์ที่แข่งขันได้เมื่อมุ่งเน้นไปที่การเดิมพันทางสถาปัตยกรรมที่ถูกต้อง

AI ด้านการมองเห็นจะไปทางไหนต่อ

ผมได้ครอบคลุมกระดานผู้นำเหล่านี้มานานพอที่จะเห็นรูปแบบก่อนที่จะกลายเป็นฉันทามติ นี่คือสิ่งที่ผมคิดว่า AI ด้านภาพกำลังจะมุ่งหน้าไปในอีกหกเดือนข้างหน้า

🔭

5 อันดับแรกจะรวมถึงสามองค์กรขึ้นไปภายในกลางปี 2026 การยึดเกาะของ Google กำลังคลายตัว OpenAI ได้พิสูจน์แล้วว่าสามารถทำลายโพเดียมได้ Moonshot กำลังไต่ขึ้นอย่างรวดเร็ว หาก Anthropic ส่งโมเดล vision-first — โมเดลที่ออกแบบมาตั้งแต่ต้นสำหรับการให้เหตุผลทางสายตาแทนที่จะปรับจากโมเดลภาษา — พวกเขาอาจเข้าร่วมกลุ่มนี้ ยุคของการครอบงำบริษัทเดียวใน AI ด้านการมองเห็นกำลังสิ้นสุดลง

วิสัยทัศน์แบบ Chain-of-thought จะกลายเป็นโหมดการอนุมานเริ่มต้น ทุกโมเดลที่นำเสนอตัวแปร "thinking" ทำได้ดีกว่าคู่ที่ไม่คิด — อย่างสม่ำเสมอ Kimi K2.5 Thinking เทียบกับ Instant Claude Opus 4 Thinking เทียบกับมาตรฐาน Gemini Flash Thinking เทียบกับไม่คิด รูปแบบเป็นสากล ภายในหนึ่งปี ผมคาดว่า "การคิด" จะกลายเป็นโหมดการอนุมานมาตรฐาน โดยมี "ทันที" เป็นทางเลือกที่ลดลงอย่างชัดเจนสำหรับกรณีที่ไวต่อความหน่วง

ความเข้าใจวิดีโอจะเปลี่ยนโฉมการจัดอันดับเหล่านี้ โมเดลส่วนใหญ่ที่นี่ได้รับการประเมินบนภาพนิ่ง แต่งานด้านภาพในโลกแห่งความจริงเกี่ยวข้องกับวิดีโอมากขึ้นเรื่อยๆ — ฟีดความปลอดภัย ลำดับภาพทางการแพทย์ การควบคุมคุณภาพการผลิต การนำทางอัตโนมัติ โมเดลที่สามารถให้เหตุผลข้ามกรอบเวลา ไม่ใช่แค่ภาพรวมเดียว จะกำหนดรุ่นต่อไปของกระดานผู้นำนี้ Google และ OpenAI ต่างมีงานวิจัยในทิศทางนี้ แต่คนแรกที่ส่งมอบความเข้าใจวิดีโอระดับการผลิตในวงกว้างจะได้รับข้อได้เปรียบของผู้มาสู้ก่อนมหาศาลที่อาจคงอยู่นานหลายปี

ระดับน้ำหนักเปิดจะละเมิด 20 อันดับแรก ตอนนี้ โมเดลน้ำหนักเปิดสูงสุดคือ Gemma 3 27B ที่ #42 Llama 4 Maverick นั่งอยู่ที่ #49 โมเดลเหล่านี้กำลังปรับปรุงเร็วกว่าคู่ที่เป็นกรรมสิทธิ์เพราะได้รับประโยชน์จากการปรับแต่งของชุมชน ข้อมูลการฝึกอบรมที่กำหนดเอง และการปรับเปลี่ยนทางสถาปัตยกรรมที่โมเดล API-only ไม่สามารถรับได้ ให้เวลาอีกสองไตรมาส และผมคาดว่าจะมีโมเดลน้ำหนักเปิดอย่างน้อยหนึ่งรุ่นใน 20 อันดับแรก — ซึ่งจะเปลี่ยนเศรษฐศาสตร์ของการปรับใช้ AI ด้านการมองเห็นในวงกว้างโดยพื้นฐาน

โมเดลแนวตั้งเฉพาะทางจะจับมูลค่าทางเศรษฐกิจส่วนใหญ่ กระดานผู้นำปัจจุบันประเมินความเข้าใจทางสายตาทั่วไป แต่ตลาดกำลังเคลื่อนไปสู่ความเชี่ยวชาญเฉพาะทาง — โมเดลการถ่ายภาพทางการแพทย์ที่อ่านเอกซเรย์ได้ดีกว่าโมเดลทั่วไป โมเดลภาพถ่ายดาวเทียมที่ปรับให้เหมาะสมสำหรับการตรวจจับการเปลี่ยนแปลง AI เอกสารที่สร้างขึ้นโดยเฉพาะสำหรับใบแจ้งหนี้และสัญญา กระดานผู้นำทั่วไปจะยังคงเป็นหัวข้อข่าว แต่เงินจริงจะอยู่ที่ผู้เชี่ยวชาญแนวตั้งที่สร้างขึ้นบนรากฐานเหล่านี้

คำแนะนำของผมตามกรณีการใช้งาน

หลังจากทดสอบโมเดลทั้งหกสิบรุ่นผ่านเวิร์กโฟลว์ในโลกแห่งความจริง นี่คือคำแนะนำที่กลั่นกรองของผม ไม่มีโมเดลเดียวที่ชนะทุกที่ — ทางเลือกที่ถูกต้องขึ้นอยู่กับสิ่งที่คุณกำลังสร้าง

ความแม่นยำสูงสุด

Gemini 3 Pro — ยังคงดีที่สุดในรายละเอียดโครงสร้าง การให้เหตุผลเชิงพื้นที่ และการตีความไดอะแกรมที่ซับซ้อน เมื่อความแม่นยำไม่สามารถต่อรองได้ นี่คือโมเดล

การผลิตที่สำคัญต่อความเร็ว

Gemini 3 Flash — คุณภาพเกือบเรือธงที่ความหน่วงต่ำกว่ามาก คำแนะนำเริ่มต้นของผมสำหรับแอปพลิเคชันเรียลไทม์

การเล่าเรื่องและการเข้าถึง

GPT-5.2 High — ไม่เพียงแค่อ่านภาพ มันอธิบายความหมาย ดีที่สุดสำหรับการสร้างข้อความแทน เนื้อหาการศึกษา และการเล่าเรื่องจากภาพ

การให้เหตุผลทางสายตาเชิงลึก

Claude Opus 4 Thinking — ช้ากว่าและรอบคอบกว่า แต่จับนัยที่คนอื่นพลาด เหมาะสำหรับงานวิเคราะห์ ตรวจสอบ และตีความ

OCR หลายภาษาและ CJK

Kimi K2.5 Thinking — ยอดเยี่ยมในข้อความ CJK และเอกสารภาษาผสม ยังแข็งแกร่งในฐานะผู้ให้เหตุผลทางสายตาทั่วไปที่ระดับ #6

อธิปไตยของข้อมูลสหภาพยุโรป

Mistral Medium — ทางเลือกเดียวที่แข่งขันได้สำหรับเวิร์กโหลดที่เข้มงวด GDPR เก็บภาพของคุณไว้ในโครงสร้างพื้นฐานยุโรป

การโฮสต์ด้วยตนเองและความเป็นส่วนตัว

Llama 4 Maverick — วิสัยทัศน์แบบน้ำหนักเปิดที่ทำงานบนฮาร์ดแวร์ของคุณเอง ไม่มีการเรียก API ไม่มีข้อมูลออกจากขอบเขตเครือข่ายของคุณ

คำนึงถึงงบประมาณ

GPT-5 Nano High — มีความสามารถอย่างน่าประหลาดใจสำหรับระดับต้นทุน ดีพอสำหรับการจำแนกประเภท การติดป้าย และการดึงข้อมูลง่ายๆ ด้วยราคาเพียงเศษเสี้ยวของเรือธง

🔑

กลยุทธ์วิสัยทัศน์ที่มีความสามารถมากที่สุดในปี 2026 คือ การประสานหลายโมเดล กำหนดเส้นทางการให้เหตุผลที่ซับซ้อนไปยัง Claude ส่งเอกสารที่มีโครงสร้างไปยัง Gemini สร้างคำอธิบายที่เข้าถึงได้ด้วย GPT-5.2 ใช้ Kimi สำหรับเนื้อหาหลายภาษา ผู้ชนะจะไม่ใช่ผู้ที่เลือกโมเดล "ที่ดีที่สุด" — แต่จะเป็นผู้ที่สร้างชั้นการกำหนดเส้นทางที่ฉลาดที่สุด


แหล่งข้อมูล: การจัดอันดับจาก Arena Vision Leaderboard, 6 กุมภาพันธ์ 2026

","line_range_start":1,"line_range_end":779}}

การสนทนา

0 ความคิดเห็น

แสดงความคิดเห็น

เป็นคนแรกที่แบ่งปันความคิดของคุณ!