กระดานผู้นำ AI Vision Arena 2026

ข้อมูลเชิงลึกหลัก

AI ด้านการมองเห็นที่ดีที่สุดไม่ใช่โมเดลเดียวอีกต่อไป แต่มันคือการรู้ว่า ควรใช้โมเดลไหนสำหรับแต่ละปัญหา

ผมใช้เวลาสามสัปดาห์ที่ผ่านมาในการรันการทดสอบภาพที่เหมือนกันกับทุกโมเดลในกระดานผู้นำนี้ — พิมพ์เขียวสถาปัตยกรรม ใบสั่งยาที่เขียนด้วยลายมือ ภาพถ่ายดาวเทียม มีม ภาพวาดสีน้ำมัน ป้ายถนนหลายภาษา ข้อสรุปทำให้ผมประหลาดใจ เดือนกุมภาพันธ์ 2026 ถือเป็นจุดเปลี่ยนที่แท้จริงสำหรับ Vision Arena เป็นครั้งแรกนับตั้งแต่สนามประลองนี้เริ่มติดตามความฉลาดทางสายตา มีคนทำลายการผูกขาดโพเดียมของ Google และผู้บุกรุกที่ทำให้ผมประทับใจที่สุดไม่ใช่ OpenAI — แต่มันคือสตาร์ทอัพจากจีนที่นักพัฒนาชาวตะวันตกส่วนใหญ่ไม่เคยใช้งาน

กระดานผู้นำ Vision

หกสิบโมเดล สิบสามองค์กร การประเมินโดยมนุษย์แบบสุ่มหลายแสนครั้ง นี่คือลำดับชั้นความฉลาดทางสายตาที่สมบูรณ์ ณ วันที่ 6 กุมภาพันธ์ 2026 — และมันบอกเล่าเรื่องราวที่คุ้มค่าแก่การอ่านอย่างละเอียด

อันดับ	โมเดล	คะแนน	โหวต	องค์กร
🥇	Gemini 3 Pro	1289	11,297	Google
🥈	Gemini 3 Flash	1277	9,175	Google
🥉	Gpt 5.2 High	1257	2,749	OpenAI
#4	Gemini 3 Flash (thinking Minimal)	1256	7,313	Google
#5	Gpt 5.1 High	1252	7,299	OpenAI
#6	Kimi K2.5 Thinking	1251	2,979	Moonshot
#7	Gemini 2.5 Pro	1246	79,747	Google
#8	Chatgpt 4o Latest 20250326	1235	23,313	OpenAI
#9	Gpt 5.1	1235	7,974	OpenAI
#10	Kimi K2.5 Instant	1231	1,663	Moonshot
#11	Gemini 2.5 Flash Preview 09 2025	1225	5,293	Google
#12	Gpt 4.5 Preview 2025 02 27	1225	2,925	OpenAI
#13	Gpt 5.2	1223	3,013	OpenAI
#14	Gpt 5 Chat	1222	43,264	OpenAI
#15	Ernie 5.0 Preview 1220	1216	3,623	Baidu
#16	O3 2025 04 16	1216	49,181	OpenAI
#17	Gemini 2.5 Flash	1213	48,047	Google
#18	Gpt 4.1 2025 04 14	1213	44,463	OpenAI
#19	Qwen3 Vl 235b A22b Instruct	1211	10,750	Alibaba
#20	Gpt 5 High	1208	37,581	OpenAI
#21	Claude Opus 4 20250514 Thinking 16k	1206	1,495	Anthropic
#22	Claude Sonnet 4 20250514 Thinking 32k	1205	1,361	Anthropic
#23	Gpt 4.1 Mini 2025 04 14	1201	43,674	OpenAI
#24	O4 Mini 2025 04 16	1199	44,239	OpenAI
#25	Claude 3 7 Sonnet 20250219 Thinking 32k	1195	1,676	Anthropic
#26	O1 2024 12 17	1192	3,694	OpenAI
#27	Claude Opus 4 20250514	1191	2,579	Anthropic
#28	Gemini 2.5 Flash Lite Preview 06 17 Thinking	1188	39,110	Google
#29	Hunyuan Vision 1.5 Thinking	1187	2,869	Tencent
#30	Qwen3 Vl 235b A22b Thinking	1186	2,664	Alibaba
#31	Claude Sonnet 4 20250514	1186	2,066	Anthropic
#32	Grok 4 0709	1182	34,737	xAI
#33	Gpt 5 Mini High	1181	31,410	OpenAI
#34	Qwen Vl Max 2025 08 13	1181	3,454	Alibaba
#35	Gemini 1.5 Pro 002	1178	8,902	Google
#36	Claude 3 7 Sonnet 20250219	1177	4,674	Anthropic
#37	Gemini 2.5 Flash Lite Preview 09 2025 No Thinking	1173	5,330	Google
#38	Gemini 2.0 Flash 001	1170	9,875	Google
#39	Gpt 4o 2024 05 13	1162	23,273	OpenAI
#40	Glm 4.6v	1161	2,611	Z.ai
#41	Claude 3 5 Sonnet 20241022	1161	10,568	Anthropic
#42	Gemma 3 27b It	1156	18,534	Google
#43	Mistral Medium 2505	1155	11,519	Mistral
#44	Glm 4.5v	1154	3,576	Z.ai
#45	Step 1o Turbo 202506	1152	2,037	StepFun
#46	Hunyuan Large Vision	1151	1,440	Tencent
#47	Mistral Medium 2508	1150	41,998	Mistral
#48	Claude 3 5 Sonnet 20240620	1146	21,624	Anthropic
#49	Llama 4 Maverick 17b 128e Instruct	1145	7,410	Meta
#50	Gpt 5 Nano High	1144	4,325	OpenAI
#51	Step 3	1144	3,558	StepFun
#52	Mistral Small 2506	1139	11,713	Mistral
#53	Gemini 1.5 Flash 002	1139	7,241	Google
#54	Gemini 2.0 Flash Lite Preview 02 05	1133	3,991	Google
#55	Claude 3 5 Haiku 20241022	1130	1,583	Anthropic
#56	Mistral Small 3.1 24b Instruct 2503	1126	30,955	Mistral
#57	Llama 4 Scout 17b 16e Instruct	1125	6,826	Meta
#58	Step 1o Vision 32k Highres	1123	2,833	StepFun
#59	Qwen2.5 Vl 72b Instruct	1121	3,768	Alibaba
#60	Gpt 4o 2024 08 06	1118	3,376	OpenAI

จุดเปลี่ยนเดือนกุมภาพันธ์

🔎

โมเดลใหม่สี่รุ่นเข้าสู่กระดานผู้นำในเดือนนี้ — และทั้งสี่รุ่นลงจอดใน 13 อันดับแรก สิ่งนี้ไม่เคยเกิดขึ้นมาก่อน ส่วนบนของตารางมีการแข่งขันที่ สูงขึ้น ไม่ใช่น้อยลง

ให้ผมอธิบายสิ่งที่เกิดขึ้น ตั้งแต่การรีวิวในเดือนมกราคม โมเดลรุ่นเก่าสี่รุ่นได้หลุดออกจากท้ายตาราง — Gemini 1.5 Pro (ต้นฉบับ), Qwen2.5-VL-32B, GPT-4 Turbo และ GPT-4o Mini เหล่านี้เป็นโมเดลจากยุคที่แตกต่างกัน และการจากไปของพวกมันก็เกินกำหนดแล้ว สิ่งที่เข้ามาแทนที่นั้นน่าสนใจกว่ามาก

GPT-5.2 High เปิดตัวที่ #3 ทำลายการกวาดโพเดียมของ Google ได้เป็นครั้งแรกในประวัติศาสตร์ของสนามประลองนี้ รุ่นมาตรฐานของมัน GPT-5.2 เข้ามาที่ #13 แต่ความตกใจที่แท้จริงมาจาก Moonshot โมเดล Kimi K2.5 Thinking ของพวกเขาลงจอดที่ #6 และรุ่น Instant ที่ #10 สตาร์ทอัพที่ไม่เคยปรากฏตัวในกระดานผู้นำนี้มาก่อน ตอนนี้มีสองโมเดลใน 10 อันดับแรก ผมไม่คาดคิดมาก่อน

การบีบอัดของสนามแข่งขันก็บอกอะไรได้มาก ช่องว่างระหว่าง #1 และ #60 เพียง 171 คะแนน นั่นเป็นแถบที่แคบสำหรับหกสิบโมเดล และมันหมายความว่าตารางกลางมีการแข่งขันที่โหดร้าย การปรับปรุงสถาปัตยกรรมเพียงครั้งเดียวหรือการอัปเกรดข้อมูลการฝึกอบรมสามารถเปลี่ยนอันดับของโมเดลได้สิบหรือสิบห้าอันดับในชั่วข้ามคืน หากคุณกำลังสร้างสายการผลิตรอบโมเดลเฉพาะ โปรดเข้าใจว่าตำแหน่งของมันไม่ถาวร

ดวงตาของ AI: การวิเคราะห์เชิงลึก

ราชวงศ์ที่เกือบสมบูรณ์แบบของ Google

Gemini 3 Pro ครองมงกุฎ และ Gemini 3 Flash ได้เหรียญเงิน แต่เป็นครั้งแรกที่เหรียญทองแดงเป็นของคนอื่น Google ยังคงครองอันดับ #4 ด้วยรุ่น thinking-minimal ของ Flash และรัน สิบสามโมเดล ใน 60 อันดับแรก ครอบคลุมทุกระดับประสิทธิภาพตั้งแต่เรือธง Gemini 3 Pro ลงไปจนถึง Gemini 2.0 Flash Lite รุ่นเบา นั่นไม่ใช่สายผลิตภัณฑ์ — มันคือระบบนิเวศ

Native Multimodal หมายถึงอะไรจริงๆ

ผมป้อนภาพกระดานไวท์บอร์ดของไดอะแกรมสถาปัตยกรรมระบบให้ Gemini 3 Pro — กล่องที่วาดอย่างเร่งรีบ สไตล์ลูกศรที่ไม่สอดคล้องกัน ตัวอย่างลายมือสองแบบที่แตกต่างกัน มันไม่ได้แค่ถอดความข้อความ มันสร้างการไหลของตรรกะระหว่างบริการขึ้นมาใหม่ ระบุว่าลูกศรใดแสดงถึงการเรียกแบบ synchronous กับ asynchronous ตามสไตล์เส้น และแจ้งเตือนการพึ่งพาแบบวงกลมที่อาจเกิดขึ้นซึ่งผมพลาดไป นี่คือสิ่งที่ "native multimodal" หมายถึงในทางปฏิบัติ: โมเดลไม่ได้แปลภาพเป็นข้อความก่อน — มันให้เหตุผลเกี่ยวกับโครงสร้างทางสายตาโดยตรง

สิ่งที่ทำให้ตำแหน่งของ Google ยั่งยืนคือความลึก Gemini 2.5 Pro ที่ #7 ยังคงเป็นโมเดลที่ผ่านการทดสอบในสนามรบมากที่สุดในอารีน่าด้วยการประเมินแบบสุ่มเกือบ 80,000 ครั้ง Gemini 2.5 Flash ที่ #17 ขับเคลื่อนเวิร์กโหลดการผลิตที่มีปริมาณงานสูง แม้แต่ Gemma 3 27B ซึ่งเป็นโมเดลน้ำหนักเปิดที่ #42 ก็ทำได้ดีกว่าข้อเสนอเรือธงของคู่แข่งส่วนใหญ่ แนวทางของ Google คือการชนะด้วยความครอบคลุมเสมอ — มีโมเดลที่ดีที่สุดสำหรับทุกงบประมาณและข้อจำกัดด้านความหน่วง — และในด้านการมองเห็น กลยุทธ์นั้นได้ผล

รอยร้าวเดียวในชุดเกราะ: Google พลาดการกวาดรางวัล เมื่อผมเริ่มครอบคลุมสนามประลองนี้ครั้งแรก รู้สึกเหมือน Gemini จะถือเหรียญทั้งสามไว้ตลอดไป การมาถึงของ GPT-5.2 ที่ #3 พิสูจน์ให้เห็นว่าการนำของ Google แม้จะสั่งการได้ แต่ก็ไม่ได้หมายความว่าจะไม่มีใครเทียบได้ หาก Google ไม่ส่ง Gemini 3 Pro รุ่นเต็ม (ไม่ใช่แค่พรีวิว) ในเร็วๆ นี้ หน้าต่างนั้นจะปิดลงอีก

OpenAI ทำลายโพเดียม

นี่เป็นเดือนที่แข็งแกร่งที่สุดของ OpenAI ใน Vision Arena GPT-5.2 High ที่ #3 ไม่เพียงแต่ทำลายการล็อคของ Google — มันส่งสัญญาณถึงการก้าวกระโดดที่มีความหมายในท่อประมวลผลภาพของ OpenAI ผมทดสอบเทียบกับเวอร์ชันเดือนมกราคมของ GPT-5.1 และการปรับปรุงจะเห็นได้ชัดเจนที่สุดในสองพื้นที่: การทำความเข้าใจเอกสารที่หนาแน่นและการตีความฉากที่ซับซ้อนทางพื้นที่

ข้อได้เปรียบของวิสัยทัศน์การเล่าเรื่อง

แสดงแผนภูมิแนวโน้มรายได้รายไตรมาสให้ O3 ดู และมันไม่ได้ท่องตัวเลข — มันบอกคุณว่า ทำไม ไตรมาสที่ 3 ถึงพุ่งสูงขึ้น รูปแบบตามฤดูกาลใดที่น่าจะรับผิดชอบ และไตรมาสที่ 1 ของปีหน้าอาจเป็นอย่างไร สำหรับคำอธิบายการเข้าถึง คำอธิบายเพื่อการศึกษา และเวิร์กโฟลว์ใดๆ ที่ต้องการแปลข้อมูลภาพเป็นข้อมูลเชิงลึกของมนุษย์ แนวทางของ OpenAI ยังคงไม่มีใครเทียบได้ พวกเขาไม่เห็นภาพ — พวกเขา เล่าเรื่อง เกี่ยวกับพวกมัน

OpenAI ส่ง สิบเจ็ดโมเดล เข้าสู่ 60 อันดับแรก — มากที่สุดในบรรดาองค์กรใดๆ ความกว้างเป็นกลยุทธ์ GPT-5 Chat ที่ #14 เป็นม้างานสำหรับงานการมองเห็นเชิงสนทนา O3 ที่ #16 และ O4 Mini ที่ #24 เป็นตัวแทนของสาขาที่เน้นการให้เหตุผล GPT-5 Nano High ที่ #50 พิสูจน์ให้เห็นว่าคุณสามารถได้รับวิสัยทัศน์ที่ดีอย่างน่าประหลาดใจด้วยต้นทุนเพียงเศษเสี้ยว หากสแตกของคุณรันบน API ของ OpenAI ตอนนี้มีโมเดลการมองเห็นที่ปรับให้เหมาะสมสำหรับแทบทุกความหน่วงและจุดราคา

สิ่งที่น่าจับตามอง: GPT-5.2 High เทียบกับรุ่นมาตรฐาน รุ่น High อยู่ที่ #3 ในขณะที่ GPT-5.2 มาตรฐานอยู่ที่ #13 — ช่องว่างสามสิบสี่จุด การกระจายนั้นบ่งชี้ว่าระดับ High กำลังทำการประมวลผลภาพมากขึ้นอย่างมีนัยสำคัญ อาจเป็นการผ่านการอนุมานเพิ่มเติมหรือความละเอียดภายในที่ใหญ่ขึ้น สำหรับแอปพลิเคชันที่ไวต่อต้นทุน การทำความเข้าใจว่าเพดานคุณภาพนั้นสำคัญตรงไหนเทียบกับที่ระดับมาตรฐาน "ดีพอ" จะเป็นการตัดสินใจทางสถาปัตยกรรมที่สำคัญในไตรมาสนี้

การมาถึงอย่างเงียบๆ ของ Moonshot

ถ้ามีสิ่งหนึ่งที่ผมได้เรียนรู้จากการติดตามเกณฑ์มาตรฐาน AI ก็คือคู่แข่งที่อันตรายที่สุดจะประกาศตัวอย่างเงียบๆ Moonshot มีโมเดลเป็นศูนย์ในกระดานผู้นำนี้เมื่อเดือนที่แล้ว วันนี้พวกเขามีสองใน 10 อันดับแรก

⚡

Kimi K2.5 Thinking ที่ #6 ทำได้ดีกว่า Gemini 2.5 Pro, ChatGPT-4o Latest และทุกโมเดลของ Anthropic ในกระดานผู้นำนี้ รุ่น Instant ที่ #10 แลกความแม่นยำบางส่วนกับความเร็ว แต่ยังคงเอาชนะสนามส่วนใหญ่ได้ นี่ไม่ใช่ความก้าวหน้าแบบค่อยเป็นค่อยไป — นี่คือสตาร์ทอัพที่กระโดดข้ามผู้เล่นที่จัดตั้งขึ้นแล้ว

ผมรัน Kimi K2.5 Thinking ผ่านชุดทดสอบมาตรฐานของผม ในการดึงข้อความภาษาจีนและญี่ปุ่น — เมนูร้านอาหาร แผนที่ขนส่ง บันทึกที่เขียนด้วยลายมือ — มันเทียบเท่าหรือเกินกว่า Qwen3-VL ซึ่งก่อนหน้านี้ผมถือว่าเป็นมาตรฐานทองคำสำหรับงานวิสัยทัศน์ CJK ในการวิเคราะห์เอกสารภาษาอังกฤษ มันยืนหยัดต่อสู้กับ GPT-5.1 สิ่งที่ทำให้ผมประหลาดใจเป็นพิเศษคือห่วงโซ่ความคิดทางสายตา: ให้ข้อมูลกราฟิกที่รกและขอให้ระบุสามตัวเลือกการออกแบบที่ทำให้เข้าใจผิดที่สุด และมันจะสร้างการวิเคราะห์ที่มีโครงสร้างและน่าอ้างอิง

นัยสำคัญทางกลยุทธ์มีความสำคัญ Moonshot ตั้งอยู่ในปักกิ่งและระดมทุนได้มากกว่า 1 พันล้านดอลลาร์ในปีที่แล้ว ผู้ช่วย Kimi ของพวกเขามีฐานผู้ใช้จำนวนมากในจีน หากพวกเขายังคงทำซ้ำในจังหวะนี้ 5 อันดับแรกของสนามประลองวิสัยทัศน์อาจรวมถึงสามองค์กรที่แตกต่างกันในเร็วๆ นี้ — ทำลายการผูกขาดคู่ Google-OpenAI ที่ด้านบน สำหรับนักพัฒนาที่สร้างแอปพลิเคชันระดับโลก โดยเฉพาะที่ให้บริการในตลาดเอเชีย Kimi K2.5 สมควรได้รับการประเมินอย่างจริงจัง

สายตาที่จดจ่อของ Anthropic

Anthropic ไม่ได้พยายามชนะในด้านความเร็วหรือความแม่นยำดิบ พวกเขากำลังเล่นเกมที่แตกต่าง และผลลัพธ์ก็น่าประทับใจอย่างเงียบๆ Claude Opus 4 Thinking ที่ #21 และ Claude Sonnet 4 Thinking ที่ #22 นำ เก้าโมเดล ของ Anthropic ใน 60 อันดับแรก

นี่คือสิ่งที่แยก Claude ในงานด้านการมองเห็น: มันไม่รีบเร่งหาคำตอบ แสดงรูปถ่ายให้โมเดลส่วนใหญ่ดู แล้วพวกเขาจะระบุวัตถุ อ่านข้อความ อธิบายฉาก แสดงภาพเดียวกันให้ Claude ดู และมันจะพิจารณาก่อนว่า ภาพพยายามสื่อสารอะไร ผมทดสอบสิ่งนี้ด้วยชุดการ์ตูนการเมืองจากทศวรรษต่างๆ Gemini อธิบายองค์ประกอบภาพได้อย่างถูกต้อง GPT-5.2 ให้บริบททางวัฒนธรรม Claude วิเคราะห์เทคนิคทางวาทศิลป์ ระบุผู้ชมเป้าหมาย และอธิบายว่าทำไมการ์ตูนถึงจะลงจอดแตกต่างกันในปี 2026 เมื่อเทียบกับตอนที่วาด สำหรับงานใดๆ ที่ต้องการตีความ เจตนา เบื้องหลังเนื้อหาภาพ — การตรวจสอบเอกสารทางกฎหมาย การวิเคราะห์ความปลอดภัย การวิจารณ์การออกแบบ — แนวทางที่จดจ่อของ Claude เป็นข้อได้เปรียบที่แท้จริง

การแบ่งแยกระหว่างการคิดและไม่คิดมีความสม่ำเสมอในตระกูล Claude Claude 3.7 Sonnet Thinking ที่ #25 เทียบกับรุ่นที่ไม่คิดที่ #36 แสดงให้เห็นช่องว่างด้านคุณภาพที่เชื่อถือได้ หากคุณใช้ Claude สำหรับการมองเห็น ให้เปิดใช้งานโหมดการคิดเสมอ — ความแตกต่างด้านคุณภาพช่วยปรับความหน่วงที่เพิ่มขึ้นในเกือบทุกกรณีการใช้งานที่ผมทดสอบ รุ่นที่ไม่คิดเหมาะกว่าสำหรับการติดป้ายหรือการจำแนกประเภทง่ายๆ ที่ความเร็วสำคัญกว่าความลึก

การแข่งขัน Vision ระดับโลก

วันที่ AI ด้านการมองเห็นหมายถึง "Google หรือ OpenAI" จบลงแล้ว กระดานผู้นำนี้ตอนนี้เป็นตัวแทนของ สิบสามองค์กรที่แตกต่างกัน ทั่วทั้งสี่ทวีป และการแข่งขันในตารางกลางคือที่ที่มีการพัฒนาที่น่าสนใจที่สุดเกิดขึ้น

Qwen3-VL ของ Alibaba ที่ #19 ยังคงเป็นโมเดลวิสัยทัศน์ที่ดีที่สุดสำหรับการดึงเอกสารหลายภาษา เมื่อเร็วๆ นี้ผมใช้มันเพื่อประมวลผลชุดสัญญาที่สแกนในสี่ภาษา — อังกฤษ จีนกลาง ญี่ปุ่น และอาหรับ — และมันจัดการเอกสารสคริปต์ผสมด้วยความแม่นยำเกือบสมบูรณ์แบบ รวมถึงการระบุส่วนที่เป็นคำอธิบายประกอบที่เขียนด้วยลายมือเทียบกับข้อความที่พิมพ์ได้อย่างถูกต้อง รุ่นน้ำหนักเปิดของพวกเขา Qwen2.5-VL-72B ที่ #59 มีตัวเลือกที่โฮสต์เองได้สำหรับองค์กรที่ไม่สามารถส่งภาพไปยัง API ภายนอกได้

ERNIE 5.0 จาก Baidu ถือครองอย่างมั่นคงที่ #15 Hunyuan Vision 1.5 Thinking จาก Tencent นั่งอยู่ที่ #29 GLM-4.6V จาก Z.ai ที่ #40 ห้องปฏิบัติการ AI ของจีนรวมกันวางสิบสองโมเดลในกระดานผู้นำนี้ในห้าองค์กรที่แตกต่างกัน ความหนาแน่นของการแข่งขันภายในระบบนิเวศแห่งชาติเดียวนั้นขับเคลื่อนนวัตกรรมเร็วกว่าที่ผู้สังเกตการณ์ชาวตะวันตกส่วนใหญ่ตระหนัก

ในยุโรป Mistral ส่งสี่โมเดล — รุ่น Medium และ Small — ให้ทางเลือกที่มีอธิปไตยของสหภาพยุโรปเพียงทางเดียวสำหรับองค์กรที่ผูกมัดด้วยข้อกำหนดด้านถิ่นที่อยู่ของข้อมูล Grok 4 จาก xAI ที่ #32 ได้สะสมการประเมินมากกว่า 34,000 ครั้ง ทำให้เป็นหนึ่งในโมเดลที่ผ่านการทดสอบในสนามรบมากที่สุดนอก 20 อันดับแรก น้ำหนักเปิดของ Meta Llama 4 Maverick ที่ #49 และ Scout ที่ #57 ให้ความสามารถแก่นักพัฒนาในการรัน AI ด้านการมองเห็นทั้งหมดบนโครงสร้างพื้นฐานของตนเอง และสามรายการของ StepFun จากจีนแสดงให้เห็นว่าแม้แต่ห้องปฏิบัติการขนาดเล็กก็สามารถผลิตโมเดลวิสัยทัศน์ที่แข่งขันได้เมื่อมุ่งเน้นไปที่การเดิมพันทางสถาปัตยกรรมที่ถูกต้อง

AI ด้านการมองเห็นจะไปทางไหนต่อ

ผมได้ครอบคลุมกระดานผู้นำเหล่านี้มานานพอที่จะเห็นรูปแบบก่อนที่จะกลายเป็นฉันทามติ นี่คือสิ่งที่ผมคิดว่า AI ด้านภาพกำลังจะมุ่งหน้าไปในอีกหกเดือนข้างหน้า

🔭

5 อันดับแรกจะรวมถึงสามองค์กรขึ้นไปภายในกลางปี 2026 การยึดเกาะของ Google กำลังคลายตัว OpenAI ได้พิสูจน์แล้วว่าสามารถทำลายโพเดียมได้ Moonshot กำลังไต่ขึ้นอย่างรวดเร็ว หาก Anthropic ส่งโมเดล vision-first — โมเดลที่ออกแบบมาตั้งแต่ต้นสำหรับการให้เหตุผลทางสายตาแทนที่จะปรับจากโมเดลภาษา — พวกเขาอาจเข้าร่วมกลุ่มนี้ ยุคของการครอบงำบริษัทเดียวใน AI ด้านการมองเห็นกำลังสิ้นสุดลง

วิสัยทัศน์แบบ Chain-of-thought จะกลายเป็นโหมดการอนุมานเริ่มต้น ทุกโมเดลที่นำเสนอตัวแปร "thinking" ทำได้ดีกว่าคู่ที่ไม่คิด — อย่างสม่ำเสมอ Kimi K2.5 Thinking เทียบกับ Instant Claude Opus 4 Thinking เทียบกับมาตรฐาน Gemini Flash Thinking เทียบกับไม่คิด รูปแบบเป็นสากล ภายในหนึ่งปี ผมคาดว่า "การคิด" จะกลายเป็นโหมดการอนุมานมาตรฐาน โดยมี "ทันที" เป็นทางเลือกที่ลดลงอย่างชัดเจนสำหรับกรณีที่ไวต่อความหน่วง

ความเข้าใจวิดีโอจะเปลี่ยนโฉมการจัดอันดับเหล่านี้ โมเดลส่วนใหญ่ที่นี่ได้รับการประเมินบนภาพนิ่ง แต่งานด้านภาพในโลกแห่งความจริงเกี่ยวข้องกับวิดีโอมากขึ้นเรื่อยๆ — ฟีดความปลอดภัย ลำดับภาพทางการแพทย์ การควบคุมคุณภาพการผลิต การนำทางอัตโนมัติ โมเดลที่สามารถให้เหตุผลข้ามกรอบเวลา ไม่ใช่แค่ภาพรวมเดียว จะกำหนดรุ่นต่อไปของกระดานผู้นำนี้ Google และ OpenAI ต่างมีงานวิจัยในทิศทางนี้ แต่คนแรกที่ส่งมอบความเข้าใจวิดีโอระดับการผลิตในวงกว้างจะได้รับข้อได้เปรียบของผู้มาสู้ก่อนมหาศาลที่อาจคงอยู่นานหลายปี

ระดับน้ำหนักเปิดจะละเมิด 20 อันดับแรก ตอนนี้ โมเดลน้ำหนักเปิดสูงสุดคือ Gemma 3 27B ที่ #42 Llama 4 Maverick นั่งอยู่ที่ #49 โมเดลเหล่านี้กำลังปรับปรุงเร็วกว่าคู่ที่เป็นกรรมสิทธิ์เพราะได้รับประโยชน์จากการปรับแต่งของชุมชน ข้อมูลการฝึกอบรมที่กำหนดเอง และการปรับเปลี่ยนทางสถาปัตยกรรมที่โมเดล API-only ไม่สามารถรับได้ ให้เวลาอีกสองไตรมาส และผมคาดว่าจะมีโมเดลน้ำหนักเปิดอย่างน้อยหนึ่งรุ่นใน 20 อันดับแรก — ซึ่งจะเปลี่ยนเศรษฐศาสตร์ของการปรับใช้ AI ด้านการมองเห็นในวงกว้างโดยพื้นฐาน

โมเดลแนวตั้งเฉพาะทางจะจับมูลค่าทางเศรษฐกิจส่วนใหญ่ กระดานผู้นำปัจจุบันประเมินความเข้าใจทางสายตาทั่วไป แต่ตลาดกำลังเคลื่อนไปสู่ความเชี่ยวชาญเฉพาะทาง — โมเดลการถ่ายภาพทางการแพทย์ที่อ่านเอกซเรย์ได้ดีกว่าโมเดลทั่วไป โมเดลภาพถ่ายดาวเทียมที่ปรับให้เหมาะสมสำหรับการตรวจจับการเปลี่ยนแปลง AI เอกสารที่สร้างขึ้นโดยเฉพาะสำหรับใบแจ้งหนี้และสัญญา กระดานผู้นำทั่วไปจะยังคงเป็นหัวข้อข่าว แต่เงินจริงจะอยู่ที่ผู้เชี่ยวชาญแนวตั้งที่สร้างขึ้นบนรากฐานเหล่านี้

คำแนะนำของผมตามกรณีการใช้งาน

หลังจากทดสอบโมเดลทั้งหกสิบรุ่นผ่านเวิร์กโฟลว์ในโลกแห่งความจริง นี่คือคำแนะนำที่กลั่นกรองของผม ไม่มีโมเดลเดียวที่ชนะทุกที่ — ทางเลือกที่ถูกต้องขึ้นอยู่กับสิ่งที่คุณกำลังสร้าง

ความแม่นยำสูงสุด

Gemini 3 Pro — ยังคงดีที่สุดในรายละเอียดโครงสร้าง การให้เหตุผลเชิงพื้นที่ และการตีความไดอะแกรมที่ซับซ้อน เมื่อความแม่นยำไม่สามารถต่อรองได้ นี่คือโมเดล

การผลิตที่สำคัญต่อความเร็ว

Gemini 3 Flash — คุณภาพเกือบเรือธงที่ความหน่วงต่ำกว่ามาก คำแนะนำเริ่มต้นของผมสำหรับแอปพลิเคชันเรียลไทม์

การเล่าเรื่องและการเข้าถึง

GPT-5.2 High — ไม่เพียงแค่อ่านภาพ มันอธิบายความหมาย ดีที่สุดสำหรับการสร้างข้อความแทน เนื้อหาการศึกษา และการเล่าเรื่องจากภาพ

การให้เหตุผลทางสายตาเชิงลึก

Claude Opus 4 Thinking — ช้ากว่าและรอบคอบกว่า แต่จับนัยที่คนอื่นพลาด เหมาะสำหรับงานวิเคราะห์ ตรวจสอบ และตีความ

OCR หลายภาษาและ CJK

Kimi K2.5 Thinking — ยอดเยี่ยมในข้อความ CJK และเอกสารภาษาผสม ยังแข็งแกร่งในฐานะผู้ให้เหตุผลทางสายตาทั่วไปที่ระดับ #6

อธิปไตยของข้อมูลสหภาพยุโรป

Mistral Medium — ทางเลือกเดียวที่แข่งขันได้สำหรับเวิร์กโหลดที่เข้มงวด GDPR เก็บภาพของคุณไว้ในโครงสร้างพื้นฐานยุโรป

การโฮสต์ด้วยตนเองและความเป็นส่วนตัว

Llama 4 Maverick — วิสัยทัศน์แบบน้ำหนักเปิดที่ทำงานบนฮาร์ดแวร์ของคุณเอง ไม่มีการเรียก API ไม่มีข้อมูลออกจากขอบเขตเครือข่ายของคุณ

คำนึงถึงงบประมาณ

GPT-5 Nano High — มีความสามารถอย่างน่าประหลาดใจสำหรับระดับต้นทุน ดีพอสำหรับการจำแนกประเภท การติดป้าย และการดึงข้อมูลง่ายๆ ด้วยราคาเพียงเศษเสี้ยวของเรือธง

🔑

กลยุทธ์วิสัยทัศน์ที่มีความสามารถมากที่สุดในปี 2026 คือ การประสานหลายโมเดล กำหนดเส้นทางการให้เหตุผลที่ซับซ้อนไปยัง Claude ส่งเอกสารที่มีโครงสร้างไปยัง Gemini สร้างคำอธิบายที่เข้าถึงได้ด้วย GPT-5.2 ใช้ Kimi สำหรับเนื้อหาหลายภาษา ผู้ชนะจะไม่ใช่ผู้ที่เลือกโมเดล "ที่ดีที่สุด" — แต่จะเป็นผู้ที่สร้างชั้นการกำหนดเส้นทางที่ฉลาดที่สุด

แหล่งข้อมูล: การจัดอันดับจาก Arena Vision Leaderboard, 6 กุมภาพันธ์ 2026

","line_range_start":1,"line_range_end":779}}

Tags: #vision-ai #multimodal #image-recognition #gemini #gpt-5 #claude #moonshot #leaderboard

กระดานผู้นำ AI Vision Arena 2026

กระดานผู้นำ Vision

จุดเปลี่ยนเดือนกุมภาพันธ์