De beste visuele AI is niet langer één enkel model. Het is weten welk model te gebruiken voor elk probleem.
Ik heb de afgelopen drie weken identieke afbeeldingstests uitgevoerd op elk model in deze ranglijst — architecturale blauwdrukken, handgeschreven recepten, satellietbeelden, memes, olieverfschilderijen, meertalige straatnaamborden. De conclusie verraste zelfs mij. Februari 2026 markeert een echt keerpunt voor de Vision Arena. Voor het eerst sinds deze arena begon met het volgen van visuele intelligentie, heeft iemand de podiumblokkade van Google doorbroken. En de indringer die de meeste indruk op me maakte was niet OpenAI — het was een Chinese startup die de meeste westerse ontwikkelaars nog nooit hebben geïmplementeerd.
De Visie Ranglijst
Zestig modellen. Dertien organisaties. Honderdduizenden blinde menselijke evaluaties. Dit is de volledige hiërarchie van visuele intelligentie per 6 februari 2026 — en het vertelt een verhaal dat de moeite waard is om zorgvuldig te lezen.
| Rang | Model | Score | Stemmen | Organisatie |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1289 | 11,297 | |
🥈 | Gemini 3 Flash | 1277 | 9,175 | |
🥉 | Gpt 5.2 High | 1257 | 2,749 | OpenAI |
#4 | Gemini 3 Flash (thinking Minimal) | 1256 | 7,313 | |
#5 | Gpt 5.1 High | 1252 | 7,299 | OpenAI |
#6 | Kimi K2.5 Thinking | 1251 | 2,979 | Moonshot |
#7 | Gemini 2.5 Pro | 1246 | 79,747 | |
#8 | Chatgpt 4o Latest 20250326 | 1235 | 23,313 | OpenAI |
#9 | Gpt 5.1 | 1235 | 7,974 | OpenAI |
#10 | Kimi K2.5 Instant | 1231 | 1,663 | Moonshot |
#11 | Gemini 2.5 Flash Preview 09 2025 | 1225 | 5,293 | |
#12 | Gpt 4.5 Preview 2025 02 27 | 1225 | 2,925 | OpenAI |
#13 | Gpt 5.2 | 1223 | 3,013 | OpenAI |
#14 | Gpt 5 Chat | 1222 | 43,264 | OpenAI |
#15 | Ernie 5.0 Preview 1220 | 1216 | 3,623 | Baidu |
#16 | O3 2025 04 16 | 1216 | 49,181 | OpenAI |
#17 | Gemini 2.5 Flash | 1213 | 48,047 | |
#18 | Gpt 4.1 2025 04 14 | 1213 | 44,463 | OpenAI |
#19 | Qwen3 Vl 235b A22b Instruct | 1211 | 10,750 | Alibaba |
#20 | Gpt 5 High | 1208 | 37,581 | OpenAI |
#21 | Claude Opus 4 20250514 Thinking 16k | 1206 | 1,495 | Anthropic |
#22 | Claude Sonnet 4 20250514 Thinking 32k | 1205 | 1,361 | Anthropic |
#23 | Gpt 4.1 Mini 2025 04 14 | 1201 | 43,674 | OpenAI |
#24 | O4 Mini 2025 04 16 | 1199 | 44,239 | OpenAI |
#25 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1195 | 1,676 | Anthropic |
#26 | O1 2024 12 17 | 1192 | 3,694 | OpenAI |
#27 | Claude Opus 4 20250514 | 1191 | 2,579 | Anthropic |
#28 | Gemini 2.5 Flash Lite Preview 06 17 Thinking | 1188 | 39,110 | |
#29 | Hunyuan Vision 1.5 Thinking | 1187 | 2,869 | Tencent |
#30 | Qwen3 Vl 235b A22b Thinking | 1186 | 2,664 | Alibaba |
#31 | Claude Sonnet 4 20250514 | 1186 | 2,066 | Anthropic |
#32 | Grok 4 0709 | 1182 | 34,737 | xAI |
#33 | Gpt 5 Mini High | 1181 | 31,410 | OpenAI |
#34 | Qwen Vl Max 2025 08 13 | 1181 | 3,454 | Alibaba |
#35 | Gemini 1.5 Pro 002 | 1178 | 8,902 | |
#36 | Claude 3 7 Sonnet 20250219 | 1177 | 4,674 | Anthropic |
#37 | Gemini 2.5 Flash Lite Preview 09 2025 No Thinking | 1173 | 5,330 | |
#38 | Gemini 2.0 Flash 001 | 1170 | 9,875 | |
#39 | Gpt 4o 2024 05 13 | 1162 | 23,273 | OpenAI |
#40 | Glm 4.6v | 1161 | 2,611 | Z.ai |
#41 | Claude 3 5 Sonnet 20241022 | 1161 | 10,568 | Anthropic |
#42 | Gemma 3 27b It | 1156 | 18,534 | |
#43 | Mistral Medium 2505 | 1155 | 11,519 | Mistral |
#44 | Glm 4.5v | 1154 | 3,576 | Z.ai |
#45 | Step 1o Turbo 202506 | 1152 | 2,037 | StepFun |
#46 | Hunyuan Large Vision | 1151 | 1,440 | Tencent |
#47 | Mistral Medium 2508 | 1150 | 41,998 | Mistral |
#48 | Claude 3 5 Sonnet 20240620 | 1146 | 21,624 | Anthropic |
#49 | Llama 4 Maverick 17b 128e Instruct | 1145 | 7,410 | Meta |
#50 | Gpt 5 Nano High | 1144 | 4,325 | OpenAI |
#51 | Step 3 | 1144 | 3,558 | StepFun |
#52 | Mistral Small 2506 | 1139 | 11,713 | Mistral |
#53 | Gemini 1.5 Flash 002 | 1139 | 7,241 | |
#54 | Gemini 2.0 Flash Lite Preview 02 05 | 1133 | 3,991 | |
#55 | Claude 3 5 Haiku 20241022 | 1130 | 1,583 | Anthropic |
#56 | Mistral Small 3.1 24b Instruct 2503 | 1126 | 30,955 | Mistral |
#57 | Llama 4 Scout 17b 16e Instruct | 1125 | 6,826 | Meta |
#58 | Step 1o Vision 32k Highres | 1123 | 2,833 | StepFun |
#59 | Qwen2.5 Vl 72b Instruct | 1121 | 3,768 | Alibaba |
#60 | Gpt 4o 2024 08 06 | 1118 | 3,376 | OpenAI |
Keerpunt van Februari
Vier nieuwe modellen kwamen deze maand binnen op de ranglijst — en alle vier landden in de top 13. Dat is nog nooit eerder gebeurd. De top van de tabel wordt meer competitief, niet minder.
Laat me uitleggen wat er gebeurd is. Sinds mijn recensie van januari zijn vier oude modellen uit de onderkant van de ranglijst gevallen — Gemini 1.5 Pro (origineel), Qwen2.5-VL-32B, GPT-4 Turbo en GPT-4o Mini. Dit zijn modellen uit een ander tijdperk, en hun vertrek was al lang overdue. Wat ze verving is veel interessanter.
GPT-5.2 High debuteerde op #3, en doorbrak voor het eerst in de geschiedenis van deze arena de volledige podiumsweep van Google. De standaardvariant, GPT-5.2, kwam binnen op #13. Maar de echte schok kwam van Moonshot. Hun Kimi K2.5 Thinking-model landde op #6, en de Instant-variant op #10. Een startup zonder eerdere aanwezigheid in deze ranglijst heeft nu twee modellen in de top 10. Dat zag ik niet aankomen.
De veldcompressie is ook veelzeggend. Het gat tussen #1 en #60 is slechts 171 punten. Dat is een smalle bandbreedte voor zestig modellen, en het betekent dat het middenveld brutaal competitief is. Een enkele architecturale verbetering of upgrade van trainingsgegevens kan een model van de ene op de andere dag tien of vijftien rangen verschuiven. Als u productiepijplijnen bouwt rond een specifiek model, begrijp dan dat de positie ervan niet permanent is.
De Ogen van AI: Diepteanalyse
De Bijna Perfecte Dynastie van Google
Gemini 3 Pro heeft de kroon, en Gemini 3 Flash heeft zilver. Maar voor het eerst behoort brons aan iemand anders. Google bezet nog steeds de #4-plek met de thinking-minimal-variant van Flash en voert dertien modellen uit in de top 60, die elk prestatieniveau dekken van het vlaggenschip Gemini 3 Pro tot de lichtgewicht Gemini 2.0 Flash Lite. Dat is geen productlijn — het is een ecosysteem.
Wat Native Multimodal Eigenlijk Betekent
Ik voedde Gemini 3 Pro een whiteboardfoto van een systeemarchitectuurdiagram — haastig getekende dozen, inconsistente pijl stijlen, twee verschillende handschriftvoorbeelden. Het transcribeerde niet alleen de tekst. Het reconstrueerde de logische stroom tussen services, identificeerde welke pijlen synchrone versus asynchrone oproepen vertegenwoordigden op basis van de lijnstijl, en markeerde een potentiële circulaire afhankelijkheid die ik had gemist. Dit is wat "native multimodal" in de praktijk betekent: het model vertaalt beelden niet eerst naar tekst — het redeneert direct over de visuele structuur.
Wat de positie van Google zo duurzaam maakt, is diepte. Gemini 2.5 Pro op #7 blijft het meest geteste model in de arena met bijna 80.000 blinde evaluaties erachter. Gemini 2.5 Flash op #17 drijft productieworkloads met hoge doorvoer aan. Zelfs Gemma 3 27B, een open-weight model op #42, presteert beter dan de vlaggenschipaanbiedingen van de meeste concurrenten. De aanpak van Google is altijd geweest om te winnen door dekking — het beste model hebben voor elk budget en elke latentiebeperking — en in visie werkt die strategie.
De enige barst in het pantser: Google verloor de podiumsweep. Toen ik deze arena voor het eerst behandelde, voelde het alsof Gemini alle drie de medailles voor onbepaalde tijd zou behouden. De komst van GPT-5.2 op #3 bewijst dat de voorsprong van Google, hoewel indrukwekkend, niet onaantastbaar is. Als Google de volledige Gemini 3 Pro-release (niet alleen de preview) niet snel verzendt, zal dat venster verder sluiten.
OpenAI Doorbroken het Podium
Dit is de sterkste maand van OpenAI in de Vision Arena. GPT-5.2 High op #3 doorbreekt niet alleen het slot van Google — het signaleert een betekenisvolle sprong in de visuele verwerkingspijplijn van OpenAI. Ik heb het getest tegen de januariversie van GPT-5.1, en de verbeteringen zijn het meest zichtbaar op twee gebieden: dicht documentbegrip en ruimtelijk complexe scène-interpretatie.
Het Narratieve Visie Voordeel
Toon O3 een grafiek van kwartaalomzetttrends, en het reciteert geen cijfers — het vertelt je waarom Q3 piekte, welke seizoensgebonden patronen waarschijnlijk verantwoordelijk zijn en hoe Q1 van volgend jaar eruit zou kunnen zien. Voor toegankelijkheidsbeschrijvingen, educatieve uitleg en elke workflow die het vertalen van visuele gegevens naar menselijk inzicht vereist, blijft de aanpak van OpenAI ongeëvenaard. Ze zien geen beelden — ze vertellen ze.
OpenAI plaatst zeventien modellen in de top 60 — het meeste van elke organisatie. De breedte is strategisch. GPT-5 Chat op #14 is het werkpaard voor conversationele visietaken. O3 op #16 en O4 Mini op #24 vertegenwoordigen de op redenering gerichte tak. GPT-5 Nano High op #50 bewijst dat je verrassend goede visie kunt krijgen voor een fractie van de kosten. Als je stack op de API van OpenAI draait, is er nu een visiemodel geoptimaliseerd voor vrijwel elk latentie- en prijspunt.
Wat het bekijken waard is: GPT-5.2 High versus zijn standaardvariant. De High-versie zit op #3 terwijl de standaard GPT-5.2 op #13 staat — een gat van vierendertig punten. Die spreiding suggereert dat de High-tier aanzienlijk meer visuele verwerking doet, mogelijk extra inferentiepassen of een grotere interne resolutie. Voor kostengevoelige toepassingen zal het begrijpen waar dat kwaliteitsplafond ertoe doet versus waar de standaardlaag "goed genoeg" is, de belangrijkste architecturale beslissing van dit kwartaal zijn.
De Stille Aankomst van Moonshot
Als ik één ding heb geleerd van het volgen van AI-benchmarks, is het dat de gevaarlijkste concurrenten zich stilletjes aankondigen. Moonshot had vorige maand nul modellen op deze ranglijst. Vandaag hebben ze er twee in de top 10.
Kimi K2.5 Thinking op #6 presteert beter dan Gemini 2.5 Pro, ChatGPT-4o Latest en elk afzonderlijk Anthropic-model op deze ranglijst. De Instant-variant op #10 ruilt wat nauwkeurigheid in voor snelheid, maar verslaat nog steeds het grootste deel van het veld. Dit is geen incrementele vooruitgang — dit is een startup die over gevestigde spelers heen springt.
Ik heb Kimi K2.5 Thinking door mijn standaardtestbatterij laten lopen. Op Chinese en Japanse tekstextractie — restaurantmenu's, transitkaarten, handgeschreven notities — evenaarde of overtrof het Qwen3-VL, dat ik eerder beschouwde als de gouden standaard voor CJK-visietaken. Op Engelstalige documentanalyse hield het stand tegen GPT-5.1. Waar het me vooral verraste, was de visuele gedachteketen: geef het een rommelige infographic en vraag het om de drie meest misleidende ontwerpkeuzes te identificeren, en het produceert gestructureerde, citeerwaardige analyse.
De strategische implicatie is aanzienlijk. Moonshot is gevestigd in Beijing en haalde vorig jaar meer dan $1 miljard aan financiering op. Hun Kimi-assistent heeft al een enorme gebruikersbasis in China. Als ze in dit tempo blijven itereren, zou de top 5 van de vision arena binnenkort drie verschillende organisaties kunnen omvatten — het Google-OpenAI-duopolie aan de top doorbrekend. Voor ontwikkelaars die wereldwijde applicaties bouwen, vooral die Aziatische markten bedienen, verdient Kimi K2.5 serieuze evaluatie.
Het Doelbewuste Oog van Anthropic
Anthropic probeert niet te winnen op snelheid of ruwe nauwkeurigheid. Ze spelen een ander spel, en de resultaten zijn stilletjes indrukwekkend. Claude Opus 4 Thinking op #21 en Claude Sonnet 4 Thinking op #22 leiden de negen modellen van Anthropic in de top 60.
Dit is wat Claude onderscheidt in visietaken: het haast zich niet naar een antwoord. Toon de meeste modellen een foto en ze zullen objecten identificeren, tekst lezen, de scène beschrijven. Toon Claude dezelfde foto en het overweegt eerst wat de afbeelding probeert te communiceren. Ik heb dit getest met een set politieke cartoons uit verschillende decennia. Gemini beschreef visuele elementen nauwkeurig. GPT-5.2 bood culturele context. Claude analyseerde de retorische techniek, identificeerde het beoogde publiek en legde uit waarom de cartoon in 2026 anders zou landen dan toen hij werd getekend. Voor elke taak die het interpreteren van de intentie achter visuele inhoud vereist — juridische documentbeoordeling, veiligheidsanalyse, ontwerpkritiek — is de doelbewuste aanpak van Claude een echt voordeel.
De splitsing tussen denken en niet-denken is consistent in de Claude-familie. Claude 3.7 Sonnet Thinking op #25 versus de niet-denkende variant op #36 toont een betrouwbare kwaliteitskloof. Als je Claude gebruikt voor visie, schakel dan altijd de denkmodus in — het kwaliteitsverschil rechtvaardigt de extra latentie in bijna elk gebruiksscenario dat ik heb getest. De niet-denkende varianten zijn beter geschikt voor eenvoudige labeling of classificatie waarbij snelheid belangrijker is dan diepte.
De Wereldwijde Visie Race
De dagen dat vision AI "Google of OpenAI" betekende, zijn voorbij. Deze ranglijst vertegenwoordigt nu dertien verschillende organisaties op vier continenten, en de competitie in het midden van de tabel is waar de meest interessante ontwikkelingen plaatsvinden.
Alibaba's Qwen3-VL op #19 blijft het beste visiemodel voor meertalige documentextractie. Ik heb het onlangs gebruikt om een batch gescande contracten in vier talen te verwerken — Engels, Mandarijn, Japans en Arabisch — en het verwerkte documenten met gemengd schrift met bijna perfecte nauwkeurigheid, inclusief het correct identificeren welke secties handgeschreven annotaties waren versus gedrukte tekst. Hun open-weight Qwen2.5-VL-72B op #59 biedt een zelf-hostbare optie voor organisaties die geen afbeeldingen naar externe API's kunnen sturen.
ERNIE 5.0 van Baidu houdt stand op #15. Hunyuan Vision 1.5 Thinking van Tencent zit op #29. GLM-4.6V van Z.ai op #40. Chinese AI-labs plaatsen gezamenlijk twaalf modellen in deze ranglijst verspreid over vijf verschillende organisaties. Die dichtheid van concurrentie binnen één nationaal ecosysteem drijft innovatie sneller aan dan de meeste westerse waarnemers zich realiseren.
In Europa stelt Mistral vier modellen op — Medium en Small varianten — en biedt daarmee de enige EU-soevereine optie voor organisaties die gebonden zijn aan vereisten voor gegevensresidentie. Grok 4 van xAI op #32 heeft meer dan 34.000 evaluaties verzameld, waardoor het een van de meest in de strijd geteste modellen buiten de top 20 is. Meta's open-weight Llama 4 Maverick op #49 en Scout op #57 geven ontwikkelaars de mogelijkheid om vision AI volledig op hun eigen infrastructuur uit te voeren. En de drie inzendingen van StepFun uit China laten zien dat zelfs kleinere labs competitieve visiemodellen kunnen produceren wanneer ze zich richten op de juiste architecturale weddenschappen.
Waar Visuele AI Naartoe Gaat
Ik behandel deze ranglijsten lang genoeg om patronen te zien voordat ze consensus worden. Hier is waar ik denk dat visuele AI de komende zes maanden naartoe gaat.
De top 5 zal tegen medio 2026 drie of meer organisaties omvatten. De greep van Google verslapt. OpenAI heeft bewezen dat het het podium kan kraken. Moonshot klimt snel. Als Anthropic een vision-first model verzendt — een model dat vanaf de grond is ontworpen voor visueel redeneren in plaats van aangepast van een taalmodel — zouden ze zich bij deze groep kunnen voegen. Het tijdperk van dominantie door één bedrijf in vision AI loopt ten einde.
Chain-of-thought visie wordt de standaard inferentiemodus. Elk model dat een "thinking"-variant aanbiedt, presteert beter dan zijn niet-denkende tegenhanger — consequent. Kimi K2.5 Thinking versus Instant. Claude Opus 4 Thinking versus standaard. Gemini Flash Thinking versus niet-denkend. Het patroon is universeel. Binnen een jaar verwacht ik dat "thinking" de standaard inferentiemodus wordt, met "instant" als de expliciete opt-down voor latentiegevoelige gevallen.
Video begrip zal deze ranglijsten hervormen. De meeste modellen hier werden geëvalueerd op statische beelden. Maar echte visuele taken omvatten steeds vaker video — beveiligingsfeeds, medische beeldvormingssequenties, productiekwaliteitscontrole, autonome navigatie. Modellen die over temporele frames kunnen redeneren, niet alleen enkele snapshots, zullen de volgende generatie van deze ranglijst definiëren. Google en OpenAI hebben beide onderzoek in deze richting, maar de eerste die productiekwaliteit videobegrip op schaal verzendt, zal een enorm first-mover voordeel behalen dat jaren kan aanhouden.
De open-weight laag zal de top 20 doorbreken. Op dit moment is het hoogste open-weight model Gemma 3 27B op #42. Llama 4 Maverick zit op #49. Deze modellen verbeteren sneller dan hun eigen tegenhangers omdat ze profiteren van community fine-tuning, aangepaste trainingsgegevens en architecturale wijzigingen die API-only modellen niet kunnen ontvangen. Geef het nog twee kwartalen, en ik verwacht minstens één open-weight model in de top 20 — wat de economie van het inzetten van vision AI op schaal fundamenteel zal veranderen.
Gespecialiseerde verticale modellen zullen het grootste deel van de economische waarde vangen. De huidige ranglijst evalueert algemeen visueel begrip. Maar de markt beweegt zich naar specialisatie — medische beeldvormingsmodellen die röntgenfoto's beter lezen dan welk algemeen model dan ook, satellietbeeldmodellen geoptimaliseerd voor veranderingsdetectie, document AI speciaal gebouwd voor facturen en contracten. De algemene ranglijst blijft de kop, maar het echte geld zal zitten in verticale specialisten die op deze fundamenten zijn gebouwd.
Mijn Aanbevelingen per Gebruiksscenario
Na het testen van alle zestig modellen in echte workflows, is hier mijn gedistilleerde begeleiding. Geen enkel model wint overal — de juiste keuze hangt volledig af van wat u bouwt.
Maximale Nauwkeurigheid
Gemini 3 Pro — nog steeds de beste in structureel detail, ruimtelijk redeneren en complexe diagraminterpretatie. Wanneer nauwkeurigheid onbespreekbaar is, is dit het model.
Snelheidskritische Productie
Gemini 3 Flash — bijna-vlaggenschipkwaliteit bij aanzienlijk lagere latentie. Mijn standaardaanbeveling voor realtime toepassingen.
Verhaal & Toegankelijkheid
GPT-5.2 High — leest niet alleen beelden, het legt uit wat ze betekenen. Beste voor alt-tekstgeneratie, educatieve inhoud en verhalen vertellen vanuit visuals.
Diep Visueel Redeneren
Claude Opus 4 Thinking — langzamer en meer weloverwogen, maar vangt implicaties die anderen missen. Ideaal voor analyse-, beoordelings- en interpretatietaken.
Meertalige & CJK OCR
Kimi K2.5 Thinking — uitzonderlijk op CJK-tekst en gemengde taaldocumenten. Ook sterk als algemene visuele redeneerder op het #6 niveau.
EU-Gegevenssoevereiniteit
Mistral Medium — de enige competitieve optie voor AVG-strenge workloads. Houdt uw afbeeldingen binnen de Europese infrastructuur.
Zelf-Hosting & Privacy
Llama 4 Maverick — open-weight visie die op uw eigen hardware draait. Geen API-aanroepen, geen gegevens die uw netwerkperimeter verlaten.
Budgetbewust
GPT-5 Nano High — verrassend capabel voor zijn kostenniveau. Goed genoeg voor classificatie, labeling en eenvoudige extractie tegen een fractie van de vlaggenschipprijzen.
De meest capabele visiestrategie in 2026 is multi-model orkestratie. Routeer complex redeneren naar Claude. Stuur gestructureerde documenten naar Gemini. Genereer toegankelijke beschrijvingen met GPT-5.2. Gebruik Kimi voor meertalige inhoud. De winnaars zullen niet degenen zijn die het "beste" model kiezen — het zullen degenen zijn die de slimste routeringslaag bouwen.
Gegevensbron: Ranglijsten van Arena Vision Leaderboard, 6 februari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!