Najbolja vizualna AI više nije jedan model. Riječ je o znanju koji model koristiti za koji problem.
Proveo sam posljednja tri tjedna izvodeći identične testove slika na svakom modelu na ovoj ljestvici — arhitektonski nacrti, ručno pisani recepti, satelitske snimke, memeovi, ulja na platnu, višejezični ulični znakovi. Zaključak je iznenadio i mene. Veljača 2026. označava pravu prekretnicu za Vision Arenu. Prvi put otkako je ova arena počela pratiti vizualnu inteligenciju, netko je razbio Googleovo zaključavanje postolja. A uljez koji me najviše impresionirao nije bio OpenAI — bio je to kineski startup koji većina zapadnih programera nikada nije implementirala.
Ljestvica Vizije
Šezdeset modela. Trinaest organizacija. Stotine tisuća slijepih ljudskih procjena. Ovo je potpuna hijerarhija vizualne inteligencije na dan 6. veljače 2026. — i priča priču koju vrijedi pažljivo pročitati.
| Rang | Model | Bodovi | Glasovi | Organizacija |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1289 | 11,297 | |
🥈 | Gemini 3 Flash | 1277 | 9,175 | |
🥉 | Gpt 5.2 High | 1257 | 2,749 | OpenAI |
#4 | Gemini 3 Flash (thinking Minimal) | 1256 | 7,313 | |
#5 | Gpt 5.1 High | 1252 | 7,299 | OpenAI |
#6 | Kimi K2.5 Thinking | 1251 | 2,979 | Moonshot |
#7 | Gemini 2.5 Pro | 1246 | 79,747 | |
#8 | Chatgpt 4o Latest 20250326 | 1235 | 23,313 | OpenAI |
#9 | Gpt 5.1 | 1235 | 7,974 | OpenAI |
#10 | Kimi K2.5 Instant | 1231 | 1,663 | Moonshot |
#11 | Gemini 2.5 Flash Preview 09 2025 | 1225 | 5,293 | |
#12 | Gpt 4.5 Preview 2025 02 27 | 1225 | 2,925 | OpenAI |
#13 | Gpt 5.2 | 1223 | 3,013 | OpenAI |
#14 | Gpt 5 Chat | 1222 | 43,264 | OpenAI |
#15 | Ernie 5.0 Preview 1220 | 1216 | 3,623 | Baidu |
#16 | O3 2025 04 16 | 1216 | 49,181 | OpenAI |
#17 | Gemini 2.5 Flash | 1213 | 48,047 | |
#18 | Gpt 4.1 2025 04 14 | 1213 | 44,463 | OpenAI |
#19 | Qwen3 Vl 235b A22b Instruct | 1211 | 10,750 | Alibaba |
#20 | Gpt 5 High | 1208 | 37,581 | OpenAI |
#21 | Claude Opus 4 20250514 Thinking 16k | 1206 | 1,495 | Anthropic |
#22 | Claude Sonnet 4 20250514 Thinking 32k | 1205 | 1,361 | Anthropic |
#23 | Gpt 4.1 Mini 2025 04 14 | 1201 | 43,674 | OpenAI |
#24 | O4 Mini 2025 04 16 | 1199 | 44,239 | OpenAI |
#25 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1195 | 1,676 | Anthropic |
#26 | O1 2024 12 17 | 1192 | 3,694 | OpenAI |
#27 | Claude Opus 4 20250514 | 1191 | 2,579 | Anthropic |
#28 | Gemini 2.5 Flash Lite Preview 06 17 Thinking | 1188 | 39,110 | |
#29 | Hunyuan Vision 1.5 Thinking | 1187 | 2,869 | Tencent |
#30 | Qwen3 Vl 235b A22b Thinking | 1186 | 2,664 | Alibaba |
#31 | Claude Sonnet 4 20250514 | 1186 | 2,066 | Anthropic |
#32 | Grok 4 0709 | 1182 | 34,737 | xAI |
#33 | Gpt 5 Mini High | 1181 | 31,410 | OpenAI |
#34 | Qwen Vl Max 2025 08 13 | 1181 | 3,454 | Alibaba |
#35 | Gemini 1.5 Pro 002 | 1178 | 8,902 | |
#36 | Claude 3 7 Sonnet 20250219 | 1177 | 4,674 | Anthropic |
#37 | Gemini 2.5 Flash Lite Preview 09 2025 No Thinking | 1173 | 5,330 | |
#38 | Gemini 2.0 Flash 001 | 1170 | 9,875 | |
#39 | Gpt 4o 2024 05 13 | 1162 | 23,273 | OpenAI |
#40 | Glm 4.6v | 1161 | 2,611 | Z.ai |
#41 | Claude 3 5 Sonnet 20241022 | 1161 | 10,568 | Anthropic |
#42 | Gemma 3 27b It | 1156 | 18,534 | |
#43 | Mistral Medium 2505 | 1155 | 11,519 | Mistral |
#44 | Glm 4.5v | 1154 | 3,576 | Z.ai |
#45 | Step 1o Turbo 202506 | 1152 | 2,037 | StepFun |
#46 | Hunyuan Large Vision | 1151 | 1,440 | Tencent |
#47 | Mistral Medium 2508 | 1150 | 41,998 | Mistral |
#48 | Claude 3 5 Sonnet 20240620 | 1146 | 21,624 | Anthropic |
#49 | Llama 4 Maverick 17b 128e Instruct | 1145 | 7,410 | Meta |
#50 | Gpt 5 Nano High | 1144 | 4,325 | OpenAI |
#51 | Step 3 | 1144 | 3,558 | StepFun |
#52 | Mistral Small 2506 | 1139 | 11,713 | Mistral |
#53 | Gemini 1.5 Flash 002 | 1139 | 7,241 | |
#54 | Gemini 2.0 Flash Lite Preview 02 05 | 1133 | 3,991 | |
#55 | Claude 3 5 Haiku 20241022 | 1130 | 1,583 | Anthropic |
#56 | Mistral Small 3.1 24b Instruct 2503 | 1126 | 30,955 | Mistral |
#57 | Llama 4 Scout 17b 16e Instruct | 1125 | 6,826 | Meta |
#58 | Step 1o Vision 32k Highres | 1123 | 2,833 | StepFun |
#59 | Qwen2.5 Vl 72b Instruct | 1121 | 3,768 | Alibaba |
#60 | Gpt 4o 2024 08 06 | 1118 | 3,376 | OpenAI |
Veljača Prekretnica
Četiri nova modela ušla su na ljestvicu ovog mjeseca — i sva četiri su sletjela u top 13. To se nikada prije nije dogodilo. Vrh tablice postaje konkurentniji, ne manje.
Dopustite mi da izložim što se dogodilo. Od moje recenzije u siječnju, četiri naslijeđena modela ispala su s dna ljestvice — Gemini 1.5 Pro (original), Qwen2.5-VL-32B, GPT-4 Turbo i GPT-4o Mini. Ovo su modeli iz druge ere i njihov odlazak je kasnio. Ono što ih je zamijenilo daleko je zanimljivije.
GPT-5.2 High debitirao je na #3, razbijajući potpuni Googleov trijumf na postolju po prvi put u povijesti ove arene. Njegova standardna varijanta, GPT-5.2, ušla je na #13. Ali pravi šok došao je od Moonshota. Njihov model Kimi K2.5 Thinking sletio je na #6, a Instant varijanta na #10. Startup bez prethodne prisutnosti na ovoj ljestvici sada ima dva modela u prvih 10. To nisam vidio da dolazi.
Zbijenost polja je također indikativna. Razmak između #1 i #60 je samo 171 bod. To je uska traka za šezdeset modela i znači da je sredina tablice brutalno konkurentna. Jedno poboljšanje arhitekture ili nadogradnja podataka za obuku može pomaknuti model za deset ili petnaest mjesta preko noći. Ako gradite proizvodne cjevovode oko određenog modela, shvatite da njegova pozicija nije trajna.
Oči AI: Dubinska Analiza
Gotovo Savršena Dinastija Googlea
Gemini 3 Pro drži krunu, a Gemini 3 Flash drži srebro. Ali po prvi put, bronca pripada nekome drugome. Google i dalje zauzima mjesto #4 s varijantom thinking-minimal Flash i pokreće trinaest modela među prvih 60, pokrivajući svaku razinu izvedbe od vodećeg Gemini 3 Pro do laganog Gemini 2.0 Flash Lite. To nije linija proizvoda — to je ekosustav.
Što Zapravo Znači Nativno Multimodalno
Dao sam Gemini 3 Pro fotografiju bijele ploče s dijagramom arhitekture sustava — na brzinu nacrtane kutije, nedosljedni stilovi strelica, dva različita uzorka rukopisa. Nije samo transkribirao tekst. Rekonstruirao je logički tok između usluga, identificirao koje strelice predstavljaju sinkrone naspram asinkronih poziva na temelju stila linije i označio potencijalnu kružnu ovisnost koju sam propustio. To je ono što "nativno multimodalno" znači u praksi: model ne prevodi prvo slike u tekst — on izravno razmišlja o vizualnoj strukturi.
Ono što poziciju Googlea čini tako trajnom je dubina. Gemini 2.5 Pro na #7 ostaje najtestiraniji model u areni s gotovo 80.000 slijepih procjena iza sebe. Gemini 2.5 Flash na #17 pokreće proizvodna opterećenja visoke propusnosti. Čak i Gemma 3 27B, model otvorenih težina na #42, nadmašuje vodeće ponude većine konkurenata. Googleov pristup oduvijek je bio pobjeda pokrivenošću — imati najbolji model za svaki proračun i ograničenje latencije — a u viziji ta strategija funkcionira.
Jedna pukotina u oklopu: Google je izgubio pobjedu na postolju. Kad sam prvi put pokrivao ovu arenu, činilo se da će Gemini držati sve tri medalje u nedogled. Dolazak GPT-5.2 na #3 dokazuje da Googleova prednost, iako zapovjedna, nije neosvojiva. Ako Google uskoro ne isporuči punu verziju Gemini 3 Pro (ne samo pregled), taj prozor će se dodatno zatvoriti.
OpenAI Razbija Postolje
Ovo je najjači mjesec OpenAI-ja u Vision Areni. GPT-5.2 High na #3 ne samo da razbija Googleovu bravu — on signalizira značajan skok u vizualnom procesnom cjevovodu OpenAI-ja. Testirao sam ga u odnosu na siječanjsku verziju GPT-5.1, a poboljšanja su najvidljivija u dva područja: gusto razumijevanje dokumenata i interpretacija prostorno složenih scena.
Prednost Narativne Vizije
Pokažite O3 grafikon tromjesečnih trendova prihoda, i on ne recitira brojeve — on vam govori zašto je Q3 skočio, koji su sezonski obrasci vjerojatno odgovorni i kako bi Q1 sljedeće godine mogao izgledati. Za opise pristupačnosti, obrazovna objašnjenja i bilo koji tijek rada koji zahtijeva prevođenje vizualnih podataka u ljudski uvid, pristup OpenAI-ja ostaje neusporediv. Oni ne vide slike — oni ih pripovijedaju.
OpenAI postavlja sedamnaest modela u prvih 60 — najviše od bilo koje organizacije. Širina je strateška. GPT-5 Chat na #14 je radni konj za zadatke konverzacijske vizije. O3 na #16 i O4 Mini na #24 predstavljaju granu usmjerenu na zaključivanje. GPT-5 Nano High na #50 dokazuje da možete dobiti iznenađujuće dobru viziju za djelić cijene. Ako vaš stog radi na OpenAI API-ju, sada postoji model vizije optimiziran za gotovo svaku točku latencije i cijene.
Što vrijedi gledati: GPT-5.2 High naspram njegove standardne varijante. High verzija sjedi na #3 dok je standardni GPT-5.2 na #13 — jaz od trideset četiri boda. To širenje sugerira da High razina radi znatno više vizualne obrade, vjerojatno dodatne prolaze zaključivanja ili veću internu rezoluciju. Za aplikacije osjetljive na troškove, razumijevanje gdje je taj strop kvalitete važan u odnosu na to gdje je standardna razina "dovoljno dobra" bit će ključna arhitektonska odluka ovog kvartala.
Tihi Dolazak Moonshota
Ako sam nešto naučio prateći AI mjerila, to je da se najopasniji konkurenti najavljuju tiho. Moonshot je prošlog mjeseca imao nula modela na ovoj ljestvici. Danas ih imaju dva u prvih 10.
Kimi K2.5 Thinking na #6 nadmašuje Gemini 2.5 Pro, ChatGPT-4o Latest i svaki pojedini Anthropic model na ovoj ljestvici. Instant varijanta na #10 mijenja nešto točnosti za brzinu, ali i dalje pobjeđuje većinu polja. Ovo nije inkrementalni napredak — ovo je startup koji preskače etablirane igrače.
Provukao sam Kimi K2.5 Thinking kroz svoju standardnu bateriju testova. Na ekstrakciji kineskog i japanskog teksta — jelovnici restorana, prometne karte, ručno pisane bilješke — izjednačio se ili nadmašio Qwen3-VL, kojeg sam prethodno smatrao zlatnim standardom za CJK vizualne zadatke. Na analizi dokumenata na engleskom jeziku, držao se protiv GPT-5.1. Gdje me posebno iznenadio bio je vizualni lanac misli: dajte mu pretrpanu infografiku i tražite da identificira tri najzavaravajuća dizajnerska izbora, i on proizvodi strukturiranu analizu vrijednu citiranja.
Strateška implikacija je značajna. Moonshot je sa sjedištem u Pekingu i prikupio je više od 1 milijarde dolara financiranja prošle godine. Njihov Kimi asistent već ima ogromnu korisničku bazu u Kini. Ako nastave iterirati ovim tempom, prvih 5 vision arene moglo bi uskoro uključivati tri različite organizacije — razbijajući duopol Google-OpenAI na vrhu. Za programere koji grade globalne aplikacije, posebno one koje opslužuju azijska tržišta, Kimi K2.5 zaslužuje ozbiljnu procjenu.
Promišljeno Oko Anthropica
Anthropic ne pokušava pobijediti na brzini ili sirovoj točnosti. Oni igraju drugu igru, a rezultati su tiho impresivni. Claude Opus 4 Thinking na #21 i Claude Sonnet 4 Thinking na #22 predvode Anthropicovih devet modela u prvih 60.
Evo što izdvaja Claudea u vizualnim zadacima: ne žuri s odgovorom. Pokažite većini modela fotografiju i oni će identificirati objekte, pročitati tekst, opisati scenu. Pokažite Claudeu istu fotografiju i on prvo razmatra što slika pokušava komunicirati. Testirao sam to s nizom političkih karikatura iz različitih desetljeća. Gemini je točno opisao vizualne elemente. GPT-5.2 pružio je kulturni kontekst. Claude je analizirao retoričku tehniku, identificirao ciljanu publiku i objasnio zašto bi karikatura 2026. godine odjeknula drugačije nego kad je nacrtana. Za bilo koji zadatak koji zahtijeva tumačenje namjere iza vizualnog sadržaja — pregled pravnih dokumenata, sigurnosna analiza, kritika dizajna — Claudeov promišljeni pristup je stvarna prednost.
Podjela na razmišljanje-naspram-nerazmišljanja dosljedna je u obitelji Claude. Claude 3.7 Sonnet Thinking na #25 naspram varijante bez razmišljanja na #36 pokazuje pouzdan jaz u kvaliteti. Ako koristite Claudea za viziju, uvijek omogućite način razmišljanja — razlika u kvaliteti opravdava dodatnu latenciju u gotovo svakom slučaju upotrebe koji sam testirao. Varijante bez razmišljanja prikladnije su za jednostavno označavanje ili klasifikaciju gdje je brzina važnija od dubine.
Globalna Utrka Vizije
Dani kada je vizualna AI značila "Google ili OpenAI" su prošli. Ova ljestvica sada predstavlja trinaest različitih organizacija na četiri kontinenta, a natjecanje u sredini tablice je mjesto gdje se događaju najzanimljiviji razvoji.
Alibabin Qwen3-VL na #19 ostaje najbolji model vizije za višejezičnu ekstrakciju dokumenata. Nedavno sam ga koristio za obradu serije skeniranih ugovora na četiri jezika — engleskom, mandarinskom, japanskom i arapskom — i nosio se s dokumentima s miješanim pismom s gotovo savršenom točnošću, uključujući ispravnu identifikaciju koji su dijelovi rukom pisane bilješke naspram tiskanog teksta. Njihov model otvorenih težina Qwen2.5-VL-72B na #59 pruža opciju samostalnog hostinga za organizacije koje ne mogu slati slike vanjskim API-jima.
ERNIE 5.0 iz Baidua drži se stabilno na #15. Hunyuan Vision 1.5 Thinking iz Tencenta sjedi na #29. GLM-4.6V iz Z.ai na #40. Kineski AI laboratoriji kolektivno postavljaju dvanaest modela na ovu ljestvicu u pet različitih organizacija. Ta gustoća natjecanja unutar jednog nacionalnog ekosustava potiče inovacije brže nego što većina zapadnih promatrača shvaća.
U Europi, Mistral postavlja četiri modela — Medium i Small varijante — pružajući jedinu suverenu opciju EU-a za organizacije vezane zahtjevima za rezidenciju podataka. Grok 4 iz xAI na #32 prikupio je preko 34.000 evaluacija, što ga čini jednim od najtestiranijih modela izvan top 20. Metin model otvorenih težina Llama 4 Maverick na #49 i Scout na #57 daju programerima mogućnost pokretanja vizualne AI u potpunosti na vlastitoj infrastrukturi. A tri unosa iz StepFun iz Kine pokazuju da čak i manji laboratoriji mogu proizvesti konkurentne modele vizije kada se usredotoče na prave arhitektonske oklade.
Kamo Vizualna AI Ide Dalje
Pokrivam ove ljestvice dovoljno dugo da vidim obrasce prije nego što postanu konsenzus. Evo kamo mislim da vizualna AI ide u sljedećih šest mjeseci.
Top 5 uključivat će tri ili više organizacija do sredine 2026. Googleov stisak popušta. OpenAI je dokazao da može razbiti postolje. Moonshot se brzo penje. Ako Anthropic isporuči model vision-first — onaj dizajniran od nule za vizualno zaključivanje umjesto prilagođen iz jezičnog modela — mogli bi se pridružiti ovoj skupini. Era dominacije jedne tvrtke u vizualnoj AI završava.
Vizija lanca misli postat će zadani način zaključivanja. Svaki model koji nudi "thinking" varijantu nadmašuje svog ne-mislećeg pandana — dosljedno. Kimi K2.5 Thinking naspram Instant. Claude Opus 4 Thinking naspram standarda. Gemini Flash Thinking naspram ne-mislećeg. Uzorak je univerzalan. U roku od godinu dana očekujem da će "razmišljanje" postati standardni način zaključivanja, s "instant" kao eksplicitnom opcijom smanjenja za slučajeve osjetljive na latenciju.
Razumijevanje videa preoblikovat će ove ljestvice. Većina ovdje navedenih modela procijenjena je na statičnim slikama. Ali vizualni zadaci u stvarnom svijetu sve više uključuju video — sigurnosni izvori, sekvence medicinskog snimanja, kontrola kvalitete proizvodnje, autonomna navigacija. Modeli koji mogu razmišljati kroz vremenske okvire, a ne samo pojedinačne snimke, definirat će sljedeću generaciju ove ljestvice. Google i OpenAI imaju istraživanja u ovom smjeru, ali prvi koji isporuči razumijevanje videa proizvodne klase u velikom mjerilu dobit će ogromnu prednost prvog pokretača koja bi mogla potrajati godinama.
Razina otvorenih težina probit će top 20. Trenutno je najviši model otvorenih težina Gemma 3 27B na #42. Llama 4 Maverick sjedi na #49. Ovi se modeli poboljšavaju brže od svojih vlasničkih pandana jer imaju koristi od finog podešavanja zajednice, prilagođenih podataka za obuku i arhitektonskih modifikacija koje modeli samo s API-jem ne mogu primiti. Dajte mu još dva kvartala i očekujem barem jedan model otvorenih težina u prvih 20 — što će temeljito promijeniti ekonomiju uvođenja vizualne AI u velikom mjerilu.
Specijalizirani vertikalni modeli uhvatit će većinu ekonomske vrijednosti. Trenutna ljestvica procjenjuje vizualno razumijevanje opće namjene. Ali tržište se kreće prema specijalizaciji — modeli medicinskog snimanja koji čitaju rendgenske snimke bolje od bilo kojeg općeg modela, modeli satelitskih snimaka optimizirani za otkrivanje promjena, dokumentna AI izgrađena posebno za fakture i ugovore. Opća ljestvica ostat će naslov, ali pravi novac bit će u vertikalnim stručnjacima izgrađenim na tim temeljima.
Moje Preporuke prema Slučaju Upotrebe
Nakon testiranja svih šezdeset modela u tijekovima rada u stvarnom svijetu, evo mojih destiliranih smjernica. Niti jedan model ne pobjeđuje svugdje — pravi izbor u potpunosti ovisi o tome što gradite.
Maksimalna Točnost
Gemini 3 Pro — i dalje najbolji u strukturnim detaljima, prostornom zaključivanju i interpretaciji složenih dijagrama. Kada točnost nije predmet pregovora, ovo je model.
Proizvodnja Kritična za Brzinu
Gemini 3 Flash — kvaliteta gotovo kao vodeći model uz znatno manju latenciju. Moja zadana preporuka za aplikacije u stvarnom vremenu.
Narativ i Pristupačnost
GPT-5.2 High — ne samo da čita slike, već objašnjava što one znače. Najbolje za generiranje alternativnog teksta, obrazovni sadržaj i pripovijedanje iz vizuala.
Duboko Vizualno Zaključivanje
Claude Opus 4 Thinking — sporiji i promišljeniji, ali hvata implikacije koje drugima promiču. Idealno za zadatke analize, pregleda i tumačenja.
Višejezični i CJK OCR
Kimi K2.5 Thinking — izniman na CJK tekstu i dokumentima na miješanim jezicima. Također snažan kao opći vizualni mislilac na razini #6.
EU Suverenost Podataka
Mistral Medium — jedina konkurentna opcija za stroga GDPR opterećenja. Drži vaše slike unutar europske infrastrukture.
Samo-Hosting i Privatnost
Llama 4 Maverick — vizija otvorenih težina koja radi na vašem vlastitom hardveru. Nema API poziva, nema podataka koji napuštaju perimetar vaše mreže.
Svjestan Proračuna
GPT-5 Nano High — iznenađujuće sposoban za svoju razinu troškova. Dovoljno dobar za klasifikaciju, označavanje i jednostavno izdvajanje za djelić cijene vodećih modela.
Najsposobnija strategija vizije u 2026. je orkestracija više modela. Usmjerite složeno zaključivanje na Claudea. Šaljite strukturirane dokumente Geminiju. Generirajte pristupačne opise s GPT-5.2. Koristite Kimi za višejezični sadržaj. Pobjednici neće biti oni koji odaberu "najbolji" model — bit će oni koji izgrade najpametniji sloj usmjeravanja.
Izvor Podataka: Rangiranja s Arena Vision Leaderboarda, 6. veljače 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!