Nejlepší vizuální AI už není jediný model. Jde o to vědět, který model použít pro každý problém.
Strávil jsem poslední tři týdny prováděním identických obrazových testů na každém modelu v tomto žebříčku — architektonické plány, ručně psané recepty, satelitní snímky, memy, olejomalby, vícejazyčné pouliční značení. Závěr překvapil i mě. Únor 2026 znamená skutečný zlom pro Vision Arena. Poprvé od doby, kdy tato aréna začala sledovat vizuální inteligenci, někdo prolomil nadvládu Googlu na stupních vítězů. A vetřelec, který mě nejvíce ohromil, nebyl OpenAI — byl to čínský startup, který většina západních vývojářů nikdy nenasadila.
Žebříček Vision
Šedesát modelů. Třináct organizací. Stovky tisíc slepých lidských hodnocení. Toto je kompletní hierarchie vizuální inteligence k 6. únoru 2026 — a vypráví příběh, který stojí za to číst pozorně.
| Pořadí | Model | Skóre | Hlasy | Organizace |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1289 | 11,297 | |
🥈 | Gemini 3 Flash | 1277 | 9,175 | |
🥉 | Gpt 5.2 High | 1257 | 2,749 | OpenAI |
#4 | Gemini 3 Flash (thinking Minimal) | 1256 | 7,313 | |
#5 | Gpt 5.1 High | 1252 | 7,299 | OpenAI |
#6 | Kimi K2.5 Thinking | 1251 | 2,979 | Moonshot |
#7 | Gemini 2.5 Pro | 1246 | 79,747 | |
#8 | Chatgpt 4o Latest 20250326 | 1235 | 23,313 | OpenAI |
#9 | Gpt 5.1 | 1235 | 7,974 | OpenAI |
#10 | Kimi K2.5 Instant | 1231 | 1,663 | Moonshot |
#11 | Gemini 2.5 Flash Preview 09 2025 | 1225 | 5,293 | |
#12 | Gpt 4.5 Preview 2025 02 27 | 1225 | 2,925 | OpenAI |
#13 | Gpt 5.2 | 1223 | 3,013 | OpenAI |
#14 | Gpt 5 Chat | 1222 | 43,264 | OpenAI |
#15 | Ernie 5.0 Preview 1220 | 1216 | 3,623 | Baidu |
#16 | O3 2025 04 16 | 1216 | 49,181 | OpenAI |
#17 | Gemini 2.5 Flash | 1213 | 48,047 | |
#18 | Gpt 4.1 2025 04 14 | 1213 | 44,463 | OpenAI |
#19 | Qwen3 Vl 235b A22b Instruct | 1211 | 10,750 | Alibaba |
#20 | Gpt 5 High | 1208 | 37,581 | OpenAI |
#21 | Claude Opus 4 20250514 Thinking 16k | 1206 | 1,495 | Anthropic |
#22 | Claude Sonnet 4 20250514 Thinking 32k | 1205 | 1,361 | Anthropic |
#23 | Gpt 4.1 Mini 2025 04 14 | 1201 | 43,674 | OpenAI |
#24 | O4 Mini 2025 04 16 | 1199 | 44,239 | OpenAI |
#25 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1195 | 1,676 | Anthropic |
#26 | O1 2024 12 17 | 1192 | 3,694 | OpenAI |
#27 | Claude Opus 4 20250514 | 1191 | 2,579 | Anthropic |
#28 | Gemini 2.5 Flash Lite Preview 06 17 Thinking | 1188 | 39,110 | |
#29 | Hunyuan Vision 1.5 Thinking | 1187 | 2,869 | Tencent |
#30 | Qwen3 Vl 235b A22b Thinking | 1186 | 2,664 | Alibaba |
#31 | Claude Sonnet 4 20250514 | 1186 | 2,066 | Anthropic |
#32 | Grok 4 0709 | 1182 | 34,737 | xAI |
#33 | Gpt 5 Mini High | 1181 | 31,410 | OpenAI |
#34 | Qwen Vl Max 2025 08 13 | 1181 | 3,454 | Alibaba |
#35 | Gemini 1.5 Pro 002 | 1178 | 8,902 | |
#36 | Claude 3 7 Sonnet 20250219 | 1177 | 4,674 | Anthropic |
#37 | Gemini 2.5 Flash Lite Preview 09 2025 No Thinking | 1173 | 5,330 | |
#38 | Gemini 2.0 Flash 001 | 1170 | 9,875 | |
#39 | Gpt 4o 2024 05 13 | 1162 | 23,273 | OpenAI |
#40 | Glm 4.6v | 1161 | 2,611 | Z.ai |
#41 | Claude 3 5 Sonnet 20241022 | 1161 | 10,568 | Anthropic |
#42 | Gemma 3 27b It | 1156 | 18,534 | |
#43 | Mistral Medium 2505 | 1155 | 11,519 | Mistral |
#44 | Glm 4.5v | 1154 | 3,576 | Z.ai |
#45 | Step 1o Turbo 202506 | 1152 | 2,037 | StepFun |
#46 | Hunyuan Large Vision | 1151 | 1,440 | Tencent |
#47 | Mistral Medium 2508 | 1150 | 41,998 | Mistral |
#48 | Claude 3 5 Sonnet 20240620 | 1146 | 21,624 | Anthropic |
#49 | Llama 4 Maverick 17b 128e Instruct | 1145 | 7,410 | Meta |
#50 | Gpt 5 Nano High | 1144 | 4,325 | OpenAI |
#51 | Step 3 | 1144 | 3,558 | StepFun |
#52 | Mistral Small 2506 | 1139 | 11,713 | Mistral |
#53 | Gemini 1.5 Flash 002 | 1139 | 7,241 | |
#54 | Gemini 2.0 Flash Lite Preview 02 05 | 1133 | 3,991 | |
#55 | Claude 3 5 Haiku 20241022 | 1130 | 1,583 | Anthropic |
#56 | Mistral Small 3.1 24b Instruct 2503 | 1126 | 30,955 | Mistral |
#57 | Llama 4 Scout 17b 16e Instruct | 1125 | 6,826 | Meta |
#58 | Step 1o Vision 32k Highres | 1123 | 2,833 | StepFun |
#59 | Qwen2.5 Vl 72b Instruct | 1121 | 3,768 | Alibaba |
#60 | Gpt 4o 2024 08 06 | 1118 | 3,376 | OpenAI |
Únorový Zlom
Tento měsíc vstoupily do žebříčku čtyři nové modely — a všechny čtyři se umístily v top 13. To se ještě nikdy nestalo. Vrchol tabulky je více konkurenční, ne méně.
Dovolte mi vysvětlit, co se stalo. Od mé lednové recenze vypadly ze spodní části žebříčku čtyři starší modely — Gemini 1.5 Pro (původní), Qwen2.5-VL-32B, GPT-4 Turbo a GPT-4o Mini. Jsou to modely z jiné éry a jejich odchod byl na spadnutí. To, co je nahradilo, je mnohem zajímavější.
GPT-5.2 High debutoval na #3, čímž poprvé v historii této arény rozbil kompletní obsazení pódia Googlem. Jeho standardní varianta, GPT-5.2, vstoupila na #13. Ale skutečný šok přišel od Moonshot. Jejich model Kimi K2.5 Thinking přistál na #6 a varianta Instant na #10. Startup bez předchozí přítomnosti v tomto žebříčku má nyní dva modely v top 10. To jsem nečekal.
Zahuštění pole je také vypovídající. Rozdíl mezi #1 a #60 je pouhých 171 bodů. To je úzké pásmo pro šedesát modelů a znamená to, že střed tabulky je brutálně konkurenční. Jediné architektonické vylepšení nebo upgrade tréninkových dat může posunout model o deset nebo patnáct příček přes noc. Pokud stavíte produkční pipeline kolem konkrétního modelu, pochopte, že jeho pozice není trvalá.
Oči AI: Hloubková Analýza
Téměř Dokonalá Dynastie Googlu
Gemini 3 Pro drží korunu a Gemini 3 Flash drží stříbro. Ale poprvé patří bronz někomu jinému. Google stále okupuje místo #4 s variantou thinking-minimal modelu Flash a provozuje třináct modelů v top 60, pokrývajících každou výkonnostní úroveň od vlajkové lodi Gemini 3 Pro až po lehký Gemini 2.0 Flash Lite. To není produktová řada — to je ekosystém.
Co Skutečně Znamená Nativní Multimodální
Dal jsem Gemini 3 Pro fotku tabule s diagramem systémové architektury — narychlo nakreslené krabice, nekonzistentní styly šipek, dva různé vzorky rukopisu. Nejenže přepsal text. Zrekonstruoval logický tok mezi službami, identifikoval, které šipky představují synchronní versus asynchronní volání na základě stylu čáry, a označil potenciální kruhovou závislost, kterou jsem přehlédl. To je to, co v praxi znamená "nativní multimodální": model nepřekládá obrázky nejprve na text — uvažuje přímo o vizuální struktuře.
Co dělá pozici Googlu tak trvanlivou, je hloubka. Gemini 2.5 Pro na #7 zůstává nejvíce bojem prověřeným modelem v aréně s téměř 80 000 slepými hodnoceními za sebou. Gemini 2.5 Flash na #17 pohání vysoce propustné produkční zátěže. Dokonce i Gemma 3 27B, model s otevřenými vahami na #42, překonává vlajkové nabídky většiny konkurentů. Přístup Googlu byl vždy vyhrát pokrytím — mít nejlepší model pro každý rozpočet a omezení latence — a ve vision AI tato strategie funguje.
Jediná trhlina v brnění: Google ztratil kompletní obsazení pódia. Když jsem poprvé pokrýval tuto arénu, zdálo se, že Gemini bude držet všechny tři medaile donekonečna. Příchod GPT-5.2 na #3 dokazuje, že náskok Googlu, ač dominantní, není neotřesitelný. Pokud Google brzy nevydá plnou verzi Gemini 3 Pro (nejen náhled), toto okno se dále přivře.
OpenAI Prolomila Podium
Toto je nejsilnější měsíc OpenAI ve Vision Arena. GPT-5.2 High na #3 nejenže prolamuje zámek Googlu — signalizuje významný skok v potrubí vizuálního zpracování OpenAI. Testoval jsem ho proti lednové verzi GPT-5.1 a vylepšení jsou nejviditelnější ve dvou oblastech: porozumění hustým dokumentům a interpretace prostorově složitých scén.
Výhoda Narativní Vize
Ukažte O3 graf čtvrtletních trendů příjmů a nebude recitovat čísla — řekne vám, proč Q3 vyskočil, jaké sezónní vzorce jsou pravděpodobně zodpovědné a jak by mohl vypadat Q1 příštího roku. Pro popisy přístupnosti, vzdělávací vysvětlení a jakýkoli pracovní postup, který vyžaduje překlad vizuálních dat do lidského vhledu, zůstává přístup OpenAI nepřekonaný. Nevidí obrázky — vyprávějí je.
OpenAI staví sedmnáct modelů v top 60 — nejvíce ze všech organizací. Šíře je strategická. GPT-5 Chat na #14 je tažným koněm pro konverzační vizuální úkoly. O3 na #16 a O4 Mini na #24 představují větev zaměřenou na uvažování. GPT-5 Nano High na #50 dokazuje, že můžete získat překvapivě dobrou vizi za zlomek ceny. Pokud váš stack běží na API OpenAI, nyní existuje model vize optimalizovaný pro prakticky každý bod latence a ceny.
Co stojí za sledování: GPT-5.2 High versus jeho standardní varianta. Verze High sedí na #3, zatímco standardní GPT-5.2 je na #13 — mezera třicet čtyři bodů. Tento rozdíl naznačuje, že úroveň High provádí podstatně více vizuálního zpracování, možná další průchody inference nebo větší interní rozlišení. Pro aplikace citlivé na náklady bude klíčovým architektonickým rozhodnutím tohoto čtvrtletí pochopení, kde na tomto stropu kvality záleží, versus kde je standardní úroveň "dostatečně dobrá".
Tichý Příchod Moonshotu
Pokud jsem se něco naučil ze sledování benchmarků AI, pak to, že nejnebezpečnější konkurenti se oznamují tiše. Moonshot měl minulý měsíc v tomto žebříčku nula modelů. Dnes mají dva v první desítce.
Kimi K2.5 Thinking na #6 překonává Gemini 2.5 Pro, ChatGPT-4o Latest a každý jednotlivý model Anthropic v tomto žebříčku. Varianta Instant na #10 mění část přesnosti za rychlost, ale stále poráží většinu pole. To není postupný pokrok — to je startup přeskakující zavedené hráče.
Prohnal jsem Kimi K2.5 Thinking svou standardní testovací baterií. V extrakci čínského a japonského textu — jídelní lístky restaurací, dopravní mapy, ručně psané poznámky — se vyrovnal nebo překonal Qwen3-VL, který jsem dříve považoval za zlatý standard pro úkoly vize CJK. V analýze dokumentů v angličtině obstál proti GPT-5.1. Kde mě obzvláště překvapil, byl vizuální myšlenkový řetězec: dejte mu nepřehlednou infografiku a požádejte ho, aby identifikoval tři nejvíce zavádějící designové volby, a vytvoří strukturovanou analýzu hodnou citace.
Strategický dopad je významný. Moonshot sídlí v Pekingu a loni získal financování přes 1 miliardu dolarů. Jejich asistent Kimi má již v Číně obrovskou uživatelskou základnu. Pokud budou pokračovat v iteraci tímto tempem, top 5 vision arény by brzy mohla zahrnovat tři různé organizace — prolomením duopolu Google-OpenAI na vrcholu. Pro vývojáře budující globální aplikace, zejména ty, které obsluhují asijské trhy, si Kimi K2.5 zaslouží vážné hodnocení.
Uvážlivé Oko Anthropicu
Anthropic se nesnaží vyhrát na rychlost nebo hrubou přesnost. Hrají jinou hru a výsledky jsou tiše působivé. Claude Opus 4 Thinking na #21 a Claude Sonnet 4 Thinking na #22 vedou devět modelů Anthropicu v top 60.
Zde je to, co odděluje Clauda v úkolech vize: nespěchá s odpovědí. Ukažte většině modelů fotku a identifikují objekty, přečtou text, popíšou scénu. Ukažte Claudeovi stejnou fotku a on nejprve zváží, co se obraz snaží sdělit. Testoval jsem to na sadě politických karikatur z různých desetiletí. Gemini přesně popsal vizuální prvky. GPT-5.2 poskytl kulturní kontext. Claude analyzoval rétorickou techniku, identifikoval zamýšlené publikum a vysvětlil, proč by karikatura v roce 2026 zapůsobila jinak, než když byla nakreslena. Pro jakýkoli úkol, který vyžaduje interpretaci záměru za vizuálním obsahem — kontrola právních dokumentů, bezpečnostní analýza, kritika designu — je Claudeův uvážlivý přístup skutečnou výhodou.
Rozdělení myslící-versus-nemyslící je konzistentní napříč rodinou Claude. Claude 3.7 Sonnet Thinking na #25 versus nemyslící varianta na #36 ukazuje spolehlivou kvalitativní mezeru. Pokud používáte Claude pro vizi, vždy povolte režim myšlení — rozdíl v kvalitě ospravedlňuje přidanou latenci téměř v každém případě použití, který jsem testoval. Nemyslící varianty jsou vhodnější pro jednoduché štítkování nebo klasifikaci, kde na rychlosti záleží více než na hloubce.
Globální Závod ve Vision
Dny, kdy vision AI znamenalo "Google nebo OpenAI", jsou pryč. Tento žebříček nyní reprezentuje třináct různých organizací na čtyřech kontinentech a konkurence ve středu tabulky je místem, kde se děje nejzajímavější vývoj.
Alibaba Qwen3-VL na #19 zůstává nejlepším modelem vize pro extrakci vícejazyčných dokumentů. Nedávno jsem ho použil ke zpracování dávky naskenovaných smluv ve čtyřech jazycích — angličtině, mandarínštině, japonštině a arabštině — a zvládl dokumenty se smíšeným písmem s téměř dokonalou přesností, včetně správné identifikace toho, které sekce byly ručně psané poznámky versus tištěný text. Jejich model s otevřenými vahami Qwen2.5-VL-72B na #59 poskytuje možnost vlastního hostování pro organizace, které nemohou posílat obrázky externím API.
ERNIE 5.0 od Baidu se drží stabilně na #15. Hunyuan Vision 1.5 Thinking od Tencentu sedí na #29. GLM-4.6V od Z.ai na #40. Čínské AI laboratoře společně umisťují dvanáct modelů v tomto žebříčku napříč pěti různými organizacemi. Tato hustota konkurence v rámci jednoho národního ekosystému pohání inovace rychleji, než si většina západních pozorovatelů uvědomuje.
V Evropě staví Mistral čtyři modely — varianty Medium a Small — poskytující jedinou suverénní možnost EU pro organizace vázané požadavky na rezidenci dat. Grok 4 od xAI na #32 nashromáždil přes 34 000 hodnocení, což z něj činí jeden z nejvíce bojem prověřených modelů mimo top 20. Model s otevřenými vahami od Mety Llama 4 Maverick na #49 a Scout na #57 dávají vývojářům možnost provozovat vision AI zcela na vlastní infrastruktuře. A tři příspěvky od StepFun z Číny ukazují, že i menší laboratoře mohou produkovat konkurenceschopné modely vize, když se zaměří na správné architektonické sázky.
Kam Směřuje Vizuální AI
Pokrývám tyto žebříčky dost dlouho na to, abych viděl vzorce dříve, než se stanou konsenzem. Zde je, kam si myslím, že vizuální AI směřuje v příštích šesti měsících.
Top 5 bude zahrnovat tři nebo více organizací do poloviny roku 2026. Sevření Googlu se uvolňuje. OpenAI dokázala, že může prolomit podium. Moonshot rychle stoupá. Pokud Anthropic dodá model vision-first — navržený od základů pro vizuální uvažování spíše než adaptovaný z jazykového modelu — mohli by se k této skupině připojit. Éra dominance jedné společnosti ve vision AI končí.
Vize řetězce myšlenek (Chain-of-thought) se stane výchozím režimem inference. Každý model, který nabízí variantu "thinking", překonává svůj nemyslící protějšek — konzistentně. Kimi K2.5 Thinking versus Instant. Claude Opus 4 Thinking versus standard. Gemini Flash Thinking versus nemyslící. Vzorec je univerzální. Během roku očekávám, že "thinking" se stane standardním režimem inference, s "instant" jako explicitní možností downgradu pro případy citlivé na latenci.
Porozumění videu přetvoří tyto žebříčky. Většina zde uvedených modelů byla hodnocena na statických obrázcích. Ale reálné vizuální úkoly stále více zahrnují video — bezpečnostní kanály, sekvence lékařského zobrazování, kontrola kvality výroby, autonomní navigace. Modely, které dokážou uvažovat napříč časovými rámci, nejen jednotlivými snímky, definují příští generaci tohoto žebříčku. Google i OpenAI mají výzkum v tomto směru, ale první, kdo dodá porozumění videu v produkční kvalitě ve velkém měřítku, získá masivní výhodu prvního tahu, která by mohla přetrvat roky.
Vrstva s otevřenými vahami prolomí top 20. Právě teď je nejvyšším modelem s otevřenými vahami Gemma 3 27B na #42. Llama 4 Maverick sedí na #49. Tyto modely se zlepšují rychleji než jejich proprietární protějšky, protože těží z komunitního jemného doladění, vlastních tréninkových dat a architektonických modifikací, které modely pouze pro API nemohou obdržet. Dejte tomu ještě dvě čtvrtletí a očekávám alespoň jeden model s otevřenými vahami v top 20 — což zásadně změní ekonomiku nasazení vision AI ve velkém měřítku.
Specializované vertikální modely zachytí většinu ekonomické hodnoty. Současný žebříček hodnotí vizuální porozumění obecného účelu. Ale trh se posouvá k specializaci — modely lékařského zobrazování, které čtou rentgenové snímky lépe než jakýkoli obecný model, modely satelitních snímků optimalizované pro detekci změn, dokumentová AI vytvořená speciálně pro faktury a smlouvy. Obecný žebříček zůstane titulkem, ale skutečné peníze budou ve vertikálních specialistech postavených na těchto základech.
Moje Doporučení podle Případu Užití
Po otestování všech šedesáti modelů napříč reálnými pracovními postupy je zde mé destilované vedení. Žádný jednotlivý model nevyhrává všude — správná volba závisí zcela na tom, co stavíte.
Maximální Přesnost
Gemini 3 Pro — stále nejlepší v strukturálních detailech, prostorovém uvažování a interpretaci složitých diagramů. Když je přesnost nesmlouvavá, toto je ten model.
Produkce Kritická na Rychlost
Gemini 3 Flash — kvalita téměř vlajkové lodi s podstatně nižší latencí. Mé výchozí doporučení pro aplikace v reálném čase.
Vyprávění & Přístupnost
GPT-5.2 High — nejenže čte obrázky, vysvětluje, co znamenají. Nejlepší pro generování alternativního textu, vzdělávací obsah a vyprávění příběhů z vizuálů.
Hluboké Vizuální Uvažování
Claude Opus 4 Thinking — pomalejší a rozvážnější, ale zachytí implikace, které jiní minou. Ideální pro úkoly analýzy, kontroly a interpretace.
Vícejazyčné & CJK OCR
Kimi K2.5 Thinking — výjimečný v CJK textu a dokumentech se smíšenými jazyky. Také silný jako obecný vizuální myslitel na úrovni #6.
Datová Suverenita EU
Mistral Medium — jediná konkurenceschopná možnost pro zátěže přísně dodržující GDPR. Udržuje vaše obrázky v evropské infrastruktuře.
Vlastní Hosting & Soukromí
Llama 4 Maverick — vize s otevřenými vahami, která běží na vašem vlastním hardwaru. Žádná volání API, žádná data opouštějící váš síťový perimetr.
Rozpočtově Vědomé
GPT-5 Nano High — překvapivě schopný na svou cenovou úroveň. Dost dobrý pro klasifikaci, štítkování a jednoduchou extrakci za zlomek ceny vlajkových lodí.
Nejschopnější strategií vize v roce 2026 je orchestrace více modelů. Směrujte složité uvažování na Claude. Posílejte strukturované dokumenty na Gemini. Generujte přístupné popisy pomocí GPT-5.2. Používejte Kimi pro vícejazyčný obsah. Vítězi nebudou ti, kteří vyberou "nejlepší" model — budou to ti, kteří postaví nejchytřejší směrovací vrstvu.
Zdroj Dat: Žebříčky z Arena Vision Leaderboard, 6. února 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!