De kroon is net van eigenaar gewisseld. Anthropic's Claude Opus 4.6 heeft Gemini onttroond — en de AI-race is nog nooit zo spannend geweest.
Ik heb het grootste deel van drie jaar doorgebracht met het volgen van elke verschuiving, elke verrassing en elke stille klim op het AI-leaderboard. De meeste updates zijn incrementeel — een punt hier, een nieuwe variant daar. Maar 6 februari 2026 is niet zo'n dag. Voor het eerst sinds Google's Gemini 3-serie zijn heerschappij vestigde, zit er een nieuw model aan de top van de Chat Arena: Claude Opus 4.6. Dit is geen marginale overwinning. Dit is een wisseling van de wacht — en het verandert hoe ik denk over elke aanbeveling die ik doe.
Het Chat Leaderboard
Dit is het hoofdevenement. De Chat Arena meet de algehele AI-capaciteit — niet alleen coderen, niet alleen wiskunde, niet alleen creatief schrijven, maar alles. Blinde head-to-head vergelijkingen, duizenden diverse gebruikers, geen zelfselectiebias. Wanneer een model hier de top bereikt, heeft het dat verdiend over het volledige spectrum van wat mensen daadwerkelijk aan AI vragen om te doen.
| Rang | Model | Score | Stemmen | Organisatie |
|---|---|---|---|---|
🥇 | Claude Opus 4 6 | 1496 | 2,829 | Anthropic |
🥈 | Gemini 3 Pro | 1486 | 34,419 | |
🥉 | Grok 4.1 Thinking | 1475 | 34,455 | xAI |
#4 | Gemini 3 Flash | 1470 | 25,085 | |
#5 | Claude Opus 4 5 20251101 Thinking 32k | 1468 | 26,178 | Anthropic |
#6 | Claude Opus 4 5 20251101 | 1467 | 31,069 | Anthropic |
#7 | Grok 4.1 | 1465 | 38,605 | xAI |
#8 | Gemini 3 Flash (thinking Minimal) | 1463 | 16,255 | |
#9 | Gpt 5.1 High | 1458 | 30,500 | OpenAI |
#10 | Ernie 5.0 0110 | 1452 | 10,184 | Baidu |
#11 | Claude Sonnet 4 5 20250929 | 1450 | 42,437 | Anthropic |
#12 | Claude Sonnet 4 5 20250929 Thinking 32k | 1450 | 44,799 | Anthropic |
#13 | Gemini 2.5 Pro | 1450 | 93,835 | |
#14 | Ernie 5.0 Preview 1203 | 1449 | 9,775 | Baidu |
#15 | Kimi K2.5 Thinking | 1449 | 7,085 | Moonshot |
#16 | Claude Opus 4 1 20250805 Thinking 16k | 1449 | 49,956 | Anthropic |
#17 | Claude Opus 4 1 20250805 | 1445 | 73,888 | Anthropic |
#18 | Gpt 4.5 Preview 2025 02 27 | 1444 | 14,549 | OpenAI |
#19 | Chatgpt 4o Latest 20250326 | 1442 | 81,283 | OpenAI |
#20 | Glm 4.7 | 1441 | 12,021 | Z.ai |
#21 | Gpt 5.2 High | 1438 | 15,062 | OpenAI |
#22 | Gpt 5.1 | 1437 | 32,684 | OpenAI |
#23 | Gpt 5.2 | 1437 | 11,695 | OpenAI |
#24 | Gpt 5 High | 1434 | 32,626 | OpenAI |
#25 | Qwen3 Max Preview | 1434 | 27,843 | Alibaba |
#26 | Kimi K2.5 Instant | 1433 | 2,752 | Moonshot |
#27 | O3 2025 04 16 | 1433 | 61,361 | OpenAI |
#28 | Grok 4 1 Fast Reasoning | 1430 | 27,088 | xAI |
#29 | Kimi K2 Thinking Turbo | 1428 | 32,101 | Moonshot |
#30 | Gpt 5 Chat | 1426 | 31,831 | OpenAI |
#31 | Glm 4.6 | 1425 | 35,339 | Z.ai |
#32 | Qwen3 Max 2025 09 23 | 1425 | 9,221 | Alibaba |
#33 | Claude Opus 4 20250514 Thinking 16k | 1424 | 37,974 | Anthropic |
#34 | Deepseek V3.2 Exp | 1423 | 11,767 | DeepSeek |
#35 | Deepseek V3.2 Exp Thinking | 1423 | 9,002 | DeepSeek |
#36 | Qwen3 235b A22b Instruct 2507 | 1422 | 68,201 | Alibaba |
#37 | Grok 4 Fast Chat | 1422 | 6,989 | xAI |
#38 | Deepseek V3.2 Thinking | 1420 | 21,792 | DeepSeek |
#39 | Deepseek V3.2 | 1419 | 26,704 | DeepSeek |
#40 | Deepseek R1 0528 | 1418 | 19,290 | DeepSeek |
#41 | Ernie 5.0 Preview 1022 | 1418 | 4,619 | Baidu |
#42 | Deepseek V3.1 | 1418 | 15,299 | DeepSeek |
#43 | Kimi K2 0905 Preview | 1418 | 11,974 | Moonshot |
#44 | Deepseek V3.1 Thinking | 1417 | 11,983 | DeepSeek |
#45 | Kimi K2 0711 Preview | 1417 | 28,662 | Moonshot |
#46 | Deepseek V3.1 Terminus | 1416 | 3,761 | DeepSeek |
#47 | Deepseek V3.1 Terminus Thinking | 1416 | 3,549 | DeepSeek |
#48 | Qwen3 Vl 235b A22b Instruct | 1415 | 11,683 | Alibaba |
#49 | Mistral Large 3 | 1414 | 23,001 | Mistral |
#50 | Claude Opus 4 20250514 | 1414 | 45,579 | Anthropic |
#51 | Gpt 4.1 2025 04 14 | 1413 | 52,220 | OpenAI |
#52 | Mistral Medium 2508 | 1411 | 62,020 | Mistral |
#53 | Grok 3 Preview 02 24 | 1411 | 33,974 | xAI |
#54 | Gemini 2.5 Flash | 1410 | 93,104 | |
#55 | Glm 4.5 | 1410 | 24,794 | Z.ai |
#56 | Grok 4 0709 | 1410 | 42,162 | xAI |
#57 | Gemini 2.5 Flash Preview 09 2025 | 1405 | 32,880 | |
#58 | Claude Haiku 4 5 20251001 | 1404 | 43,455 | Anthropic |
#59 | Grok 4 Fast Reasoning | 1404 | 18,640 | xAI |
#60 | O1 2024 12 17 | 1402 | 27,822 | OpenAI |
De Kroning van Februari
Voor het eerst sinds de lancering van de Gemini 3-serie staat er een niet-Google model op nummer 1. Claude Opus 4.6 heeft de kroon overgenomen.
Ik herinner me het exacte moment waarop ik de arena-pagina ververste en een nieuwe naam bovenaan zag staan. Niet Gemini. Niet Grok. Claude. Anthropic's nieuwste vlaggenschip ging niet zomaar voorbij de regerend kampioen — het opende een duidelijk gat ten opzichte van Gemini 3 Pro. In het op Elo gebaseerde systeem van de arena is dat soort scheiding geen ruis. Het weerspiegelt een echte, consistente voorkeur van duizenden blinde evaluaties waarbij gebruikers geen idee hadden met welk model ze spraken.
Wat me het meest opvalt aan Opus 4.6 is niet één enkele vaardigheid — het is wat ik kalmte zou noemen. Elke interactie die ik ermee heb gehad, onthult een model dat gracieus omgaat met dubbelzinnigheid, schakelt tussen technische precisie en creatieve vloeiendheid zonder de draad kwijt te raken, en een niveau van contextueel bewustzijn demonstreert dat kwalitatief anders aanvoelt dan wat eraan voorafging. Wanneer je het een complex meerdelig verzoek geeft — zeg, het analyseren van een juridisch contract terwijl je tegelijkertijd creatieve marketinginvalshoeken voorstelt — schakelt het niet alleen tussen modi. Het integreert ze in één samenhangend antwoord.
Het model is vers en draagt de kleinste validatiesteekproef in de top 10. Maar de methodologie van de arena is robuust — blinde vergelijkingen, diverse gebruikersbasis, geen zelfselectiebias. Ik zou er zwaar op wedden dat naarmate er meer evaluaties binnenkomen, die nummer 1-positie eerder zal verstevigen dan eroderen. Anthropic heeft niet alleen een beter model gebouwd — ze hebben het model gebouwd dat het beste begrijpt wat mensen daadwerkelijk willen van een gesprek.
Anthropic: De Nieuwe Soeverein
Anthropic won niet met één enkel geluksschot — ze bouwden een dynastie. Tien modellen in de top 60 beslaan de volledige productlijn: van Opus 4.6 op de top, via de Opus 4.5-tweeling op #5 en #6, de opmerkelijk capabele Sonnet 4.5 op #11 en #12, tot de kostenefficiënte Haiku 4.5 op #58. Dit is geen verhaal van één model. Het is een statement voor de hele organisatie.
Anthropic plaatst tien modellen in de top 60, verspreid over Opus-, Sonnet- en Haiku-niveaus. Dit vertegenwoordigt de breedste competitieve productlijn van elk op veiligheid gericht AI-lab.
Wat ik het meest overtuigend vind aan de aanpak van Anthropic is hun obsessie met wat ik "modelkarakter" noem. Elke Claude-variant behoudt een consistentie in persoonlijkheid en oordeel die andere labs niet hebben geëvenaard. Wanneer ik Claude een moreel grijs scenario of een dubbelzinnige creatieve briefing geef, krijg ik doordachte betrokkenheid in plaats van ontwijkend gedrag. Die kwaliteit — vermenigvuldigd over miljoenen arena-interacties — is precies wat de voorkeur omhoog stuwt.
Het Sonnet-niveau op #11 en #12 blijft de sweet spot voor de meeste professionele gebruikers. Het is snel genoeg voor productiepijplijnen, capabel genoeg voor complexe analytische taken en toegankelijk genoeg geprijsd voor dagelijks gebruik. Als je het je maar kunt veroorloven om één model diep in je workflow te integreren, blijft Sonnet 4.5 mijn standaardaanbeveling. Maar als je de absolute grens nodig hebt van wat AI kan doen in een gesprek? Opus 4.6 is het antwoord, en het gat naar de tweede plaats vertelt je hoe ver Anthropic vooruit is gelopen.
Als er een zwakte is, is het latentie. De vlaggenschipmodellen van Anthropic zijn niet de snelste, en voor real-time applicaties waar responssnelheid belangrijker is dan diepte, zul je elders willen kijken. Maar de onttroonde koning zit ook niet stil.
Google: Een Koning Zonder Zijn Kroon
Het verliezen van nummer 1 steekt, maar de positie van Google is verre van ernstig. Gemini 3 Pro op #2 blijft een van de meest complete AI-modellen die ooit zijn gebouwd — uitzonderlijk in redeneren, coderen, creatieve taken en multimodaal begrip. De marge naar de nieuwe kampioen is smal genoeg dat elke gebruiker die tussen de twee schakelt, moeite zou hebben om het verschil consequent te zien in dagelijks gebruik.
Google heeft zes modellen in de top 60, waaronder drie in de top 8. De Gemini 3 Flash-familie op #4 en #8 biedt bijna-vlaggenschipcapaciteit bij een dramatisch lagere latentie.
De Flash-familie is waar de strategische genialiteit van Google blijkt. Gemini 3 Flash op #4 levert ongeveer 97% van de capaciteit van de Pro tegen een fractie van de kosten en latentie. Voor de meeste gebruikers — inclusief ikzelf in dagelijkse workflows — is Flash de praktische keuze. De thinking-minimal-variant op #8 suggereert dat Google een middenweg verkent tussen volledig chain-of-thought-redeneren en directe antwoorden, en de vroege resultaten zijn veelbelovend. Dit soort architecturale experimenten is precies wat Google gevaarlijk houdt.
Het infrastructuurvoordeel van Google blijft een formidabele slotgracht. Gemini integreert native met Workspace, Android en Google Cloud. Dat soort distributie kan niet worden gerepliceerd door capaciteit alleen. Ik verwacht dat Google binnen 90 dagen zal reageren op Claude Opus 4.6 — waarschijnlijk met een Gemini 3.5 of een vroege Gemini 4-preview. Als de geschiedenis een gids is, reageert Google hard als het reageert.
xAI: De Bronzen Standaard
Grok 4.1 Thinking op #3 is geen verrassing meer — het is een verwachting. xAI heeft zichzelf gevestigd als de derde kracht in het AI-landschap, en de consistente podiumplaatsing van de denkende variant spreekt van echte kracht in complexe redeneertaken.
Wat Grok onderscheidt, is niet alleen capaciteit — het is filosofie. Waar Claude streeft naar genuanceerd oordeel en Gemini naar uitgebreide competentie, leunt Grok op persoonlijkheid. Het is het model dat het meest bereid is om in te gaan op actuele gebeurtenissen via real-time X/Twitter-integratie, meningen te vormen en in te gaan tegen je premissen. Voor gebruikers die een AI willen die actief met ideeën omgaat in plaats van zich terug te trekken in diplomatieke neutraliteit, biedt Grok iets echt onderscheidends. Op dit prestatieniveau doet dat ertoe.
xAI plaatst zeven modellen in de top 60, met varianten variërend van de redeneer-zware Thinking (#3) tot de op snelheid geoptimaliseerde Fast Chat (#37) en legacy Grok 3 (#53).
De fast-reasoning en fast-chat varianten op #28 en #37 laten zien dat xAI actief de snelheidsproblemen aanpakt die historisch gezien de adoptie van Grok in latentiegevoelige toepassingen beperkten. Als Grok 5 de winst van de Thinking-architectuur erft en tegelijkertijd het efficiëntiegat dicht, kan het podium later dit jaar erg interessant worden. Het gat tussen Brons en Zilver is smal — niet onoverkomelijk. En als het iteratietempo van xAI aanhoudt, zijn zij de meest waarschijnlijke kandidaat om #2 als volgende uit te dagen.
De Oosterse Armada
Hier is het cijfer dat elke westerse AI-executive 's nachts wakker zou moeten houden: 24 van de 60 best gerangschikte modellen — precies 40% — komen van Chinese organisaties. Dit is geen toevalstreffer. Het is een structurele verschuiving in het wereldwijde AI-landschap, en het is versneld sinds mijn laatste rapport.
DeepSeek leidt met negen modellen. Moonshot's Kimi K2.5 debuteert op #15. Qwen3 heeft vier varianten. Z.ai's GLM behoudt er drie. ERNIE zit in de top 10. Dit is systemische excellentie.
DeepSeek verdient speciale aandacht. Negen modellen tussen #34 en #47 demonstreren het soort snelle iteratie dat vroeger exclusief een eigenschap van OpenAI was. Hun v3.2-serie — met experimentele, denkende en standaardvarianten — toont een lab dat met opmerkelijke snelheid levert. De onlangs open-sourced modellen op HuggingFace worden al verfijnd door duizenden onafhankelijke ontwikkelaars, waardoor een zichzelf versterkend ecosysteem ontstaat dat hun bereik ver vergroot buiten wat hun teamgrootte zou suggereren.
Moonshot's Kimi K2.5-serie is de nieuwe binnenkomer om in de gaten te houden. De denkende variant die debuteert op #15 en de instant-variant op #26 is een sterke opening — onmiddellijk competitief met gevestigde spelers. Als dit tempo aanhoudt, zou Moonshot wel eens het zwarte paard van 2026 kunnen worden. Hun architectuur lijkt bijzonder goed geschikt voor het redeneren-eerst paradigma dat momenteel dit leaderboard domineert.
De kostenimplicaties zijn onthutsend. Veel van deze modellen bieden API-prijzen aan tegen 20-30% van gelijkwaardige westerse modellen. Voor Engelssprekende gebruikers die Chinese modellen nog niet hebben verkend, is het capaciteitsgat in wezen gedicht. De resterende differentiators zijn databeheer, taaloptimalisatie voor niche-domeinen en ecosysteemintegratie — belangrijke factoren, maar niet langer capaciteit zelf.
OpenAI: Volume Zonder de Troon
OpenAI bekleedt een opmerkelijke statistische positie: elf modellen in de top 60 — meer dan enige andere individuele organisatie. Maar niet één breekt door in de top 8. Voor het bedrijf dat het moderne AI-tijdperk definieerde met GPT-3 en ChatGPT, vraagt dit om serieuze reflectie.
GPT-5.1 High op #9 is de vlaggenschip-inzending. Het is echt competitief — niemand zou het een slecht model noemen. Maar het gat tussen #9 en het podium is het soort afstand dat ertoe doet bij het kiezen van je primaire AI-tool. De spreiding van GPT-5.2 op #21 tot o1 op #60 bestrijkt een enorm bereik, en de verscheidenheid aan modelfamilies — GPT-5.x, GPT-4.x, o-serie, ChatGPT-varianten — suggereert een strategie die breedte prioriteert boven geconcentreerde topprestaties.
📊 De Adoptieparadox
ChatGPT-4o-latest op #19 draagt meer dan 81.000 stemmen — een van de hoogste in het hele leaderboard. Benchmarkposities voorspellen geen gebruikerstrouw. Het consumentenmerk en ecosysteem van OpenAI creëren een zwaartekracht die ruwe capaciteit alleen niet kan overwinnen.
Wat OpenAI heeft gebouwd is kleefkracht. De vertrouwde ChatGPT-interface, bedrijfsintegraties, volwassen API-ecosysteem en consumentenvertrouwen creëren overstapkosten die de winst van het najagen van leaderboardposities overtreffen. Voor veel organisaties die al in de OpenAI-stack zijn ingebed, is de praktische vraag niet "welk model is #1?", maar "handelt ons huidige model onze use cases goed genoeg af?" Voor de meeste bedrijfsworkloads blijft het antwoord ja.
De weg van OpenAI terug naar de top loopt waarschijnlijk via GPT-6 of een fundamentele doorbraak in de o-serie. Tot die tijd is hun spel ecosysteemdominantie, niet individuele modeloverheersing. Dat is een haalbare strategie — maar het betekent dat het innovatieverhaal wordt afgestaan aan Anthropic, Google en in toenemende mate aan laboratoria in het Oosten.
Wat Volgt
Voorspellingen in AI zijn gevaarlijk — het veld beweegt te snel voor zekerheid. Maar na jaren van het volgen van deze verschuivingen, heb ik een instinct ontwikkeld voor trajecten. Hier is wat ik geloof over de rest van 2026:
Het redeneerparadigma is permanent. Elk best presterend model levert nu een "thinking"-variant, en ze presteren consequent beter dan hun standaard tegenhangers. Dit is geen rage. De kosten van berekeningen tijdens inferentie zullen blijven dalen, waardoor uitgebreid redeneren haalbaar wordt voor steeds kostengevoeligere toepassingen. Tegen het einde van het jaar verwacht ik dat de redeneermodus de standaard wordt in plaats van de uitzondering.
De Chinese golf zal versnellen. De efficiëntie-innovaties van DeepSeek en de snelle iteratie van Moonshot signaleren een diepere trend: de kenniskloof tussen westerse en oosterse AI-labs is gedicht. De concurrentie vindt nu plaats op het gebied van implementatiestrategie, ecosysteemintegratie en regelgevende positionering — niet op fundamentele modelcapaciteit. AI-inkoopbeleid dat alleen op het Westen is gericht, wordt een concurrentienadeel voor organisaties die het hanteren.
Multimodale integratie wordt de beslissende grens. Tekst-only leaderboards zullen minder belangrijk worden naarmate modellen die naadloos tekst, afbeeldingen, video en audio verwerken volledig nieuwe applicatiecategorieën openen. Let op multimodaal-native varianten van Anthropic en Google die deze ranglijsten tegen medio 2026 beginnen te hervormen. De modellen die winnen zullen niet alleen slim zijn — ze zullen opmerkzaam zijn over alle invoermodaliteiten.
Specialisatie zal generalisatie overtreffen. Het gat tussen de top 10 modellen op dit leaderboard omvat slechts 44 punten. Op dit convergentieniveau is het model dat uw specifieke use case domineert belangrijker dan het model dat over het algemeen wint. Het tijdperk van "één model om ze allemaal te regeren" loopt ten einde. Het tijdperk van intelligente modelorkestratie — het routeren van verschillende taken naar verschillende specialisten — begint.
Open-source verkleint het gat verder. DeepSeek, Qwen, GLM en Kimi onderhouden allemaal varianten met open gewichten op HuggingFace. Deze modellen worden verfijnd, gedistilleerd en ingezet door duizenden onafhankelijke teams wereldwijd. De implicaties zijn diepgaand: de capaciteitsgrens zit niet langer achter API-betaalmuren. Voor organisaties die bereid zijn te investeren in infrastructuur, kunnen zelfgehoste modellen nu concurreren met top-20 commerciële aanbiedingen tegen een fractie van de terugkerende kosten.
Praktische Aanbevelingen
Na het analyseren van duizenden interacties, het volgen van elke grote modelrelease en het dagelijks uitvoeren van mijn eigen vergelijkingen gedurende drie jaar, is hier mijn eerlijke beoordeling voor februari 2026:
🥇 Piek Intelligentie
Claude Opus 4.6 — de nieuwe #1. Ongeëvenaarde diepte, oordeel en conversationele kalmte. Het beste voor complexe analyse, creatief werk en taken die echte nuance vereisen.
🏆 De Alleskunner
Gemini 3 Pro — nog steeds #2 en uitzonderlijk in elk domein. Coderen, schrijven, redeneren, multimodaal — nergens een betekenisvolle zwakte.
⚡ Snelheidskampioen
Gemini 3 Flash — levert bijna-vlaggenschipcapaciteit bij dramatisch lagere latentie en kosten. De praktische keuze voor de meeste dagelijkse workflows.
🤔 Persoonlijkheid + Redeneren
Grok 4.1 Thinking — real-time kennis, uitgebreid redeneren, echt karakter. Het beste voor gebruikers die een AI willen die zich met meningen bezighoudt in plaats van zich in te dekken.
🏢 Ondernemingsecosysteem
De suite van OpenAI — ChatGPT, GPT-5-serie, o-serie. Ongeëvenaarde integratiediepte, API-volwassenheid en bedrijfstools. De veiligste keuze wanneer overstapkosten belangrijker zijn dan piekcapaciteit.
💰 Budget op Schaal
DeepSeek, Qwen, ERNIE, Kimi varianten — top-40 capaciteit tegen 20-30% van de westerse prijzen. Essentieel voor toepassingen met een hoog volume en zelfgehoste implementaties.
De optimale strategie in 2026 is niet loyaliteit aan één model. Het is het orkestreren van meerdere AI's voor verschillende contexten. Claude voor diepte en oordeel, Gemini voor snelheid en breedte, Grok voor persoonlijkheid en real-time bewustzijn, Chinese modellen voor schaal en kosten. De kroon is misschien van eigenaar gewisseld — maar de fundamentele waarheid is niet veranderd: er is geen ultieme AI, alleen evoluerende tools die het beste samenwerken.
Gegevensbron: Ranglijsten van AI Arena Leaderboard, 6 februari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!