O raciocínio matemático não é mais vencido por um único campeão. É vencido por quem sabe quando usar qual modelo para qual problema.
Atualizei a Arena de Matemática esta manhã e olhei duas vezes. Pela primeira vez desde que comecei a rastrear esses rankings, a OpenAI não está mais no topo. O Gemini 3 Pro do Google tomou a coroa no raciocínio matemático, e a história só fica mais estranha a partir daí. Uma startup sediada em Pequim chamada Moonshot acabou de chegar ao pódio com um modelo que a maioria dos desenvolvedores ocidentais nem sequer experimentou. Após semanas testando os principais concorrentes em tudo, desde combinatória de olimpíadas até análise real de nível de pós-graduação, aqui está o que os dados de fevereiro nos dizem sobre para onde a IA matemática está realmente indo.
O Ranking de Matemática
A matemática continua sendo a referência mais honesta na IA. Você não pode usar charme para resolver uma equação diferencial ou alucinar uma prova correta. Uma resposta está certa ou não está. Essa clareza binária é o que torna a Math Arena a referência em que mais confio ao avaliar se um modelo pode realmente raciocinar. Aqui estão todos os 60 modelos classificados em fevereiro de 2026.
| Posição | Modelo | Pontuação | Votos | Organização |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google Leva a Coroa
Observei a evolução da IA matemática do Google por três anos, e o que eles realizaram este mês é nada menos que notável. Gemini 3 Pro não apenas conseguiu o Ouro. Ele chegou com uma vantagem clara sobre o resto do campo. Mas a verdadeira jogada de mestre? Gemini 3 Flash sentado logo atrás dele na Prata. O Google agora detém Ouro e Prata simultaneamente na Arena de Matemática. Isso nunca aconteceu antes.
O que torna isso significativo vai além dos rankings. É a estratégia de arquitetura. O Gemini 3 Pro é o peso pesado, construído para máxima profundidade de raciocínio, o tipo de modelo que você aponta para provas de nível de pesquisa e derivações de várias etapas. O Gemini 3 Flash é otimizado para velocidade e custo. O fato de um modelo otimizado para velocidade poder competir no nível Prata nos diz que o Google decifrou algo fundamental sobre como tornar o raciocínio matemático mais rápido sem sacrificar a precisão. A variante de pensamento mínimo (thinking-minimal) no nº 8 oferece mais uma compensação de preço-desempenho, e cavalos de batalha mais antigos como Gemini 2.5 Pro no nº 12 e Gemini 2.5 Flash no nº 46 continuam a servir de forma confiável.
O Google coloca seis modelos no top 60, abrangendo três gerações e vários níveis de preço. Eles não estão construindo um grande modelo matemático. Eles estão construindo uma pilha inteira de raciocínio matemático, do Flash acessível ao Pro carro-chefe, todos compartilhando os mesmos avanços subjacentes.
Minha previsão: o Google manterá essa liderança até pelo menos meados de 2026. Sua abordagem de incorporar o raciocínio matemático como uma capacidade central em toda a linha de produtos, em vez de concentrá-lo em um único carro-chefe, está pagando dividendos compostos. Se você está construindo algo que exija computação matemática confiável, de modelagem financeira a simulação científica, o Gemini deve ser sua primeira opção agora.
A Surpresa da Moonshot
Aqui está a história que ninguém estava escrevendo há três meses. Kimi K2.5 Thinking da Moonshot chegou ao nº 3, empatado em pontos com o Gemini 3 Flash pela posição de Prata. Deixe isso registrar. Um modelo de uma startup fundada em 2023 está matematicamente nivelado com a segunda melhor oferta do Google.
Tenho testado o Kimi K2.5 Thinking extensivamente, e o que me impressiona é sua abordagem ao raciocínio estendido. Onde outros modelos de pensamento às vezes produzem cadeias de pensamento verbosas que circulam um problema antes de pousar, o raciocínio do Kimi parece quase enervantemente direto. Ele identifica a estrutura matemática central rapidamente e, em seguida, constrói em direção à solução com desvios mínimos. Para problemas de estilo de competição onde você precisa de precisão e uma cadeia lógica limpa, essa franqueza é uma vantagem genuína.
A Moonshot coloca três modelos no top 60: Kimi K2.5 Thinking no nº 3, Kimi K2 Thinking Turbo no nº 16 e Kimi K2 no nº 39. Três níveis, uma filosofia de arquitetura. Esse tipo de presença em vários níveis de uma startup é sem precedentes. A mensagem é clara: a era em que apenas empresas de trilhões de dólares podiam construir IA matemática de classe mundial acabou. O investimento focado em pesquisa em arquitetura de raciocínio pode competir com orçamentos de computação massivos. Espere que mais laboratórios sigam esse manual ao longo de 2026.
OpenAI Após o Trono
Vou ser direto. GPT-5.2 High, que segurava o Ouro desde sua estreia, agora está no nº 4, empatado com Claude Opus 4.5. A coroa foi tomada. Mas antes que alguém escreva o obituário, olhe para a imagem completa.
A OpenAI ainda coloca doze modelos no top 60, mais do que qualquer outra organização. Isso não é uma empresa em crise. Isso é uma empresa com tamanha profundidade de ecossistema que, mesmo perdendo o 1º lugar, continua dominando os níveis médio e superior. GPT-5.1 High ocupa o nº 6. O modelo de raciocínio o3 no nº 11 continua sendo minha escolha para problemas de nível de competição que exigem computação profunda de várias etapas. GPT-5 High no nº 17, o GPT-5.2 padrão no nº 18 e o4-mini no nº 36 dão aos construtores opções em todos os níveis de preço e requisitos de latência.
A Vantagem da Série o
Os modelos de raciocínio dedicados da OpenAI (o3, o4-mini, o1, o3-mini) ocupam quatro posições no top 60. Para problemas que exigem computação estendida, prova de desigualdades, satisfação de restrições ou argumentos combinatórios, o tempo de pensamento ajustável da série o permanece inigualavelmente poderoso. Nenhum outro provedor oferece esse nível de controle de profundidade de raciocínio.
Olhando para o futuro, acredito que a resposta da OpenAI virá rápido. A lacuna entre o GPT-5.2 High e o Gemini 3 Pro não é intransponível, e o padrão da OpenAI sempre foi iterar agressivamente após perder terreno. Eu não ficaria surpreso ao ver um GPT-5.3 ou uma atualização significativa de raciocínio antes do verão. A história mais profunda aqui não é uma queda. É que o topo da Arena de Matemática é agora tão ferozmente competitivo que manter o 1º lugar exige inovação contínua, não um único lançamento forte.
A Revolução do Modelo de Pensamento
Examine o top 10 deste ranking e conte quantos nomes de modelos incluem a palavra "thinking" (pensamento). A resposta é reveladora: Kimi K2.5 Thinking no nº 3, Claude Opus 4.5 Thinking no nº 7, Gemini 3 Flash thinking-minimal no nº 8, Claude Sonnet 4.5 Thinking no nº 10. Expanda para o top 20 e eles estão por toda parte. Esta é a maior mudança estrutural na IA matemática no último ano.
Esses modelos alocam computação adicional no tempo de inferência para trabalhar nos problemas passo a passo antes de se comprometer com uma resposta. É o equivalente de IA de um matemático pegando papel de rascunho antes de escrever a prova final. Os resultados são inequívocos: variantes de pensamento superam consistentemente suas contrapartes padrão em tarefas matemáticas.
A implementação da Anthropic conta essa história especialmente bem. Claude Opus 4.5 Thinking-32k no nº 7 supera o Opus 4.5 padrão no nº 5 quando tem espaço para raciocinar. Claude Sonnet 4.5 Thinking no nº 10 bate bem acima de sua categoria de peso, entrando no top 10 apesar de ser um modelo de nível médio por design. A Anthropic coloca oito modelos no total no top 60, e sua marca registrada continua sendo a clareza pedagógica. Quando preciso de um modelo que não apenas resolva um problema, mas explique por que a solução funciona de uma maneira que um aluno poderia genuinamente aprender, Claude ainda é incomparável.
Minha previsão: até o final de 2026, a distinção entre modelos "padrão" e "pensamento" desaparecerá. Cada modelo alocará dinamicamente o tempo de raciocínio com base na complexidade do problema. A geração atual de variantes de pensamento explicitamente rotuladas é um passo de transição para o raciocínio universalmente adaptativo.
A conclusão prática é simples: se a precisão importa mais que a latência, escolha sempre a variante de pensamento. O aumento matemático é consistente e real. Para aplicações de produção onde o tempo de resposta é crítico, as variantes padrão permanecem excelentes. Mas para pesquisa, educação ou qualquer cenário onde obter a resposta certa é primordial, os modelos de pensamento são o presente e o futuro.
O Cenário Global da Matemática
Afaste a câmera e a geografia deste ranking conta sua própria história. Dos 60 modelos classificados, 26 vêm de organizações chinesas. Isso é 43% de todo o campo. Laboratórios americanos ocupam 32 lugares com 53%, e a Mistral traz representação europeia com dois modelos. A capacidade de IA matemática é agora genuinamente multipolar, e essa mudança acelerou mais rápido do que quase ninguém previu.
DeepSeek se destaca com oito modelos no top 60, empatado com a Anthropic na segunda maior contagem depois da OpenAI. A família v3.2 nas posições nº 25, nº 26, nº 28 e nº 56 oferece uma gama impressionante, enquanto a série v3.1 e o DeepSeek R1 testado em batalha no nº 49 preenchem os níveis intermediários. O que torna o DeepSeek notável é a relação custo-capacidade. Em meus testes, o DeepSeek V3.2 oferece desempenho matemático top-30 a cerca de um quinto do que os modelos emblemáticos cobram. Para equipes operando em escala com restrições orçamentárias, essa proporção é transformadora.
A família Qwen3 do Alibaba contribui com sete modelos, desde o Qwen3 Max Preview no nº 15 até variantes de peso aberto que os desenvolvedores podem ajustar em sua própria infraestrutura. Essa estratégia de peso aberto é importante para indústrias com requisitos de soberania de dados, e é uma jogada de ecossistema deliberada. A família Grok da xAI coloca seis modelos, liderados pelo Grok 4.1 Thinking no nº 13, que continua a encontrar atalhos elegantes em problemas de estilo de prova. A série GLM da Z.ai ocupa três lugares, a Baidu contribui com três variantes ERNIE, e vemos entradas da Meituan e Tencent também.
A profundidade e a amplitude da participação me dizem para onde a IA matemática está indo: esta não é mais uma corrida entre dois ou três favoritos. É um ecossistema, e o ecossistema está ficando mais rico a cada mês. Nenhum país, empresa ou tradição de pesquisa pode reivindicar o monopólio do raciocínio matemático mais. E para aqueles de nós construindo sobre essas ferramentas, essa competição é a melhor coisa que poderia acontecer.
Meu Guia de Campo
Após anos testando esses modelos em tudo, desde problemas de olimpíadas até cálculos de engenharia do mundo real, aqui está a pergunta que os construtores continuam me fazendo: qual modelo devo realmente usar? A resposta honesta depende inteiramente do que você está construindo.
Precisão de Nível de Pesquisa
Gemini 3 Pro no nº 1. O carro-chefe do Google lidera em capacidade matemática bruta. Minha primeira escolha para problemas novos onde a correção é inegociável.
Velocidade Sem Sacrifício
Gemini 3 Flash no nº 2. Precisão próxima ao pódio com latência e custo significativamente menores. Perfeito para pipelines matemáticos de produção que precisam de qualidade e rendimento.
O Azarão
Kimi K2.5 Thinking no nº 3. A abordagem de raciocínio da Moonshot é notavelmente eficiente. Vale a pena explorar seriamente se você ainda não o fez, particularmente para problemas de estilo de competição.
Profundidade do Ecossistema
OpenAI com doze modelos em todos os níveis. A série o para matemática de competição, GPT-5.x para raciocínio geral. Nenhum outro provedor oferece essa gama.
Melhores Explicações
Claude com oito modelos no top 60. Quando entender por que uma resposta está correta importa tanto quanto a resposta em si. Clareza pedagógica incomparável.
Campeão de Orçamento
DeepSeek com oito modelos no top 60. Capacidade top-30 a uma fração do custo. Essencial para equipes construindo em escala ou em ambientes sensíveis a custos.
Não existe uma única melhor IA matemática. A estratégia vencedora em 2026 é a orquestração: Gemini para precisão e velocidade de nível superior, a série o da OpenAI para raciocínio profundo, Claude para explicabilidade, DeepSeek e Kimi para eficiência. Construa seu pipeline com vários provedores e você superará consistentemente qualquer modelo único.
Fonte de Dados: Classificações da AI Arena Math Leaderboard, 6 de fevereiro de 2026.
Discussão
0 comentáriosDeixe um comentário
Seja o primeiro a compartilhar seus pensamentos!