Ranking de la Arena de Matemáticas de IA 2026

Idea Central

El razonamiento matemático ya no lo gana un solo campeón. Lo gana quien sabe cuándo usar qué modelo para qué problema.

Actualicé la Arena de Matemáticas esta mañana y tuve que mirar dos veces. Por primera vez desde que comencé a seguir estas clasificaciones, OpenAI ya no está en la cima. Gemini 3 Pro de Google ha arrebatado la corona en el razonamiento matemático, y la historia solo se vuelve más extraña a partir de ahí. Una startup con sede en Pekín llamada Moonshot acaba de aterrizar en el podio con un modelo que la mayoría de los desarrolladores occidentales ni siquiera han probado. Después de semanas de pruebas de estrés a los principales contendientes en todo, desde combinatoria de olimpiadas hasta análisis real de nivel de posgrado, esto es lo que los datos de febrero nos dicen sobre hacia dónde se dirige realmente la IA matemática.

El Ranking de Matemáticas

Las matemáticas siguen siendo la referencia más honesta en IA. No puedes usar el encanto para resolver una ecuación diferencial o alucinar una prueba correcta. Una respuesta es correcta o no lo es. Esa claridad binaria es lo que hace que Math Arena sea la referencia en la que más confío al evaluar si un modelo realmente puede razonar. Aquí están los 60 modelos clasificados a partir de febrero de 2026.

Rango Modelo Puntuación Votos Organización
🥇
Gemini 3 Pro 14842,252Google
🥈
Gemini 3 Flash 14751,616Google
🥉
Kimi K2.5 Thinking 1475413Moonshot
#4
Gpt 5.2 High 1469952OpenAI
#5
Claude Opus 4 5 20251101 14691,879Anthropic
#6
Gpt 5.1 High 14671,862OpenAI
#7
Claude Opus 4 5 20251101 Thinking 32k 14671,585Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14641,038Google
#9
Ernie 5.0 0110 1462580Baidu
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14582,657Anthropic
#11
O3 2025 04 16 14533,885OpenAI
#12
Gemini 2.5 Pro 14515,845Google
#13
Grok 4.1 Thinking 14502,058xAI
#14
Claude Opus 4 1 20250805 Thinking 16k 14463,059Anthropic
#15
Qwen3 Max Preview 14421,539Alibaba
#16
Kimi K2 Thinking Turbo 14401,949Moonshot
#17
Gpt 5 High 14391,939OpenAI
#18
Gpt 5.2 1438698OpenAI
#19
Grok 4 0709 14382,309xAI
#20
Claude Opus 4 1 20250805 14354,553Anthropic
#21
Qwen3 Max 2025 09 23 1434586Alibaba
#22
Grok 4.1 14332,552xAI
#23
Glm 4.7 1433720Z.ai
#24
Grok 4 Fast Chat 1430403xAI
#25
Deepseek V3.2 Exp Thinking 1429478DeepSeek
#26
Deepseek V3.2 14291,680DeepSeek
#27
Claude Sonnet 4 5 20250929 14272,681Anthropic
#28
Deepseek V3.2 Exp 1426785DeepSeek
#29
Glm 4.6 14252,132Z.ai
#30
Qwen3 235b A22b Instruct 2507 14244,158Alibaba
#31
Longcat Flash Chat 1424694Meituan
#32
Qwen3 Next 80b A3b Instruct 14231,232Alibaba
#33
Deepseek V3.1 Thinking 1421673DeepSeek
#34
Gpt 5.1 14212,191OpenAI
#35
Claude Opus 4 20250514 Thinking 16k 14212,355Anthropic
#36
O4 Mini 2025 04 16 14193,042OpenAI
#37
Deepseek V3.1 14191,010DeepSeek
#38
Glm 4.5 14181,455Z.ai
#39
Kimi K2 0905 Preview 1417763Moonshot
#40
Gpt 5 Chat 14171,813OpenAI
#41
Deepseek V3.1 Terminus Thinking 1416203DeepSeek
#42
Gemini 2.5 Flash Preview 09 2025 14151,955Google
#43
Qwen3 Vl 235b A22b Instruct 1415714Alibaba
#44
Grok 4 Fast Reasoning 14151,085xAI
#45
Grok 4 1 Fast Reasoning 14151,677xAI
#46
Gemini 2.5 Flash 14146,074Google
#47
Gpt 4.5 Preview 2025 02 27 14141,384OpenAI
#48
Gpt 5 Mini High 14131,460OpenAI
#49
Deepseek R1 14131,609DeepSeek
#50
Ernie 5.0 Preview 1203 1413632Baidu
#51
Ernie 5.0 Preview 1022 1412268Baidu
#52
O1 2024 12 17 14122,980OpenAI
#53
Qwen3 Vl 235b A22b Thinking 1411419Alibaba
#54
Mistral Large 3 14101,471Mistral
#55
O3 Mini High 14091,906OpenAI
#56
Deepseek V3.2 Thinking 14091,273DeepSeek
#57
Claude Sonnet 4 20250514 Thinking 32k 14072,131Anthropic
#58
Qwen3 235b A22b Thinking 2507 1406506Alibaba
#59
Hunyuan T1 20250711 1406242Tencent
#60
Mistral Medium 2508 14053,912Mistral

Google se lleva la corona

He observado la evolución de la IA matemática de Google durante tres años, y lo que han logrado este mes es nada menos que notable. Gemini 3 Pro no solo se llevó el Oro. Llegó con una clara ventaja sobre el resto del campo. ¿Pero la verdadera jugada maestra? Gemini 3 Flash sentado justo detrás en la Plata. Google ahora tiene Oro y Plata simultáneamente en la Arena de Matemáticas. Eso nunca había sucedido antes.

Lo que hace que esto sea significativo va más allá de las clasificaciones. Es la estrategia de arquitectura. Gemini 3 Pro es el peso pesado, construido para la máxima profundidad de razonamiento, el tipo de modelo que apuntas a pruebas de nivel de investigación y derivaciones de múltiples pasos. Gemini 3 Flash está optimizado para velocidad y costo. El hecho de que un modelo optimizado para velocidad pueda competir en el nivel Plata nos dice que Google ha descifrado algo fundamental sobre cómo hacer que el razonamiento matemático sea más rápido sin sacrificar la precisión. La variante de pensamiento mínimo (thinking-minimal) en el n.º 8 ofrece otra compensación precio-rendimiento, y los caballos de batalla más antiguos como Gemini 2.5 Pro en el n.º 12 y Gemini 2.5 Flash en el n.º 46 continúan sirviendo de manera confiable.

Google coloca seis modelos en el top 60, abarcando tres generaciones y múltiples niveles de precios. No están construyendo un gran modelo matemático. Están construyendo una pila completa de razonamiento matemático, desde el asequible Flash hasta el buque insignia Pro, todos compartiendo los mismos avances subyacentes.

Mi predicción: Google mantendrá esta ventaja al menos hasta mediados de 2026. Su enfoque de incorporar el razonamiento matemático como una capacidad central en toda la línea de productos, en lugar de concentrarlo en un solo buque insignia, está pagando dividendos compuestos. Si estás construyendo algo que requiera computación matemática confiable, desde modelos financieros hasta simulación científica, Gemini debería ser tu primera opción ahora.

La sorpresa de Moonshot

Esta es la historia que nadie estaba escribiendo hace tres meses. Kimi K2.5 Thinking de Moonshot ha aterrizado en el n.º 3, empatado en puntos con Gemini 3 Flash por la posición de Plata. Deja que eso se registre. Un modelo de una startup fundada en 2023 está matemáticamente al nivel de la segunda mejor oferta de Google.

He estado probando Kimi K2.5 Thinking extensamente, y lo que me sorprende es su enfoque hacia el razonamiento extendido. Donde otros modelos de pensamiento a veces producen cadenas de pensamiento verbosas que dan vueltas a un problema antes de aterrizar, el razonamiento de Kimi se siente casi inquietantemente directo. Identifica la estructura matemática central rápidamente, luego construye hacia la solución con desvíos mínimos. Para problemas de estilo de competencia donde necesitas precisión y una cadena lógica limpia, esa franqueza es una ventaja genuina.

Moonshot coloca tres modelos en el top 60: Kimi K2.5 Thinking en el n.º 3, Kimi K2 Thinking Turbo en el n.º 16 y Kimi K2 en el n.º 39. Tres niveles, una filosofía de arquitectura. Este tipo de presencia de múltiples niveles de una startup no tiene precedentes. El mensaje es claro: la era en la que solo las empresas de billones de dólares podían construir IA matemática de clase mundial ha terminado. La inversión enfocada en investigación en arquitectura de razonamiento puede competir con presupuestos de computación masivos. Espera que más laboratorios sigan este manual a lo largo de 2026.

OpenAI después del trono

Seré directo. GPT-5.2 High, que sostuvo el Oro desde su debut, ahora se encuentra en el n.º 4, empatado con Claude Opus 4.5. La corona ha sido tomada. Pero antes de que alguien escriba el obituario, mira la imagen completa.

OpenAI todavía coloca doce modelos en el top 60, más que cualquier otra organización. Esa no es una empresa en crisis. Esa es una empresa con tal profundidad de ecosistema que incluso perder el n.º 1 la deja dominando los niveles medio y superior. GPT-5.1 High ocupa el n.º 6. El modelo de razonamiento o3 en el n.º 11 sigue siendo mi opción para problemas de nivel de competencia que exigen computación profunda de múltiples pasos. GPT-5 High en el n.º 17, el GPT-5.2 estándar en el n.º 18 y o4-mini en el n.º 36 dan a los constructores opciones en todos los niveles de precios y requisitos de latencia.

La ventaja de la serie o

Los modelos de razonamiento dedicados de OpenAI (o3, o4-mini, o1, o3-mini) ocupan cuatro posiciones en el top 60. Para problemas que requieren computación extendida, prueba de desigualdades, satisfacción de restricciones o argumentos combinatorios, el tiempo de pensamiento ajustable de la serie o sigue siendo inigualablemente poderoso. Ningún otro proveedor ofrece este nivel de control de profundidad de razonamiento.

Mirando hacia el futuro, creo que la respuesta de OpenAI llegará rápido. La brecha entre GPT-5.2 High y Gemini 3 Pro no es insuperable, y el patrón de OpenAI siempre ha sido iterar agresivamente después de perder terreno. No me sorprendería ver un GPT-5.3 o una actualización significativa de razonamiento antes del verano. La historia más profunda aquí no es una caída. Es que la cima de la Arena de Matemáticas es ahora tan ferozmente competitiva que mantener el n.º 1 exige innovación continua, no un solo lanzamiento fuerte.

La revolución de los modelos de pensamiento

Escanea el top 10 de esta clasificación y cuenta cuántos nombres de modelos incluyen la palabra "thinking" (pensamiento). La respuesta es reveladora: Kimi K2.5 Thinking en el n.º 3, Claude Opus 4.5 Thinking en el n.º 7, Gemini 3 Flash thinking-minimal en el n.º 8, Claude Sonnet 4.5 Thinking en el n.º 10. Amplía al top 20 y están en todas partes. Este es el mayor cambio estructural en la IA matemática durante el último año.

Estos modelos asignan computación adicional en el tiempo de inferencia para trabajar en los problemas paso a paso antes de comprometerse con una respuesta. Es el equivalente de IA de un matemático buscando papel borrador antes de escribir la prueba final. Los resultados son inequívocos: las variantes de pensamiento superan consistentemente a sus contrapartes estándar en tareas matemáticas.

La implementación de Anthropic cuenta esta historia especialmente bien. Claude Opus 4.5 Thinking-32k en el n.º 7 supera al Opus 4.5 estándar en el n.º 5 cuando se le da espacio para razonar. Claude Sonnet 4.5 Thinking en el n.º 10 golpea muy por encima de su categoría de peso, entrando en el top 10 a pesar de ser un modelo de nivel medio por diseño. Anthropic coloca ocho modelos en total en el top 60, y su sello distintivo sigue siendo la claridad pedagógica. Cuando necesito un modelo que no solo resuelva un problema, sino que explique por qué la solución funciona de una manera que un estudiante podría aprender genuinamente, Claude sigue siendo inigualable.

💡

Mi predicción: para finales de 2026, la distinción entre modelos "estándar" y "de pensamiento" desaparecerá. Cada modelo asignará dinámicamente el tiempo de razonamiento en función de la complejidad del problema. La generación actual de variantes de pensamiento explícitamente etiquetadas es un paso de transición hacia el razonamiento universalmente adaptativo.

La conclusión práctica es simple: si la precisión importa más que la latencia, elige siempre la variante de pensamiento. El aumento matemático es consistente y real. Para aplicaciones de producción donde el tiempo de respuesta es crítico, las variantes estándar siguen siendo excelentes. Pero para investigación, educación o cualquier escenario donde obtener la respuesta correcta es primordial, los modelos de pensamiento son el presente y el futuro.

El panorama global de las matemáticas

Aleja la cámara y la geografía de esta clasificación cuenta su propia historia. De los 60 modelos clasificados, 26 provienen de organizaciones chinas. Eso es el 43% de todo el campo. Los laboratorios estadounidenses ocupan 32 lugares con un 53%, y Mistral trae representación europea con dos modelos. La capacidad de IA matemática es ahora genuinamente multipolar, y ese cambio se ha acelerado más rápido de lo que casi nadie predijo.

DeepSeek se destaca con ocho modelos en el top 60, empatado con Anthropic en el segundo conteo más alto después de OpenAI. La familia v3.2 en las posiciones n.º 25, n.º 26, n.º 28 y n.º 56 ofrece una gama impresionante, mientras que la serie v3.1 y el DeepSeek R1 probado en batalla en el n.º 49 completan los niveles intermedios. Lo que hace que DeepSeek sea notable es la relación costo-capacidad. En mis pruebas, DeepSeek V3.2 ofrece un rendimiento matemático de top 30 a aproximadamente una quinta parte de lo que cobran los modelos insignia. Para equipos que operan a escala con restricciones presupuestarias, esa proporción es transformadora.

La familia Qwen3 de Alibaba contribuye con siete modelos, desde Qwen3 Max Preview en el n.º 15 hasta variantes de peso abierto que los desarrolladores pueden ajustar en su propia infraestructura. Esa estrategia de peso abierto es importante para industrias con requisitos de soberanía de datos, y es una jugada de ecosistema deliberada. La familia Grok de xAI coloca seis modelos, liderada por Grok 4.1 Thinking en el n.º 13, que continúa encontrando atajos elegantes en problemas de estilo de prueba. La serie GLM de Z.ai ocupa tres lugares, Baidu contribuye con tres variantes de ERNIE, y vemos entradas de Meituan y Tencent también.

La profundidad y amplitud de la participación me dicen hacia dónde se dirige la IA matemática: esto ya no es una carrera entre dos o tres favoritos. Es un ecosistema, y el ecosistema se está volviendo más rico mes a mes. Ningún país, empresa o tradición de investigación puede reclamar el monopolio del razonamiento matemático nunca más. Y para aquellos de nosotros que construimos sobre estas herramientas, esa competencia es lo mejor que podría pasar.

Mi guía de campo

Después de años de probar estos modelos en todo, desde problemas de olimpiadas hasta cálculos de ingeniería del mundo real, aquí está la pregunta que los constructores siguen haciéndome: ¿qué modelo debo usar realmente? La respuesta honesta depende completamente de lo que estés construyendo.

Precisión de nivel de investigación

Gemini 3 Pro en el n.º 1. El buque insignia de Google lidera en capacidad matemática bruta. Mi primera opción para problemas novedosos donde la corrección es innegociable.

Velocidad sin sacrificio

Gemini 3 Flash en el n.º 2. Precisión cercana al podio con una latencia y un costo significativamente menores. Perfecto para tuberías matemáticas de producción que necesitan tanto calidad como rendimiento.

El caballo negro

Kimi K2.5 Thinking en el n.º 3. El enfoque de razonamiento de Moonshot es notablemente eficiente. Vale la pena explorar seriamente si aún no lo has hecho, particularmente para problemas de estilo de competencia.

Profundidad del ecosistema

OpenAI con doce modelos en todos los niveles. La serie o para matemáticas de competencia, GPT-5.x para razonamiento general. Ningún otro proveedor ofrece esta gama.

Mejores explicaciones

Claude con ocho modelos en el top 60. Cuando entender por qué una respuesta es correcta importa tanto como la respuesta misma. Claridad pedagógica inigualable.

Campeón de presupuesto

DeepSeek con ocho modelos en el top 60. Capacidad top 30 a una fracción del costo. Esencial para equipos que construyen a escala o en entornos sensibles a los costos.

🔑

No existe una única mejor IA matemática. La estrategia ganadora en 2026 es la orquestación: Gemini para precisión y velocidad de primer nivel, la serie o de OpenAI para razonamiento profundo, Claude para explicabilidad, DeepSeek y Kimi para eficiencia. Construye tu tubería con múltiples proveedores y superarás consistentemente a cualquier modelo individual.


Fuente de datos: Clasificaciones de la AI Arena Math Leaderboard, 6 de febrero de 2026.

Discusión

0 comentarios

Dejar un comentario

¡Sé el primero en compartir tu opinión!