Ranking de la Arena de Matemáticas de IA 2026

Idea Central

El razonamiento matemático ya no lo gana un solo campeón. Lo gana quien sabe cuándo usar qué modelo para qué problema.

Actualicé la Arena de Matemáticas esta mañana y tuve que mirar dos veces. Por primera vez desde que comencé a seguir estas clasificaciones, OpenAI ya no está en la cima. Gemini 3 Pro de Google ha arrebatado la corona en el razonamiento matemático, y la historia solo se vuelve más extraña a partir de ahí. Una startup con sede en Pekín llamada Moonshot acaba de aterrizar en el podio con un modelo que la mayoría de los desarrolladores occidentales ni siquiera han probado. Después de semanas de pruebas de estrés a los principales contendientes en todo, desde combinatoria de olimpiadas hasta análisis real de nivel de posgrado, esto es lo que los datos de febrero nos dicen sobre hacia dónde se dirige realmente la IA matemática.

El Ranking de Matemáticas

Las matemáticas siguen siendo la referencia más honesta en IA. No puedes usar el encanto para resolver una ecuación diferencial o alucinar una prueba correcta. Una respuesta es correcta o no lo es. Esa claridad binaria es lo que hace que Math Arena sea la referencia en la que más confío al evaluar si un modelo realmente puede razonar. Aquí están los 60 modelos clasificados a partir de febrero de 2026.

Rango	Modelo	Puntuación	Votos	Organización
🥇	Gemini 3 Pro	1484	2,252	Google
🥈	Gemini 3 Flash	1475	1,616	Google
🥉	Kimi K2.5 Thinking	1475	413	Moonshot
#4	Gpt 5.2 High	1469	952	OpenAI
#5	Claude Opus 4 5 20251101	1469	1,879	Anthropic
#6	Gpt 5.1 High	1467	1,862	OpenAI
#7	Claude Opus 4 5 20251101 Thinking 32k	1467	1,585	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1464	1,038	Google
#9	Ernie 5.0 0110	1462	580	Baidu
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1458	2,657	Anthropic
#11	O3 2025 04 16	1453	3,885	OpenAI
#12	Gemini 2.5 Pro	1451	5,845	Google
#13	Grok 4.1 Thinking	1450	2,058	xAI
#14	Claude Opus 4 1 20250805 Thinking 16k	1446	3,059	Anthropic
#15	Qwen3 Max Preview	1442	1,539	Alibaba
#16	Kimi K2 Thinking Turbo	1440	1,949	Moonshot
#17	Gpt 5 High	1439	1,939	OpenAI
#18	Gpt 5.2	1438	698	OpenAI
#19	Grok 4 0709	1438	2,309	xAI
#20	Claude Opus 4 1 20250805	1435	4,553	Anthropic
#21	Qwen3 Max 2025 09 23	1434	586	Alibaba
#22	Grok 4.1	1433	2,552	xAI
#23	Glm 4.7	1433	720	Z.ai
#24	Grok 4 Fast Chat	1430	403	xAI
#25	Deepseek V3.2 Exp Thinking	1429	478	DeepSeek
#26	Deepseek V3.2	1429	1,680	DeepSeek
#27	Claude Sonnet 4 5 20250929	1427	2,681	Anthropic
#28	Deepseek V3.2 Exp	1426	785	DeepSeek
#29	Glm 4.6	1425	2,132	Z.ai
#30	Qwen3 235b A22b Instruct 2507	1424	4,158	Alibaba
#31	Longcat Flash Chat	1424	694	Meituan
#32	Qwen3 Next 80b A3b Instruct	1423	1,232	Alibaba
#33	Deepseek V3.1 Thinking	1421	673	DeepSeek
#34	Gpt 5.1	1421	2,191	OpenAI
#35	Claude Opus 4 20250514 Thinking 16k	1421	2,355	Anthropic
#36	O4 Mini 2025 04 16	1419	3,042	OpenAI
#37	Deepseek V3.1	1419	1,010	DeepSeek
#38	Glm 4.5	1418	1,455	Z.ai
#39	Kimi K2 0905 Preview	1417	763	Moonshot
#40	Gpt 5 Chat	1417	1,813	OpenAI
#41	Deepseek V3.1 Terminus Thinking	1416	203	DeepSeek
#42	Gemini 2.5 Flash Preview 09 2025	1415	1,955	Google
#43	Qwen3 Vl 235b A22b Instruct	1415	714	Alibaba
#44	Grok 4 Fast Reasoning	1415	1,085	xAI
#45	Grok 4 1 Fast Reasoning	1415	1,677	xAI
#46	Gemini 2.5 Flash	1414	6,074	Google
#47	Gpt 4.5 Preview 2025 02 27	1414	1,384	OpenAI
#48	Gpt 5 Mini High	1413	1,460	OpenAI
#49	Deepseek R1	1413	1,609	DeepSeek
#50	Ernie 5.0 Preview 1203	1413	632	Baidu
#51	Ernie 5.0 Preview 1022	1412	268	Baidu
#52	O1 2024 12 17	1412	2,980	OpenAI
#53	Qwen3 Vl 235b A22b Thinking	1411	419	Alibaba
#54	Mistral Large 3	1410	1,471	Mistral
#55	O3 Mini High	1409	1,906	OpenAI
#56	Deepseek V3.2 Thinking	1409	1,273	DeepSeek
#57	Claude Sonnet 4 20250514 Thinking 32k	1407	2,131	Anthropic
#58	Qwen3 235b A22b Thinking 2507	1406	506	Alibaba
#59	Hunyuan T1 20250711	1406	242	Tencent
#60	Mistral Medium 2508	1405	3,912	Mistral

Google se lleva la corona

He observado la evolución de la IA matemática de Google durante tres años, y lo que han logrado este mes es nada menos que notable. Gemini 3 Pro no solo se llevó el Oro. Llegó con una clara ventaja sobre el resto del campo. ¿Pero la verdadera jugada maestra? Gemini 3 Flash sentado justo detrás en la Plata. Google ahora tiene Oro y Plata simultáneamente en la Arena de Matemáticas. Eso nunca había sucedido antes.

Lo que hace que esto sea significativo va más allá de las clasificaciones. Es la estrategia de arquitectura. Gemini 3 Pro es el peso pesado, construido para la máxima profundidad de razonamiento, el tipo de modelo que apuntas a pruebas de nivel de investigación y derivaciones de múltiples pasos. Gemini 3 Flash está optimizado para velocidad y costo. El hecho de que un modelo optimizado para velocidad pueda competir en el nivel Plata nos dice que Google ha descifrado algo fundamental sobre cómo hacer que el razonamiento matemático sea más rápido sin sacrificar la precisión. La variante de pensamiento mínimo (thinking-minimal) en el n.º 8 ofrece otra compensación precio-rendimiento, y los caballos de batalla más antiguos como Gemini 2.5 Pro en el n.º 12 y Gemini 2.5 Flash en el n.º 46 continúan sirviendo de manera confiable.

⚡

Google coloca seis modelos en el top 60, abarcando tres generaciones y múltiples niveles de precios. No están construyendo un gran modelo matemático. Están construyendo una pila completa de razonamiento matemático, desde el asequible Flash hasta el buque insignia Pro, todos compartiendo los mismos avances subyacentes.

Mi predicción: Google mantendrá esta ventaja al menos hasta mediados de 2026. Su enfoque de incorporar el razonamiento matemático como una capacidad central en toda la línea de productos, en lugar de concentrarlo en un solo buque insignia, está pagando dividendos compuestos. Si estás construyendo algo que requiera computación matemática confiable, desde modelos financieros hasta simulación científica, Gemini debería ser tu primera opción ahora.

La sorpresa de Moonshot

Esta es la historia que nadie estaba escribiendo hace tres meses. Kimi K2.5 Thinking de Moonshot ha aterrizado en el n.º 3, empatado en puntos con Gemini 3 Flash por la posición de Plata. Deja que eso se registre. Un modelo de una startup fundada en 2023 está matemáticamente al nivel de la segunda mejor oferta de Google.

He estado probando Kimi K2.5 Thinking extensamente, y lo que me sorprende es su enfoque hacia el razonamiento extendido. Donde otros modelos de pensamiento a veces producen cadenas de pensamiento verbosas que dan vueltas a un problema antes de aterrizar, el razonamiento de Kimi se siente casi inquietantemente directo. Identifica la estructura matemática central rápidamente, luego construye hacia la solución con desvíos mínimos. Para problemas de estilo de competencia donde necesitas precisión y una cadena lógica limpia, esa franqueza es una ventaja genuina.

Moonshot coloca tres modelos en el top 60: Kimi K2.5 Thinking en el n.º 3, Kimi K2 Thinking Turbo en el n.º 16 y Kimi K2 en el n.º 39. Tres niveles, una filosofía de arquitectura. Este tipo de presencia de múltiples niveles de una startup no tiene precedentes. El mensaje es claro: la era en la que solo las empresas de billones de dólares podían construir IA matemática de clase mundial ha terminado. La inversión enfocada en investigación en arquitectura de razonamiento puede competir con presupuestos de computación masivos. Espera que más laboratorios sigan este manual a lo largo de 2026.

OpenAI después del trono

Seré directo. GPT-5.2 High, que sostuvo el Oro desde su debut, ahora se encuentra en el n.º 4, empatado con Claude Opus 4.5. La corona ha sido tomada. Pero antes de que alguien escriba el obituario, mira la imagen completa.

OpenAI todavía coloca doce modelos en el top 60, más que cualquier otra organización. Esa no es una empresa en crisis. Esa es una empresa con tal profundidad de ecosistema que incluso perder el n.º 1 la deja dominando los niveles medio y superior. GPT-5.1 High ocupa el n.º 6. El modelo de razonamiento o3 en el n.º 11 sigue siendo mi opción para problemas de nivel de competencia que exigen computación profunda de múltiples pasos. GPT-5 High en el n.º 17, el GPT-5.2 estándar en el n.º 18 y o4-mini en el n.º 36 dan a los constructores opciones en todos los niveles de precios y requisitos de latencia.

La ventaja de la serie o

Los modelos de razonamiento dedicados de OpenAI (o3, o4-mini, o1, o3-mini) ocupan cuatro posiciones en el top 60. Para problemas que requieren computación extendida, prueba de desigualdades, satisfacción de restricciones o argumentos combinatorios, el tiempo de pensamiento ajustable de la serie o sigue siendo inigualablemente poderoso. Ningún otro proveedor ofrece este nivel de control de profundidad de razonamiento.

Mirando hacia el futuro, creo que la respuesta de OpenAI llegará rápido. La brecha entre GPT-5.2 High y Gemini 3 Pro no es insuperable, y el patrón de OpenAI siempre ha sido iterar agresivamente después de perder terreno. No me sorprendería ver un GPT-5.3 o una actualización significativa de razonamiento antes del verano. La historia más profunda aquí no es una caída. Es que la cima de la Arena de Matemáticas es ahora tan ferozmente competitiva que mantener el n.º 1 exige innovación continua, no un solo lanzamiento fuerte.

La revolución de los modelos de pensamiento

Escanea el top 10 de esta clasificación y cuenta cuántos nombres de modelos incluyen la palabra "thinking" (pensamiento). La respuesta es reveladora: Kimi K2.5 Thinking en el n.º 3, Claude Opus 4.5 Thinking en el n.º 7, Gemini 3 Flash thinking-minimal en el n.º 8, Claude Sonnet 4.5 Thinking en el n.º 10. Amplía al top 20 y están en todas partes. Este es el mayor cambio estructural en la IA matemática durante el último año.

Estos modelos asignan computación adicional en el tiempo de inferencia para trabajar en los problemas paso a paso antes de comprometerse con una respuesta. Es el equivalente de IA de un matemático buscando papel borrador antes de escribir la prueba final. Los resultados son inequívocos: las variantes de pensamiento superan consistentemente a sus contrapartes estándar en tareas matemáticas.

La implementación de Anthropic cuenta esta historia especialmente bien. Claude Opus 4.5 Thinking-32k en el n.º 7 supera al Opus 4.5 estándar en el n.º 5 cuando se le da espacio para razonar. Claude Sonnet 4.5 Thinking en el n.º 10 golpea muy por encima de su categoría de peso, entrando en el top 10 a pesar de ser un modelo de nivel medio por diseño. Anthropic coloca ocho modelos en total en el top 60, y su sello distintivo sigue siendo la claridad pedagógica. Cuando necesito un modelo que no solo resuelva un problema, sino que explique por qué la solución funciona de una manera que un estudiante podría aprender genuinamente, Claude sigue siendo inigualable.

💡

Mi predicción: para finales de 2026, la distinción entre modelos "estándar" y "de pensamiento" desaparecerá. Cada modelo asignará dinámicamente el tiempo de razonamiento en función de la complejidad del problema. La generación actual de variantes de pensamiento explícitamente etiquetadas es un paso de transición hacia el razonamiento universalmente adaptativo.

La conclusión práctica es simple: si la precisión importa más que la latencia, elige siempre la variante de pensamiento. El aumento matemático es consistente y real. Para aplicaciones de producción donde el tiempo de respuesta es crítico, las variantes estándar siguen siendo excelentes. Pero para investigación, educación o cualquier escenario donde obtener la respuesta correcta es primordial, los modelos de pensamiento son el presente y el futuro.

El panorama global de las matemáticas

Aleja la cámara y la geografía de esta clasificación cuenta su propia historia. De los 60 modelos clasificados, 26 provienen de organizaciones chinas. Eso es el 43% de todo el campo. Los laboratorios estadounidenses ocupan 32 lugares con un 53%, y Mistral trae representación europea con dos modelos. La capacidad de IA matemática es ahora genuinamente multipolar, y ese cambio se ha acelerado más rápido de lo que casi nadie predijo.

DeepSeek se destaca con ocho modelos en el top 60, empatado con Anthropic en el segundo conteo más alto después de OpenAI. La familia v3.2 en las posiciones n.º 25, n.º 26, n.º 28 y n.º 56 ofrece una gama impresionante, mientras que la serie v3.1 y el DeepSeek R1 probado en batalla en el n.º 49 completan los niveles intermedios. Lo que hace que DeepSeek sea notable es la relación costo-capacidad. En mis pruebas, DeepSeek V3.2 ofrece un rendimiento matemático de top 30 a aproximadamente una quinta parte de lo que cobran los modelos insignia. Para equipos que operan a escala con restricciones presupuestarias, esa proporción es transformadora.

La familia Qwen3 de Alibaba contribuye con siete modelos, desde Qwen3 Max Preview en el n.º 15 hasta variantes de peso abierto que los desarrolladores pueden ajustar en su propia infraestructura. Esa estrategia de peso abierto es importante para industrias con requisitos de soberanía de datos, y es una jugada de ecosistema deliberada. La familia Grok de xAI coloca seis modelos, liderada por Grok 4.1 Thinking en el n.º 13, que continúa encontrando atajos elegantes en problemas de estilo de prueba. La serie GLM de Z.ai ocupa tres lugares, Baidu contribuye con tres variantes de ERNIE, y vemos entradas de Meituan y Tencent también.

La profundidad y amplitud de la participación me dicen hacia dónde se dirige la IA matemática: esto ya no es una carrera entre dos o tres favoritos. Es un ecosistema, y el ecosistema se está volviendo más rico mes a mes. Ningún país, empresa o tradición de investigación puede reclamar el monopolio del razonamiento matemático nunca más. Y para aquellos de nosotros que construimos sobre estas herramientas, esa competencia es lo mejor que podría pasar.

Mi guía de campo

Después de años de probar estos modelos en todo, desde problemas de olimpiadas hasta cálculos de ingeniería del mundo real, aquí está la pregunta que los constructores siguen haciéndome: ¿qué modelo debo usar realmente? La respuesta honesta depende completamente de lo que estés construyendo.

Precisión de nivel de investigación

Gemini 3 Pro en el n.º 1. El buque insignia de Google lidera en capacidad matemática bruta. Mi primera opción para problemas novedosos donde la corrección es innegociable.

Velocidad sin sacrificio

Gemini 3 Flash en el n.º 2. Precisión cercana al podio con una latencia y un costo significativamente menores. Perfecto para tuberías matemáticas de producción que necesitan tanto calidad como rendimiento.

El caballo negro

Kimi K2.5 Thinking en el n.º 3. El enfoque de razonamiento de Moonshot es notablemente eficiente. Vale la pena explorar seriamente si aún no lo has hecho, particularmente para problemas de estilo de competencia.

Profundidad del ecosistema

OpenAI con doce modelos en todos los niveles. La serie o para matemáticas de competencia, GPT-5.x para razonamiento general. Ningún otro proveedor ofrece esta gama.

Mejores explicaciones

Claude con ocho modelos en el top 60. Cuando entender por qué una respuesta es correcta importa tanto como la respuesta misma. Claridad pedagógica inigualable.

Campeón de presupuesto

DeepSeek con ocho modelos en el top 60. Capacidad top 30 a una fracción del costo. Esencial para equipos que construyen a escala o en entornos sensibles a los costos.

🔑

No existe una única mejor IA matemática. La estrategia ganadora en 2026 es la orquestación: Gemini para precisión y velocidad de primer nivel, la serie o de OpenAI para razonamiento profundo, Claude para explicabilidad, DeepSeek y Kimi para eficiencia. Construye tu tubería con múltiples proveedores y superarás consistentemente a cualquier modelo individual.

Fuente de datos: Clasificaciones de la AI Arena Math Leaderboard, 6 de febrero de 2026.

Tags: #math #reasoning #ai-math #gemini #gpt #claude #kimi #deepseek #leaderboard

Ranking de la Arena de Matemáticas de IA 2026

El Ranking de Matemáticas