Leaderboard de la Arena de Escritura Creativa con IA 2026

Insight Central

La escritura creativa es donde la inteligencia bruta se inclina ante el buen gusto, la moderación y el coraje de dejar las cosas correctas sin decir.

Tres años pidiendo a la IA que me cuente historias. No resúmenes, no esquemas, sino ficción real. Del tipo en que un personaje entra en una habitación y sientes que cambia la temperatura. A lo largo de esos años, he visto este leaderboard transformarse de una curiosidad en un auténtico barómetro de capacidad literaria. Febrero de 2026 trajo el cambio más interesante hasta ahora: un modelo completamente nuevo que llegó silenciosamente, escaló rápido y redujo una brecha que parecía permanente hace solo unas semanas. Aquí está el panorama completo: sesenta modelos clasificados, analizados y puestos en contexto por alguien que trabaja con ellos todos los días.

El Leaderboard de Escritura Creativa

El código tiene sintaxis. Las matemáticas tienen pruebas. Pero la escritura creativa tiene voz: ritmo, sorpresa, resonancia emocional. Esta es la Arena de Escritura Creativa, el benchmark más exigente en la evaluación de IA, donde sesenta modelos se clasifican por lo bien que cuentan historias que realmente conmueven a las personas. Así es como está todo en febrero de 2026.

Rank	Modelo	Puntuación	Votos	Organización
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

La Disrupción de Febrero

Cuando extraje los datos más recientes, una entrada me detuvo: Claude Opus 4.6 sentado en el número dos. No porque un modelo de Anthropic clasificado alto sea inusual; lo han hecho consistentemente. Sino porque este modelo aterrizó en la segunda posición sin apenas historial de evaluación. Ese tipo de consenso temprano es raro. Significa que la primera ola de probadores, los obsesivos que ejecutan prompts idénticos en cada nuevo lanzamiento a las pocas horas de su inicio, encontró algo genuinamente diferente en su producción creativa.

La verdadera historia, sin embargo, es la brecha. En enero, la distancia entre el primer y el segundo lugar era de unos cómodos veinticinco puntos. Ahora es de doce. Gemini 3 Pro aún mantiene el oro, y se ganó esa posición honestamente. Pero el liderazgo se ha reducido a la mitad en un solo ciclo de actualización. Si eres Google, esa tendencia exige atención. Si eres Anthropic, es la confirmación de que tu enfoque para el entrenamiento de IA creativa está convergiendo en algo poderoso.

Mientras tanto, los modelos justo debajo de los dos primeros se han reorganizado significativamente. La variante "thinking" de Claude Opus 4.5 subió al tercer lugar, empujando al Opus 4.5 estándar al cuarto y a Gemini 3 Flash al quinto. Flash ocupaba el tercer lugar el mes pasado. El podio no solo está cambiando de manos en la cima, es inestable en todas partes. Y la inestabilidad, en mi experiencia, precede a los avances.

Alturas Dominantes

Gemini 3 Pro sigue siendo el modelo al que recurro cuando aún no sé lo que necesito. Lo que lo mantiene en el número uno es el rango: pídele un estilo Hemingway y te entrega una prosa sobria y muscular. Pídele ficción posmoderna experimental y cambia el registro sin perder la coherencia. Epistolar victoriano, noir hardboiled, realismo mágico, literatura infantil: Gemini maneja estas transiciones de una manera que sugiere una comprensión genuina de la forma, no una mímica superficial. Google coloca seis modelos en el top sesenta, con Gemini 3 Flash en el quinto y Gemini 2.5 Pro en el sexto, completando un trío fuerte en la cima.

Claude es un animal completamente diferente. Si Gemini es rango, Claude es profundidad. Los modelos de Anthropic siempre se han destacado en las sutilezas más difíciles de enseñar a una máquina: cuándo dejar que el silencio lleve una escena, cuándo una oración debe romperse en lugar de continuar, cuándo lo que un personaje no dice revela más de lo que dice. Opus 4.6 lleva esto más allá. En mis pruebas, produjo diálogos que se sentían genuinamente habitados. Los personajes no estaban recitando líneas; estaban pensando, dudando, eligiendo palabras de la manera en que lo hace la gente real cuando hay algo importante en juego. Anthropic ahora tiene trece modelos en el top sesenta, más que cualquier otra organización, con cinco ubicados entre los once primeros. Cualquiera que sea su enfoque para entrenar la capacidad creativa, está funcionando en toda su línea de productos.

Aquí hay una observación que no recibe suficiente atención: el razonamiento extendido, el modo "thinking", no mejora de manera confiable la escritura creativa. El patrón es inconsistente y profundamente revelador.

Para los modelos Claude Opus, las variantes "thinking" tienden a clasificarse ligeramente más alto: Opus 4.5 Thinking en el tercero frente al estándar en el cuarto, Opus 4.1 Thinking en el noveno frente al estándar en el undécimo. Grok 4.1 Thinking supera a su variante estándar por tres posiciones. Pero cambia a otras arquitecturas y el patrón se invierte, a veces dramáticamente. DeepSeek v3.2-exp estándar se encuentra en el vigésimo octavo mientras que su variante thinking cae al cuadragésimo segundo. DeepSeek v3.1-terminus estándar está en el vigésimo segundo; su contraparte thinking cae al cincuenta y ocho, una brecha de treinta y seis posiciones. GPT-5.2 estándar vence a GPT-5.2-high.

Lo que esto me dice es importante: la escritura creativa no es principalmente un problema de razonamiento. Es un problema estético. Para modelos que ya poseen fuertes instintos literarios, el pensamiento extendido puede refinar esos instintos, como un editor cuidadoso revisando un primer borrador sólido. Pero para modelos cuya fuerza creativa es más instintiva y basada en patrones, forzar la deliberación en realidad pule las aristas que hacen que la prosa se sienta viva. A veces, la primera respuesta captura algo que la computación adicional suaviza hasta la mediocridad. Si usas modelos habilitados para el razonamiento para trabajo creativo, prueba ambos modos. La suposición de que más razonamiento equivale a una mejor salida no se sostiene aquí, y entender cuándo apagar el pensamiento puede ser más valioso que saber cuándo encenderlo.

La Marea Creciente

Debajo del nivel superior, la historia es proliferación y diversidad, y es posiblemente más importante que la carrera por el número uno.

DeepSeek coloca diez modelos en el top sesenta, convirtiéndose en la tercera organización más representada después de Anthropic y OpenAI. Sus variantes v3.1 y v3.2 abarcan desde el puesto veintidós al cincuenta y ocho, cubriendo una gama de niveles de capacidad creativa. Como un proyecto de pesos abiertos, DeepSeek representa algo fundamentalmente diferente de los líderes propietarios: estos modelos pueden descargarse, alojarse localmente y ajustarse (fine-tuned) para tareas creativas específicas. Si estás construyendo una herramienta de escritura con IA o integrando capacidades creativas en un pipeline de producto, DeepSeek ofrece una flexibilidad que los modelos solo de API no pueden igualar.

El panorama general es aún más sorprendente. Entre DeepSeek, Baidu, Moonshot, Alibaba, Z.ai y Tencent, los laboratorios de IA chinos ahora representan veintidós de los sesenta modelos clasificados, más de un tercio de todo el leaderboard. Moonshot's Kimi K2.5 debutó con su variante thinking en el veintiuno, llevando a la compañía a tres colocaciones. Baidu tiene tres posiciones con su línea ERNIE 5.0. Alibaba's Qwen3 tiene tres variantes clasificadas. Z.ai's GLM-4.7 se encuentra en el veintisiete. Esto no es convergencia, es diversidad genuina. Diferentes datos de entrenamiento, diferentes contextos culturales y diferentes tradiciones literarias producen modelos con sensibilidades creativas distintas. He visto a ERNIE crear metáforas que no se le ocurrirían a modelos entrenados en occidente, y a GLM manejar el ritmo narrativo de maneras que se sienten frescas precisamente porque el ADN literario es diferente. El ecosistema global de IA creativa es más rico por ello.

OpenAI tiene once modelos, aunque su historia creativa tiene una subtrama interesante. GPT-4.5-preview en el doce se sitúa por delante tanto de GPT-5.1-high en el catorce como de GPT-5.1 estándar en el veintitrés. A veces, un modelo optimizado para matices supera a su sucesor técnicamente superior en tareas que valoran la sutileza sobre la capacidad bruta. ChatGPT-4o-latest en el diecisiete refuerza el punto: los modelos optimizados para la conversación tienen una ventaja inherente en la escritura creativa porque contar historias es fundamentalmente conversacional. No estás calculando una respuesta, estás sosteniendo una voz.

Grok ha forjado una identidad creativa genuina con siete modelos clasificados. Donde Claude sobresale en inteligencia emocional, Grok aporta honestidad emocional. El humor es más agudo, las metáforas más audaces, los personajes menos pulidos y más vivos. Cuando quiero una escritura que corra riesgos, ficción que pueda hacer que un lector se sienta incómodo de una manera productiva, Grok es donde empiezo. Es el modelo menos temeroso de su propia voz, y en la escritura creativa, la intrepidez importa. Mistral's medium-2508 en el cincuenta y seis representa la presencia de Europa en el tablero. Tencent's Hunyuan en el cincuenta y tres agrega otra voz más de China. El campo nunca ha sido tan amplio.

Hacia Dónde Va Todo Esto

Te diré lo que creo que sucederá a continuación, porque las tendencias en estos datos apuntan a un lugar específico.

La brecha sigue comprimiéndose. La diferencia entre el primer y el sexagésimo lugar es de aproximadamente el 7.4 por ciento, ajustada para los estándares históricos, y reduciéndose con cada actualización. Nos estamos acercando a un umbral donde las diferencias significativas entre modelos cambian de la calidad bruta a la personalidad creativa. La pregunta deja de ser "qué modelo escribe mejor" y se convierte en "qué voz de modelo se adapta a este proyecto en particular". Ese es un cambio fundamental en cómo los escritores y los equipos creativos deben pensar sobre la selección de IA.

Los modelos creativos especializados son inevitables. La arquitectura de propósito general ha impulsado la calidad de la escritura creativa notablemente lejos, pero el próximo salto real provendrá de modelos explícitamente ajustados para la estructura narrativa, la consistencia de los personajes, la autenticidad del diálogo o la forma poética. Espero que al menos un laboratorio importante lance un modelo especialista en creatividad para la segunda mitad de este año, uno que se comprometa completamente con la capacidad literaria en lugar de tratar de resolver matemáticas, escribir código y contar historias simultáneamente. Cuando eso suceda, restablecerá la cima de este leaderboard de la noche a la mañana.

Los modelos de pesos abiertos cerrarán la brecha restante. La presencia de diez modelos de DeepSeek es el indicador principal. A medida que las alternativas abiertas se acercan a la paridad con los sistemas propietarios en los benchmarks creativos, la economía de la escritura asistida por IA cambia drásticamente. Escritores, estudios y editoriales obtienen acceso a IA creativa de primer nivel sin precios por token, cambiando las curvas de adopción y la relación fundamental entre los escritores humanos y las herramientas de IA.

La verdadera frontera es la orquestación, no el aislamiento. El trabajo creativo más sofisticado que he visto recientemente no usa un solo modelo, usa tres o cuatro en secuencia. Gemini para la ideación inicial y la exploración estilística. Claude para el refinamiento emocional y el pulido del diálogo. DeepSeek o Qwen para perspectivas culturales alternativas. Grok cuando el borrador necesita audacia. El futuro no se trata de coronar a un modelo como rey. Se trata de aprender a dirigir un conjunto, haciendo coincidir la personalidad creativa de cada modelo con el momento adecuado en el proceso de escritura. Los escritores que descubran esto primero producirán un trabajo que se sentirá diferente a cualquier cosa que un solo modelo, o un solo humano, pudiera lograr solo.

Eligiendo tu Socio Creativo

Después de años escribiendo junto a estos modelos, esto es lo que he aprendido sobre cómo combinar la herramienta adecuada con la tarea adecuada:

Versatilidad

Gemini 3 Pro se adapta a cualquier género, cualquier forma, cualquier tono. Cuando el briefing no está definido o el proyecto exige rango, comienza aquí.

Profundidad Emocional

Claude Opus 4.6 escribe con moderación y sentimiento genuino. Para diálogos, trabajo de personajes y prosa donde lo que no se dice importa más.

Velocidad y Calidad

Gemini 3 Flash demuestra que rápido no significa peor. Para redacción iterativa, proyectos de alto volumen y prototipado rápido de ideas narrativas.

Personalidad

Grok 4.1 asume riesgos creativos que otros modelos no asumen. Para ficción que necesita audacia, humor y personajes que se sientan vivos en lugar de ensamblados.

Empresarial

GPT-4.5 / GPT-5.1 entregan resultados pulidos y confiables que se integran en los flujos de trabajo existentes. Cuando la consistencia y la seguridad de la marca importan tanto como la creatividad.

Código Abierto

DeepSeek / Qwen: alójalo tú mismo, ajústalo para tu dominio. Cuando necesitas IA creativa a escala sin costos por token, la economía es inmejorable.

No existe una única mejor IA creativa. Hay voces en evolución con diferentes fortalezas, y el verdadero poder radica en saber qué voz sirve a qué momento en la historia que estás tratando de contar.

Fuente de Datos: Rankings de Arena AI Creative Writing Leaderboard, 6 de febrero de 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard