Leaderboard de la Arena de Escritura Creativa con IA 2026

Insight Central

La escritura creativa es donde la inteligencia bruta se inclina ante el buen gusto, la moderación y el coraje de dejar las cosas correctas sin decir.

Tres años pidiendo a la IA que me cuente historias. No resúmenes, no esquemas, sino ficción real. Del tipo en que un personaje entra en una habitación y sientes que cambia la temperatura. A lo largo de esos años, he visto este leaderboard transformarse de una curiosidad en un auténtico barómetro de capacidad literaria. Febrero de 2026 trajo el cambio más interesante hasta ahora: un modelo completamente nuevo que llegó silenciosamente, escaló rápido y redujo una brecha que parecía permanente hace solo unas semanas. Aquí está el panorama completo: sesenta modelos clasificados, analizados y puestos en contexto por alguien que trabaja con ellos todos los días.

El Leaderboard de Escritura Creativa

El código tiene sintaxis. Las matemáticas tienen pruebas. Pero la escritura creativa tiene voz: ritmo, sorpresa, resonancia emocional. Esta es la Arena de Escritura Creativa, el benchmark más exigente en la evaluación de IA, donde sesenta modelos se clasifican por lo bien que cuentan historias que realmente conmueven a las personas. Así es como está todo en febrero de 2026.

Rank Modelo Puntuación Votos Organización
🥇
Gemini 3 Pro 14904,861Google
🥈
Claude Opus 4 6 1478347Anthropic
🥉
Claude Opus 4 5 20251101 Thinking 32k 14593,667Anthropic
#4
Claude Opus 4 5 20251101 14574,382Anthropic
#5
Gemini 3 Flash 14563,678Google
#6
Gemini 2.5 Pro 145012,564Google
#7
Claude Sonnet 4 5 20250929 14475,769Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14472,253Google
#9
Claude Opus 4 1 20250805 Thinking 16k 14456,651Anthropic
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14426,015Anthropic
#11
Claude Opus 4 1 20250805 14409,807Anthropic
#12
Gpt 4.5 Preview 2025 02 27 14382,618OpenAI
#13
Grok 4.1 Thinking 14344,819xAI
#14
Gpt 5.1 High 14344,213OpenAI
#15
Claude Opus 4 20250514 Thinking 16k 14284,750Anthropic
#16
Grok 4.1 14275,119xAI
#17
Chatgpt 4o Latest 20250326 142211,146OpenAI
#18
Ernie 5.0 Preview 1203 14201,477Baidu
#19
Claude Opus 4 20250514 14195,794Anthropic
#20
Ernie 5.0 0110 14181,622Baidu
#21
Kimi K2.5 Thinking 14181,059Moonshot
#22
Deepseek V3.1 Terminus 1411458DeepSeek
#23
Gpt 5.1 14114,512OpenAI
#24
Ernie 5.0 Preview 1022 1411662Baidu
#25
Deepseek V3.1 Thinking 14101,720DeepSeek
#26
Grok 4 1 Fast Reasoning 14043,798xAI
#27
Glm 4.7 14031,797Z.ai
#28
Deepseek V3.2 Exp 14031,500DeepSeek
#29
Gpt 4.1 2025 04 14 14026,858OpenAI
#30
Glm 4.6 14024,764Z.ai
#31
Kimi K2.5 Instant 1402427Moonshot
#32
Grok 3 Preview 02 24 14024,972xAI
#33
Deepseek V3.2 13993,529DeepSeek
#34
Gemini 2.5 Flash 139812,294Google
#35
Gpt 5.2 13981,679OpenAI
#36
Grok 4 0709 13975,559xAI
#37
Qwen3 Max Preview 13963,713Alibaba
#38
Claude Sonnet 4 20250514 Thinking 32k 13964,582Anthropic
#39
Deepseek V3.1 13952,082DeepSeek
#40
Qwen3 Max 2025 09 23 13951,154Alibaba
#41
Claude 3 7 Sonnet 20250219 Thinking 32k 13955,472Anthropic
#42
Deepseek V3.2 Exp Thinking 13951,154DeepSeek
#43
Gpt 5 Chat 13944,010OpenAI
#44
Gpt 5.2 High 13942,133OpenAI
#45
Kimi K2 Thinking Turbo 13934,520Moonshot
#46
Deepseek V3 0324 13916,338DeepSeek
#47
Deepseek V3.2 Thinking 13903,113DeepSeek
#48
Deepseek R1 0528 13882,660DeepSeek
#49
Claude Sonnet 4 20250514 13855,328Anthropic
#50
Qwen3 235b A22b Instruct 2507 13849,102Alibaba
#51
O3 2025 04 16 13848,014OpenAI
#52
O1 2024 12 17 13834,646OpenAI
#53
Hunyuan T1 20250711 1382642Tencent
#54
Grok 4 Fast Chat 1382995xAI
#55
Gemini 2.5 Flash Preview 09 2025 13824,285Google
#56
Mistral Medium 2508 13828,527Mistral
#57
Claude Haiku 4 5 20251001 13825,754Anthropic
#58
Deepseek V3.1 Terminus Thinking 1381446DeepSeek
#59
Grok 4 Fast Reasoning 13802,372xAI
#60
Gpt 5 High 13794,330OpenAI

La Disrupción de Febrero

Cuando extraje los datos más recientes, una entrada me detuvo: Claude Opus 4.6 sentado en el número dos. No porque un modelo de Anthropic clasificado alto sea inusual; lo han hecho consistentemente. Sino porque este modelo aterrizó en la segunda posición sin apenas historial de evaluación. Ese tipo de consenso temprano es raro. Significa que la primera ola de probadores, los obsesivos que ejecutan prompts idénticos en cada nuevo lanzamiento a las pocas horas de su inicio, encontró algo genuinamente diferente en su producción creativa.

La verdadera historia, sin embargo, es la brecha. En enero, la distancia entre el primer y el segundo lugar era de unos cómodos veinticinco puntos. Ahora es de doce. Gemini 3 Pro aún mantiene el oro, y se ganó esa posición honestamente. Pero el liderazgo se ha reducido a la mitad en un solo ciclo de actualización. Si eres Google, esa tendencia exige atención. Si eres Anthropic, es la confirmación de que tu enfoque para el entrenamiento de IA creativa está convergiendo en algo poderoso.

Mientras tanto, los modelos justo debajo de los dos primeros se han reorganizado significativamente. La variante "thinking" de Claude Opus 4.5 subió al tercer lugar, empujando al Opus 4.5 estándar al cuarto y a Gemini 3 Flash al quinto. Flash ocupaba el tercer lugar el mes pasado. El podio no solo está cambiando de manos en la cima, es inestable en todas partes. Y la inestabilidad, en mi experiencia, precede a los avances.

Alturas Dominantes

Gemini 3 Pro sigue siendo el modelo al que recurro cuando aún no sé lo que necesito. Lo que lo mantiene en el número uno es el rango: pídele un estilo Hemingway y te entrega una prosa sobria y muscular. Pídele ficción posmoderna experimental y cambia el registro sin perder la coherencia. Epistolar victoriano, noir hardboiled, realismo mágico, literatura infantil: Gemini maneja estas transiciones de una manera que sugiere una comprensión genuina de la forma, no una mímica superficial. Google coloca seis modelos en el top sesenta, con Gemini 3 Flash en el quinto y Gemini 2.5 Pro en el sexto, completando un trío fuerte en la cima.

Claude es un animal completamente diferente. Si Gemini es rango, Claude es profundidad. Los modelos de Anthropic siempre se han destacado en las sutilezas más difíciles de enseñar a una máquina: cuándo dejar que el silencio lleve una escena, cuándo una oración debe romperse en lugar de continuar, cuándo lo que un personaje no dice revela más de lo que dice. Opus 4.6 lleva esto más allá. En mis pruebas, produjo diálogos que se sentían genuinamente habitados. Los personajes no estaban recitando líneas; estaban pensando, dudando, eligiendo palabras de la manera en que lo hace la gente real cuando hay algo importante en juego. Anthropic ahora tiene trece modelos en el top sesenta, más que cualquier otra organización, con cinco ubicados entre los once primeros. Cualquiera que sea su enfoque para entrenar la capacidad creativa, está funcionando en toda su línea de productos.

Aquí hay una observación que no recibe suficiente atención: el razonamiento extendido, el modo "thinking", no mejora de manera confiable la escritura creativa. El patrón es inconsistente y profundamente revelador.

Para los modelos Claude Opus, las variantes "thinking" tienden a clasificarse ligeramente más alto: Opus 4.5 Thinking en el tercero frente al estándar en el cuarto, Opus 4.1 Thinking en el noveno frente al estándar en el undécimo. Grok 4.1 Thinking supera a su variante estándar por tres posiciones. Pero cambia a otras arquitecturas y el patrón se invierte, a veces dramáticamente. DeepSeek v3.2-exp estándar se encuentra en el vigésimo octavo mientras que su variante thinking cae al cuadragésimo segundo. DeepSeek v3.1-terminus estándar está en el vigésimo segundo; su contraparte thinking cae al cincuenta y ocho, una brecha de treinta y seis posiciones. GPT-5.2 estándar vence a GPT-5.2-high.

Lo que esto me dice es importante: la escritura creativa no es principalmente un problema de razonamiento. Es un problema estético. Para modelos que ya poseen fuertes instintos literarios, el pensamiento extendido puede refinar esos instintos, como un editor cuidadoso revisando un primer borrador sólido. Pero para modelos cuya fuerza creativa es más instintiva y basada en patrones, forzar la deliberación en realidad pule las aristas que hacen que la prosa se sienta viva. A veces, la primera respuesta captura algo que la computación adicional suaviza hasta la mediocridad. Si usas modelos habilitados para el razonamiento para trabajo creativo, prueba ambos modos. La suposición de que más razonamiento equivale a una mejor salida no se sostiene aquí, y entender cuándo apagar el pensamiento puede ser más valioso que saber cuándo encenderlo.

La Marea Creciente

Debajo del nivel superior, la historia es proliferación y diversidad, y es posiblemente más importante que la carrera por el número uno.

DeepSeek coloca diez modelos en el top sesenta, convirtiéndose en la tercera organización más representada después de Anthropic y OpenAI. Sus variantes v3.1 y v3.2 abarcan desde el puesto veintidós al cincuenta y ocho, cubriendo una gama de niveles de capacidad creativa. Como un proyecto de pesos abiertos, DeepSeek representa algo fundamentalmente diferente de los líderes propietarios: estos modelos pueden descargarse, alojarse localmente y ajustarse (fine-tuned) para tareas creativas específicas. Si estás construyendo una herramienta de escritura con IA o integrando capacidades creativas en un pipeline de producto, DeepSeek ofrece una flexibilidad que los modelos solo de API no pueden igualar.

El panorama general es aún más sorprendente. Entre DeepSeek, Baidu, Moonshot, Alibaba, Z.ai y Tencent, los laboratorios de IA chinos ahora representan veintidós de los sesenta modelos clasificados, más de un tercio de todo el leaderboard. Moonshot's Kimi K2.5 debutó con su variante thinking en el veintiuno, llevando a la compañía a tres colocaciones. Baidu tiene tres posiciones con su línea ERNIE 5.0. Alibaba's Qwen3 tiene tres variantes clasificadas. Z.ai's GLM-4.7 se encuentra en el veintisiete. Esto no es convergencia, es diversidad genuina. Diferentes datos de entrenamiento, diferentes contextos culturales y diferentes tradiciones literarias producen modelos con sensibilidades creativas distintas. He visto a ERNIE crear metáforas que no se le ocurrirían a modelos entrenados en occidente, y a GLM manejar el ritmo narrativo de maneras que se sienten frescas precisamente porque el ADN literario es diferente. El ecosistema global de IA creativa es más rico por ello.

OpenAI tiene once modelos, aunque su historia creativa tiene una subtrama interesante. GPT-4.5-preview en el doce se sitúa por delante tanto de GPT-5.1-high en el catorce como de GPT-5.1 estándar en el veintitrés. A veces, un modelo optimizado para matices supera a su sucesor técnicamente superior en tareas que valoran la sutileza sobre la capacidad bruta. ChatGPT-4o-latest en el diecisiete refuerza el punto: los modelos optimizados para la conversación tienen una ventaja inherente en la escritura creativa porque contar historias es fundamentalmente conversacional. No estás calculando una respuesta, estás sosteniendo una voz.

Grok ha forjado una identidad creativa genuina con siete modelos clasificados. Donde Claude sobresale en inteligencia emocional, Grok aporta honestidad emocional. El humor es más agudo, las metáforas más audaces, los personajes menos pulidos y más vivos. Cuando quiero una escritura que corra riesgos, ficción que pueda hacer que un lector se sienta incómodo de una manera productiva, Grok es donde empiezo. Es el modelo menos temeroso de su propia voz, y en la escritura creativa, la intrepidez importa. Mistral's medium-2508 en el cincuenta y seis representa la presencia de Europa en el tablero. Tencent's Hunyuan en el cincuenta y tres agrega otra voz más de China. El campo nunca ha sido tan amplio.

Hacia Dónde Va Todo Esto

Te diré lo que creo que sucederá a continuación, porque las tendencias en estos datos apuntan a un lugar específico.

La brecha sigue comprimiéndose. La diferencia entre el primer y el sexagésimo lugar es de aproximadamente el 7.4 por ciento, ajustada para los estándares históricos, y reduciéndose con cada actualización. Nos estamos acercando a un umbral donde las diferencias significativas entre modelos cambian de la calidad bruta a la personalidad creativa. La pregunta deja de ser "qué modelo escribe mejor" y se convierte en "qué voz de modelo se adapta a este proyecto en particular". Ese es un cambio fundamental en cómo los escritores y los equipos creativos deben pensar sobre la selección de IA.

Los modelos creativos especializados son inevitables. La arquitectura de propósito general ha impulsado la calidad de la escritura creativa notablemente lejos, pero el próximo salto real provendrá de modelos explícitamente ajustados para la estructura narrativa, la consistencia de los personajes, la autenticidad del diálogo o la forma poética. Espero que al menos un laboratorio importante lance un modelo especialista en creatividad para la segunda mitad de este año, uno que se comprometa completamente con la capacidad literaria en lugar de tratar de resolver matemáticas, escribir código y contar historias simultáneamente. Cuando eso suceda, restablecerá la cima de este leaderboard de la noche a la mañana.

Los modelos de pesos abiertos cerrarán la brecha restante. La presencia de diez modelos de DeepSeek es el indicador principal. A medida que las alternativas abiertas se acercan a la paridad con los sistemas propietarios en los benchmarks creativos, la economía de la escritura asistida por IA cambia drásticamente. Escritores, estudios y editoriales obtienen acceso a IA creativa de primer nivel sin precios por token, cambiando las curvas de adopción y la relación fundamental entre los escritores humanos y las herramientas de IA.

La verdadera frontera es la orquestación, no el aislamiento. El trabajo creativo más sofisticado que he visto recientemente no usa un solo modelo, usa tres o cuatro en secuencia. Gemini para la ideación inicial y la exploración estilística. Claude para el refinamiento emocional y el pulido del diálogo. DeepSeek o Qwen para perspectivas culturales alternativas. Grok cuando el borrador necesita audacia. El futuro no se trata de coronar a un modelo como rey. Se trata de aprender a dirigir un conjunto, haciendo coincidir la personalidad creativa de cada modelo con el momento adecuado en el proceso de escritura. Los escritores que descubran esto primero producirán un trabajo que se sentirá diferente a cualquier cosa que un solo modelo, o un solo humano, pudiera lograr solo.

Eligiendo tu Socio Creativo

Después de años escribiendo junto a estos modelos, esto es lo que he aprendido sobre cómo combinar la herramienta adecuada con la tarea adecuada:

Versatilidad

Gemini 3 Pro se adapta a cualquier género, cualquier forma, cualquier tono. Cuando el briefing no está definido o el proyecto exige rango, comienza aquí.

Profundidad Emocional

Claude Opus 4.6 escribe con moderación y sentimiento genuino. Para diálogos, trabajo de personajes y prosa donde lo que no se dice importa más.

Velocidad y Calidad

Gemini 3 Flash demuestra que rápido no significa peor. Para redacción iterativa, proyectos de alto volumen y prototipado rápido de ideas narrativas.

Personalidad

Grok 4.1 asume riesgos creativos que otros modelos no asumen. Para ficción que necesita audacia, humor y personajes que se sientan vivos en lugar de ensamblados.

Empresarial

GPT-4.5 / GPT-5.1 entregan resultados pulidos y confiables que se integran en los flujos de trabajo existentes. Cuando la consistencia y la seguridad de la marca importan tanto como la creatividad.

Código Abierto

DeepSeek / Qwen: alójalo tú mismo, ajústalo para tu dominio. Cuando necesitas IA creativa a escala sin costos por token, la economía es inmejorable.

No existe una única mejor IA creativa. Hay voces en evolución con diferentes fortalezas, y el verdadero poder radica en saber qué voz sirve a qué momento en la historia que estás tratando de contar.


Fuente de Datos: Rankings de Arena AI Creative Writing Leaderboard, 6 de febrero de 2026.

Discusión

0 comentarios

Dejar un comentario

¡Sé el primero en compartir tu opinión!