La escritura creativa es donde la inteligencia bruta se inclina ante el buen gusto, la moderación y el coraje de dejar las cosas correctas sin decir.
Tres años pidiendo a la IA que me cuente historias. No resúmenes, no esquemas, sino ficción real. Del tipo en que un personaje entra en una habitación y sientes que cambia la temperatura. A lo largo de esos años, he visto este leaderboard transformarse de una curiosidad en un auténtico barómetro de capacidad literaria. Febrero de 2026 trajo el cambio más interesante hasta ahora: un modelo completamente nuevo que llegó silenciosamente, escaló rápido y redujo una brecha que parecía permanente hace solo unas semanas. Aquí está el panorama completo: sesenta modelos clasificados, analizados y puestos en contexto por alguien que trabaja con ellos todos los días.
El Leaderboard de Escritura Creativa
El código tiene sintaxis. Las matemáticas tienen pruebas. Pero la escritura creativa tiene voz: ritmo, sorpresa, resonancia emocional. Esta es la Arena de Escritura Creativa, el benchmark más exigente en la evaluación de IA, donde sesenta modelos se clasifican por lo bien que cuentan historias que realmente conmueven a las personas. Así es como está todo en febrero de 2026.
| Rank | Modelo | Puntuación | Votos | Organización |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
La Disrupción de Febrero
Cuando extraje los datos más recientes, una entrada me detuvo: Claude Opus 4.6 sentado en el número dos. No porque un modelo de Anthropic clasificado alto sea inusual; lo han hecho consistentemente. Sino porque este modelo aterrizó en la segunda posición sin apenas historial de evaluación. Ese tipo de consenso temprano es raro. Significa que la primera ola de probadores, los obsesivos que ejecutan prompts idénticos en cada nuevo lanzamiento a las pocas horas de su inicio, encontró algo genuinamente diferente en su producción creativa.
La verdadera historia, sin embargo, es la brecha. En enero, la distancia entre el primer y el segundo lugar era de unos cómodos veinticinco puntos. Ahora es de doce. Gemini 3 Pro aún mantiene el oro, y se ganó esa posición honestamente. Pero el liderazgo se ha reducido a la mitad en un solo ciclo de actualización. Si eres Google, esa tendencia exige atención. Si eres Anthropic, es la confirmación de que tu enfoque para el entrenamiento de IA creativa está convergiendo en algo poderoso.
Mientras tanto, los modelos justo debajo de los dos primeros se han reorganizado significativamente. La variante "thinking" de Claude Opus 4.5 subió al tercer lugar, empujando al Opus 4.5 estándar al cuarto y a Gemini 3 Flash al quinto. Flash ocupaba el tercer lugar el mes pasado. El podio no solo está cambiando de manos en la cima, es inestable en todas partes. Y la inestabilidad, en mi experiencia, precede a los avances.
Alturas Dominantes
Gemini 3 Pro sigue siendo el modelo al que recurro cuando aún no sé lo que necesito. Lo que lo mantiene en el número uno es el rango: pídele un estilo Hemingway y te entrega una prosa sobria y muscular. Pídele ficción posmoderna experimental y cambia el registro sin perder la coherencia. Epistolar victoriano, noir hardboiled, realismo mágico, literatura infantil: Gemini maneja estas transiciones de una manera que sugiere una comprensión genuina de la forma, no una mímica superficial. Google coloca seis modelos en el top sesenta, con Gemini 3 Flash en el quinto y Gemini 2.5 Pro en el sexto, completando un trío fuerte en la cima.
Claude es un animal completamente diferente. Si Gemini es rango, Claude es profundidad. Los modelos de Anthropic siempre se han destacado en las sutilezas más difíciles de enseñar a una máquina: cuándo dejar que el silencio lleve una escena, cuándo una oración debe romperse en lugar de continuar, cuándo lo que un personaje no dice revela más de lo que dice. Opus 4.6 lleva esto más allá. En mis pruebas, produjo diálogos que se sentían genuinamente habitados. Los personajes no estaban recitando líneas; estaban pensando, dudando, eligiendo palabras de la manera en que lo hace la gente real cuando hay algo importante en juego. Anthropic ahora tiene trece modelos en el top sesenta, más que cualquier otra organización, con cinco ubicados entre los once primeros. Cualquiera que sea su enfoque para entrenar la capacidad creativa, está funcionando en toda su línea de productos.
Aquí hay una observación que no recibe suficiente atención: el razonamiento extendido, el modo "thinking", no mejora de manera confiable la escritura creativa. El patrón es inconsistente y profundamente revelador.
Para los modelos Claude Opus, las variantes "thinking" tienden a clasificarse ligeramente más alto: Opus 4.5 Thinking en el tercero frente al estándar en el cuarto, Opus 4.1 Thinking en el noveno frente al estándar en el undécimo. Grok 4.1 Thinking supera a su variante estándar por tres posiciones. Pero cambia a otras arquitecturas y el patrón se invierte, a veces dramáticamente. DeepSeek v3.2-exp estándar se encuentra en el vigésimo octavo mientras que su variante thinking cae al cuadragésimo segundo. DeepSeek v3.1-terminus estándar está en el vigésimo segundo; su contraparte thinking cae al cincuenta y ocho, una brecha de treinta y seis posiciones. GPT-5.2 estándar vence a GPT-5.2-high.
Lo que esto me dice es importante: la escritura creativa no es principalmente un problema de razonamiento. Es un problema estético. Para modelos que ya poseen fuertes instintos literarios, el pensamiento extendido puede refinar esos instintos, como un editor cuidadoso revisando un primer borrador sólido. Pero para modelos cuya fuerza creativa es más instintiva y basada en patrones, forzar la deliberación en realidad pule las aristas que hacen que la prosa se sienta viva. A veces, la primera respuesta captura algo que la computación adicional suaviza hasta la mediocridad. Si usas modelos habilitados para el razonamiento para trabajo creativo, prueba ambos modos. La suposición de que más razonamiento equivale a una mejor salida no se sostiene aquí, y entender cuándo apagar el pensamiento puede ser más valioso que saber cuándo encenderlo.
La Marea Creciente
Debajo del nivel superior, la historia es proliferación y diversidad, y es posiblemente más importante que la carrera por el número uno.
DeepSeek coloca diez modelos en el top sesenta, convirtiéndose en la tercera organización más representada después de Anthropic y OpenAI. Sus variantes v3.1 y v3.2 abarcan desde el puesto veintidós al cincuenta y ocho, cubriendo una gama de niveles de capacidad creativa. Como un proyecto de pesos abiertos, DeepSeek representa algo fundamentalmente diferente de los líderes propietarios: estos modelos pueden descargarse, alojarse localmente y ajustarse (fine-tuned) para tareas creativas específicas. Si estás construyendo una herramienta de escritura con IA o integrando capacidades creativas en un pipeline de producto, DeepSeek ofrece una flexibilidad que los modelos solo de API no pueden igualar.
El panorama general es aún más sorprendente. Entre DeepSeek, Baidu, Moonshot, Alibaba, Z.ai y Tencent, los laboratorios de IA chinos ahora representan veintidós de los sesenta modelos clasificados, más de un tercio de todo el leaderboard. Moonshot's Kimi K2.5 debutó con su variante thinking en el veintiuno, llevando a la compañía a tres colocaciones. Baidu tiene tres posiciones con su línea ERNIE 5.0. Alibaba's Qwen3 tiene tres variantes clasificadas. Z.ai's GLM-4.7 se encuentra en el veintisiete. Esto no es convergencia, es diversidad genuina. Diferentes datos de entrenamiento, diferentes contextos culturales y diferentes tradiciones literarias producen modelos con sensibilidades creativas distintas. He visto a ERNIE crear metáforas que no se le ocurrirían a modelos entrenados en occidente, y a GLM manejar el ritmo narrativo de maneras que se sienten frescas precisamente porque el ADN literario es diferente. El ecosistema global de IA creativa es más rico por ello.
OpenAI tiene once modelos, aunque su historia creativa tiene una subtrama interesante. GPT-4.5-preview en el doce se sitúa por delante tanto de GPT-5.1-high en el catorce como de GPT-5.1 estándar en el veintitrés. A veces, un modelo optimizado para matices supera a su sucesor técnicamente superior en tareas que valoran la sutileza sobre la capacidad bruta. ChatGPT-4o-latest en el diecisiete refuerza el punto: los modelos optimizados para la conversación tienen una ventaja inherente en la escritura creativa porque contar historias es fundamentalmente conversacional. No estás calculando una respuesta, estás sosteniendo una voz.
Grok ha forjado una identidad creativa genuina con siete modelos clasificados. Donde Claude sobresale en inteligencia emocional, Grok aporta honestidad emocional. El humor es más agudo, las metáforas más audaces, los personajes menos pulidos y más vivos. Cuando quiero una escritura que corra riesgos, ficción que pueda hacer que un lector se sienta incómodo de una manera productiva, Grok es donde empiezo. Es el modelo menos temeroso de su propia voz, y en la escritura creativa, la intrepidez importa. Mistral's medium-2508 en el cincuenta y seis representa la presencia de Europa en el tablero. Tencent's Hunyuan en el cincuenta y tres agrega otra voz más de China. El campo nunca ha sido tan amplio.
Hacia Dónde Va Todo Esto
Te diré lo que creo que sucederá a continuación, porque las tendencias en estos datos apuntan a un lugar específico.
La brecha sigue comprimiéndose. La diferencia entre el primer y el sexagésimo lugar es de aproximadamente el 7.4 por ciento, ajustada para los estándares históricos, y reduciéndose con cada actualización. Nos estamos acercando a un umbral donde las diferencias significativas entre modelos cambian de la calidad bruta a la personalidad creativa. La pregunta deja de ser "qué modelo escribe mejor" y se convierte en "qué voz de modelo se adapta a este proyecto en particular". Ese es un cambio fundamental en cómo los escritores y los equipos creativos deben pensar sobre la selección de IA.
Los modelos creativos especializados son inevitables. La arquitectura de propósito general ha impulsado la calidad de la escritura creativa notablemente lejos, pero el próximo salto real provendrá de modelos explícitamente ajustados para la estructura narrativa, la consistencia de los personajes, la autenticidad del diálogo o la forma poética. Espero que al menos un laboratorio importante lance un modelo especialista en creatividad para la segunda mitad de este año, uno que se comprometa completamente con la capacidad literaria en lugar de tratar de resolver matemáticas, escribir código y contar historias simultáneamente. Cuando eso suceda, restablecerá la cima de este leaderboard de la noche a la mañana.
Los modelos de pesos abiertos cerrarán la brecha restante. La presencia de diez modelos de DeepSeek es el indicador principal. A medida que las alternativas abiertas se acercan a la paridad con los sistemas propietarios en los benchmarks creativos, la economía de la escritura asistida por IA cambia drásticamente. Escritores, estudios y editoriales obtienen acceso a IA creativa de primer nivel sin precios por token, cambiando las curvas de adopción y la relación fundamental entre los escritores humanos y las herramientas de IA.
La verdadera frontera es la orquestación, no el aislamiento. El trabajo creativo más sofisticado que he visto recientemente no usa un solo modelo, usa tres o cuatro en secuencia. Gemini para la ideación inicial y la exploración estilística. Claude para el refinamiento emocional y el pulido del diálogo. DeepSeek o Qwen para perspectivas culturales alternativas. Grok cuando el borrador necesita audacia. El futuro no se trata de coronar a un modelo como rey. Se trata de aprender a dirigir un conjunto, haciendo coincidir la personalidad creativa de cada modelo con el momento adecuado en el proceso de escritura. Los escritores que descubran esto primero producirán un trabajo que se sentirá diferente a cualquier cosa que un solo modelo, o un solo humano, pudiera lograr solo.
Eligiendo tu Socio Creativo
Después de años escribiendo junto a estos modelos, esto es lo que he aprendido sobre cómo combinar la herramienta adecuada con la tarea adecuada:
Versatilidad
Gemini 3 Pro se adapta a cualquier género, cualquier forma, cualquier tono. Cuando el briefing no está definido o el proyecto exige rango, comienza aquí.
Profundidad Emocional
Claude Opus 4.6 escribe con moderación y sentimiento genuino. Para diálogos, trabajo de personajes y prosa donde lo que no se dice importa más.
Velocidad y Calidad
Gemini 3 Flash demuestra que rápido no significa peor. Para redacción iterativa, proyectos de alto volumen y prototipado rápido de ideas narrativas.
Personalidad
Grok 4.1 asume riesgos creativos que otros modelos no asumen. Para ficción que necesita audacia, humor y personajes que se sientan vivos en lugar de ensamblados.
No existe una única mejor IA creativa. Hay voces en evolución con diferentes fortalezas, y el verdadero poder radica en saber qué voz sirve a qué momento en la historia que estás tratando de contar.
Fuente de Datos: Rankings de Arena AI Creative Writing Leaderboard, 6 de febrero de 2026.
Discusión
0 comentariosDejar un comentario
¡Sé el primero en compartir tu opinión!