A escrita criativa é onde a inteligência bruta se curva ao bom gosto, à moderação e à coragem de deixar as coisas certas por dizer.
Três anos pedindo para a IA me contar histórias. Não resumos, não esboços — ficção real. Do tipo em que um personagem entra em uma sala e você sente a temperatura mudar. Ao longo desses anos, vi este leaderboard transformar-se de uma curiosidade em um genuíno barômetro de capacidade literária. Fevereiro de 2026 trouxe a mudança mais interessante até agora: um modelo totalmente novo que chegou silenciosamente, subiu rápido e estreitou uma lacuna que parecia permanente há apenas algumas semanas. Aqui está o quadro completo — sessenta modelos classificados, analisados e contextualizados por alguém que trabalha com eles todos os dias.
O Leaderboard de Escrita Criativa
Código tem sintaxe. Matemática tem provas. Mas a escrita criativa tem voz — ritmo, surpresa, ressonância emocional. Esta é a Arena de Escrita Criativa, o benchmark mais exigente na avaliação de IA, onde sessenta modelos são classificados por quão bem eles contam histórias que realmente movem as pessoas. Aqui está como tudo se encontra em Fevereiro de 2026.
| Rank | Modelo | Pontuação | Votos | Organização |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
A Ruptura de Fevereiro
Quando extraí os dados mais recentes, uma entrada me fez parar: Claude Opus 4.6 sentado na posição número dois. Não porque um modelo da Anthropic com classificação alta seja incomum — eles têm feito isso consistentemente. Mas porque este modelo aterrissou na segunda posição com quase nenhum histórico de avaliação. Esse tipo de consenso inicial é raro. Significa que a primeira onda de testadores — os obsessivos que rodam prompts idênticos em cada novo lançamento horas após o início — encontrou algo genuinamente diferente em sua produção criativa.
A verdadeira história, no entanto, é a lacuna. Em janeiro, a distância entre o primeiro e o segundo lugar era de confortáveis vinte e cinco pontos. Agora são doze. Gemini 3 Pro ainda detém o ouro, e ganhou essa posição honestamente. Mas a liderança caiu pela metade em um único ciclo de atualização. Se você é o Google, essa tendência exige atenção. Se você é a Anthropic, é a confirmação de que sua abordagem para o treinamento de IA criativa está convergindo para algo poderoso.
Enquanto isso, os modelos logo abaixo dos dois primeiros foram significativamente reembaralhados. A variante "thinking" do Claude Opus 4.5 subiu para o terceiro lugar, empurrando o Opus 4.5 padrão para o quarto e o Gemini 3 Flash para o quinto. O Flash ocupava o terceiro lugar no mês passado. O pódio não está apenas mudando de mãos no topo — está instável por toda parte. E a instabilidade, na minha experiência, precede avanços.
Alturas Dominantes
Gemini 3 Pro continua sendo o modelo que eu busco quando ainda não sei o que preciso. O que o mantém no número um é o alcance: peça a ele um estilo Hemingway e ele entrega uma prosa sóbria e muscular. Peça ficção pós-moderna experimental e ele muda o registro sem perder a coerência. Epistolar vitoriano, noir hardboiled, realismo mágico, literatura infantil — o Gemini lida com essas transições de uma forma que sugere uma compreensão genuína da forma, não uma mímica superficial. O Google coloca seis modelos no top sessenta, com o Gemini 3 Flash em quinto e o Gemini 2.5 Pro em sexto, completando um trio forte no topo.
Claude é um animal completamente diferente. Se Gemini é alcance, Claude é profundidade. Os modelos da Anthropic sempre se destacaram nas sutilezas mais difíceis de ensinar a uma máquina: quando deixar o silêncio carregar uma cena, quando uma frase deve quebrar em vez de continuar, quando o que um personagem não diz revela mais do que o que ele diz. O Opus 4.6 leva isso adiante. Em meus testes, produziu diálogos que pareciam genuinamente habitados. Os personagens não estavam entregando falas — eles estavam pensando, hesitando, escolhendo palavras da maneira que pessoas reais fazem quando algo importante está em jogo. A Anthropic agora tem treze modelos no top sessenta, mais do que qualquer outra organização, com cinco colocados entre os onze primeiros. Seja qual for a abordagem deles para treinar a capacidade criativa, está funcionando em toda a sua linha de produtos.
Aqui está uma observação que não recebe atenção suficiente: o raciocínio estendido — o modo "thinking" — não melhora de forma confiável a escrita criativa. O padrão é inconsistente e profundamente revelador.
Para os modelos Claude Opus, as variantes "thinking" tendem a ter uma classificação ligeiramente superior: Opus 4.5 Thinking em terceiro contra o padrão em quarto, Opus 4.1 Thinking em nono contra o padrão em décimo primeiro. Grok 4.1 Thinking supera sua variante padrão em três posições. Mas mude para outras arquiteturas e o padrão se inverte — às vezes dramaticamente. DeepSeek v3.2-exp padrão fica em vigésimo oitavo enquanto sua variante thinking cai para quadragésimo segundo. DeepSeek v3.1-terminus padrão está em vigésimo segundo; sua contraparte thinking cai para quinquagésimo oitavo — uma lacuna de trinta e seis posições. GPT-5.2 padrão vence o GPT-5.2-high.
O que isso me diz é importante: a escrita criativa não é primariamente um problema de raciocínio. É um problema estético. Para modelos que já possuem instintos literários fortes, o pensamento estendido pode refinar esses instintos — como um editor cuidadoso revisando um primeiro rascunho sólido. Mas para modelos cuja força criativa é mais instintiva e orientada por padrões, forçar a deliberação na verdade polir as arestas que fazem a prosa parecer viva. Às vezes, a primeira resposta captura algo que a computação adicional suaviza até a mediocridade. Se você usa modelos habilitados para raciocínio para trabalho criativo, teste ambos os modos. A suposição de que mais raciocínio é igual a melhor saída não se sustenta aqui, e entender quando desligar o pensamento pode ser mais valioso do que saber quando ligá-lo.
A Maré Crescente
Abaixo do nível superior, a história é proliferação e diversidade — e é indiscutivelmente mais importante do que a corrida pelo número um.
DeepSeek coloca dez modelos no top sessenta, tornando-se a terceira organização mais representada depois da Anthropic e da OpenAI. Suas variantes v3.1 e v3.2 variam do vigésimo segundo ao quinquagésimo oitavo lugar, cobrindo uma gama de níveis de capacidade criativa. Como um projeto de pesos abertos, o DeepSeek representa algo fundamentalmente diferente dos líderes proprietários: esses modelos podem ser baixados, hospedados localmente e ajustados (fine-tuned) para tarefas criativas específicas. Se você está construindo uma ferramenta de escrita com IA ou integrando capacidades criativas em um pipeline de produto, o DeepSeek oferece flexibilidade que os modelos apenas de API não conseguem igualar.
O quadro geral é ainda mais impressionante. Entre DeepSeek, Baidu, Moonshot, Alibaba, Z.ai e Tencent, os laboratórios de IA chineses agora representam vinte e dois dos sessenta modelos classificados — mais de um terço de todo o leaderboard. Moonshot's Kimi K2.5 estreou com sua variante thinking em vigésimo primeiro, elevando a empresa a três colocações. Baidu detém três posições com sua linha ERNIE 5.0. Alibaba's Qwen3 tem três variantes classificadas. Z.ai's GLM-4.7 está em vigésimo sétimo. Isso não é convergência — é diversidade genuína. Dados de treinamento diferentes, contextos culturais diferentes e tradições literárias diferentes produzem modelos com sensibilidades criativas distintas. Eu vi o ERNIE criar metáforas que não ocorreriam a modelos treinados no ocidente, e o GLM lidar com o ritmo narrativo de maneiras que parecem novas precisamente porque o DNA literário é diferente. O ecossistema global de IA criativa é mais rico por isso.
OpenAI detém onze modelos, embora sua história criativa tenha um subenredo interessante. GPT-4.5-preview em doze está à frente tanto do GPT-5.1-high em quatorze quanto do GPT-5.1 padrão em vinte e três. Às vezes, um modelo otimizado para nuances supera seu sucessor tecnicamente superior em tarefas que prezam a sutileza sobre a capacidade bruta. ChatGPT-4o-latest em dezessete reforça o ponto: modelos otimizados para conversação carregam uma vantagem inerente na escrita criativa porque contar histórias é fundamentalmente conversacional. Você não está computando uma resposta — você está sustentando uma voz.
Grok esculpiu uma identidade criativa genuína com sete modelos classificados. Onde Claude se destaca na inteligência emocional, Grok traz honestidade emocional. O humor é mais afiado, as metáforas mais ousadas, os personagens menos polidos e mais vivos. Quando quero uma escrita que corra riscos — ficção que possa deixar um leitor desconfortável de uma forma produtiva — Grok é onde começo. É o modelo menos medroso de sua própria voz, e na escrita criativa, a intrepidez importa. Mistral's medium-2508 em quinquagésimo sexto representa a presença da Europa no quadro. Tencent's Hunyuan em cinquenta e três adiciona mais uma voz da China. O campo nunca foi tão amplo.
Para Onde Vamos
Vou dizer o que acho que acontece a seguir, porque as tendências nesses dados apontam para algum lugar específico.
A lacuna continua se comprimindo. A diferença entre o primeiro e o sexagésimo lugar é de cerca de 7,4 por cento — apertada para os padrões históricos, e diminuindo a cada atualização. Estamos nos aproximando de um limiar onde as diferenças significativas entre os modelos mudam da qualidade bruta para a personalidade criativa. A pergunta deixa de ser "qual modelo escreve melhor" e se torna "a voz de qual modelo se encaixa neste projeto específico". Essa é uma mudança fundamental em como escritores e equipes criativas devem pensar sobre a seleção de IA.
Modelos criativos especializados são inevitáveis. A arquitetura de propósito geral empurrou a qualidade da escrita criativa notavelmente longe, mas o próximo salto real virá de modelos explicitamente ajustados para estrutura narrativa, consistência de personagem, autenticidade de diálogo ou forma poética. Espero que pelo menos um grande laboratório lance um modelo especialista em criatividade até o segundo semestre deste ano — um que se comprometa inteiramente com a capacidade literária em vez de tentar resolver matemática, escrever código e contar histórias simultaneamente. Quando isso acontecer, redefinirá o topo deste leaderboard da noite para o dia.
Modelos de pesos abertos fecharão a lacuna restante. A presença de dez modelos do DeepSeek é o indicador principal. À medida que as alternativas abertas se aproximam da paridade com sistemas proprietários em benchmarks criativos, a economia da escrita assistida por IA muda drasticamente. Escritores, estúdios e editoras ganham acesso a IA criativa de alto nível sem preços por token, mudando as curvas de adoção e a relação fundamental entre escritores humanos e ferramentas de IA.
A verdadeira fronteira é a orquestração, não o isolamento. O trabalho criativo mais sofisticado que vi recentemente não usa um único modelo — usa três ou quatro em sequência. Gemini para ideação inicial e exploração estilística. Claude para refinamento emocional e polimento de diálogo. DeepSeek ou Qwen para perspectivas culturais alternativas. Grok quando o rascunho precisa de ousadia. O futuro não é sobre coroar um modelo como rei. É sobre aprender a reger um conjunto, combinando a personalidade criativa de cada modelo com o momento certo no processo de escrita. Os escritores que descobrirem isso primeiro produzirão trabalhos que parecem diferentes de qualquer coisa que um único modelo — ou um único humano — poderia alcançar sozinho.
Escolhendo Seu Parceiro Criativo
Após anos escrevendo ao lado desses modelos, eis o que aprendi sobre combinar a ferramenta certa com a tarefa certa:
Versatilidade
Gemini 3 Pro adapta-se a qualquer gênero, qualquer forma, qualquer tom. Quando o briefing é indefinido ou o projeto exige alcance, comece aqui.
Profundidade Emocional
Claude Opus 4.6 escreve com moderação e sentimento genuíno. Para diálogos, trabalho de personagem e prosa onde o que não é dito importa mais.
Velocidade e Qualidade
Gemini 3 Flash prova que rápido não significa pior. Para redação iterativa, projetos de alto volume e prototipagem rápida de ideias narrativas.
Personalidade
Grok 4.1 assume riscos criativos que outros modelos não assumem. Para ficção que precisa de ousadia, humor e personagens que parecem vivos em vez de montados.
Não existe uma única melhor IA criativa. Existem vozes em evolução com diferentes pontos fortes, e o verdadeiro poder reside em saber qual voz serve a qual momento na história que você está tentando contar.
Fonte de Dados: Rankings do Arena AI Creative Writing Leaderboard, 6 de Fevereiro de 2026.
Discussão
0 comentáriosDeixe um comentário
Seja o primeiro a compartilhar seus pensamentos!