Leaderboard da Arena de Escrita Criativa com IA 2026

Insight Central

A escrita criativa é onde a inteligência bruta se curva ao bom gosto, à moderação e à coragem de deixar as coisas certas por dizer.

Três anos pedindo para a IA me contar histórias. Não resumos, não esboços — ficção real. Do tipo em que um personagem entra em uma sala e você sente a temperatura mudar. Ao longo desses anos, vi este leaderboard transformar-se de uma curiosidade em um genuíno barômetro de capacidade literária. Fevereiro de 2026 trouxe a mudança mais interessante até agora: um modelo totalmente novo que chegou silenciosamente, subiu rápido e estreitou uma lacuna que parecia permanente há apenas algumas semanas. Aqui está o quadro completo — sessenta modelos classificados, analisados e contextualizados por alguém que trabalha com eles todos os dias.

O Leaderboard de Escrita Criativa

Código tem sintaxe. Matemática tem provas. Mas a escrita criativa tem voz — ritmo, surpresa, ressonância emocional. Esta é a Arena de Escrita Criativa, o benchmark mais exigente na avaliação de IA, onde sessenta modelos são classificados por quão bem eles contam histórias que realmente movem as pessoas. Aqui está como tudo se encontra em Fevereiro de 2026.

Rank	Modelo	Pontuação	Votos	Organização
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

A Ruptura de Fevereiro

Quando extraí os dados mais recentes, uma entrada me fez parar: Claude Opus 4.6 sentado na posição número dois. Não porque um modelo da Anthropic com classificação alta seja incomum — eles têm feito isso consistentemente. Mas porque este modelo aterrissou na segunda posição com quase nenhum histórico de avaliação. Esse tipo de consenso inicial é raro. Significa que a primeira onda de testadores — os obsessivos que rodam prompts idênticos em cada novo lançamento horas após o início — encontrou algo genuinamente diferente em sua produção criativa.

A verdadeira história, no entanto, é a lacuna. Em janeiro, a distância entre o primeiro e o segundo lugar era de confortáveis vinte e cinco pontos. Agora são doze. Gemini 3 Pro ainda detém o ouro, e ganhou essa posição honestamente. Mas a liderança caiu pela metade em um único ciclo de atualização. Se você é o Google, essa tendência exige atenção. Se você é a Anthropic, é a confirmação de que sua abordagem para o treinamento de IA criativa está convergindo para algo poderoso.

Enquanto isso, os modelos logo abaixo dos dois primeiros foram significativamente reembaralhados. A variante "thinking" do Claude Opus 4.5 subiu para o terceiro lugar, empurrando o Opus 4.5 padrão para o quarto e o Gemini 3 Flash para o quinto. O Flash ocupava o terceiro lugar no mês passado. O pódio não está apenas mudando de mãos no topo — está instável por toda parte. E a instabilidade, na minha experiência, precede avanços.

Alturas Dominantes

Gemini 3 Pro continua sendo o modelo que eu busco quando ainda não sei o que preciso. O que o mantém no número um é o alcance: peça a ele um estilo Hemingway e ele entrega uma prosa sóbria e muscular. Peça ficção pós-moderna experimental e ele muda o registro sem perder a coerência. Epistolar vitoriano, noir hardboiled, realismo mágico, literatura infantil — o Gemini lida com essas transições de uma forma que sugere uma compreensão genuína da forma, não uma mímica superficial. O Google coloca seis modelos no top sessenta, com o Gemini 3 Flash em quinto e o Gemini 2.5 Pro em sexto, completando um trio forte no topo.

Claude é um animal completamente diferente. Se Gemini é alcance, Claude é profundidade. Os modelos da Anthropic sempre se destacaram nas sutilezas mais difíceis de ensinar a uma máquina: quando deixar o silêncio carregar uma cena, quando uma frase deve quebrar em vez de continuar, quando o que um personagem não diz revela mais do que o que ele diz. O Opus 4.6 leva isso adiante. Em meus testes, produziu diálogos que pareciam genuinamente habitados. Os personagens não estavam entregando falas — eles estavam pensando, hesitando, escolhendo palavras da maneira que pessoas reais fazem quando algo importante está em jogo. A Anthropic agora tem treze modelos no top sessenta, mais do que qualquer outra organização, com cinco colocados entre os onze primeiros. Seja qual for a abordagem deles para treinar a capacidade criativa, está funcionando em toda a sua linha de produtos.

Aqui está uma observação que não recebe atenção suficiente: o raciocínio estendido — o modo "thinking" — não melhora de forma confiável a escrita criativa. O padrão é inconsistente e profundamente revelador.

Para os modelos Claude Opus, as variantes "thinking" tendem a ter uma classificação ligeiramente superior: Opus 4.5 Thinking em terceiro contra o padrão em quarto, Opus 4.1 Thinking em nono contra o padrão em décimo primeiro. Grok 4.1 Thinking supera sua variante padrão em três posições. Mas mude para outras arquiteturas e o padrão se inverte — às vezes dramaticamente. DeepSeek v3.2-exp padrão fica em vigésimo oitavo enquanto sua variante thinking cai para quadragésimo segundo. DeepSeek v3.1-terminus padrão está em vigésimo segundo; sua contraparte thinking cai para quinquagésimo oitavo — uma lacuna de trinta e seis posições. GPT-5.2 padrão vence o GPT-5.2-high.

O que isso me diz é importante: a escrita criativa não é primariamente um problema de raciocínio. É um problema estético. Para modelos que já possuem instintos literários fortes, o pensamento estendido pode refinar esses instintos — como um editor cuidadoso revisando um primeiro rascunho sólido. Mas para modelos cuja força criativa é mais instintiva e orientada por padrões, forçar a deliberação na verdade polir as arestas que fazem a prosa parecer viva. Às vezes, a primeira resposta captura algo que a computação adicional suaviza até a mediocridade. Se você usa modelos habilitados para raciocínio para trabalho criativo, teste ambos os modos. A suposição de que mais raciocínio é igual a melhor saída não se sustenta aqui, e entender quando desligar o pensamento pode ser mais valioso do que saber quando ligá-lo.

A Maré Crescente

Abaixo do nível superior, a história é proliferação e diversidade — e é indiscutivelmente mais importante do que a corrida pelo número um.

DeepSeek coloca dez modelos no top sessenta, tornando-se a terceira organização mais representada depois da Anthropic e da OpenAI. Suas variantes v3.1 e v3.2 variam do vigésimo segundo ao quinquagésimo oitavo lugar, cobrindo uma gama de níveis de capacidade criativa. Como um projeto de pesos abertos, o DeepSeek representa algo fundamentalmente diferente dos líderes proprietários: esses modelos podem ser baixados, hospedados localmente e ajustados (fine-tuned) para tarefas criativas específicas. Se você está construindo uma ferramenta de escrita com IA ou integrando capacidades criativas em um pipeline de produto, o DeepSeek oferece flexibilidade que os modelos apenas de API não conseguem igualar.

O quadro geral é ainda mais impressionante. Entre DeepSeek, Baidu, Moonshot, Alibaba, Z.ai e Tencent, os laboratórios de IA chineses agora representam vinte e dois dos sessenta modelos classificados — mais de um terço de todo o leaderboard. Moonshot's Kimi K2.5 estreou com sua variante thinking em vigésimo primeiro, elevando a empresa a três colocações. Baidu detém três posições com sua linha ERNIE 5.0. Alibaba's Qwen3 tem três variantes classificadas. Z.ai's GLM-4.7 está em vigésimo sétimo. Isso não é convergência — é diversidade genuína. Dados de treinamento diferentes, contextos culturais diferentes e tradições literárias diferentes produzem modelos com sensibilidades criativas distintas. Eu vi o ERNIE criar metáforas que não ocorreriam a modelos treinados no ocidente, e o GLM lidar com o ritmo narrativo de maneiras que parecem novas precisamente porque o DNA literário é diferente. O ecossistema global de IA criativa é mais rico por isso.

OpenAI detém onze modelos, embora sua história criativa tenha um subenredo interessante. GPT-4.5-preview em doze está à frente tanto do GPT-5.1-high em quatorze quanto do GPT-5.1 padrão em vinte e três. Às vezes, um modelo otimizado para nuances supera seu sucessor tecnicamente superior em tarefas que prezam a sutileza sobre a capacidade bruta. ChatGPT-4o-latest em dezessete reforça o ponto: modelos otimizados para conversação carregam uma vantagem inerente na escrita criativa porque contar histórias é fundamentalmente conversacional. Você não está computando uma resposta — você está sustentando uma voz.

Grok esculpiu uma identidade criativa genuína com sete modelos classificados. Onde Claude se destaca na inteligência emocional, Grok traz honestidade emocional. O humor é mais afiado, as metáforas mais ousadas, os personagens menos polidos e mais vivos. Quando quero uma escrita que corra riscos — ficção que possa deixar um leitor desconfortável de uma forma produtiva — Grok é onde começo. É o modelo menos medroso de sua própria voz, e na escrita criativa, a intrepidez importa. Mistral's medium-2508 em quinquagésimo sexto representa a presença da Europa no quadro. Tencent's Hunyuan em cinquenta e três adiciona mais uma voz da China. O campo nunca foi tão amplo.

Para Onde Vamos

Vou dizer o que acho que acontece a seguir, porque as tendências nesses dados apontam para algum lugar específico.

A lacuna continua se comprimindo. A diferença entre o primeiro e o sexagésimo lugar é de cerca de 7,4 por cento — apertada para os padrões históricos, e diminuindo a cada atualização. Estamos nos aproximando de um limiar onde as diferenças significativas entre os modelos mudam da qualidade bruta para a personalidade criativa. A pergunta deixa de ser "qual modelo escreve melhor" e se torna "a voz de qual modelo se encaixa neste projeto específico". Essa é uma mudança fundamental em como escritores e equipes criativas devem pensar sobre a seleção de IA.

Modelos criativos especializados são inevitáveis. A arquitetura de propósito geral empurrou a qualidade da escrita criativa notavelmente longe, mas o próximo salto real virá de modelos explicitamente ajustados para estrutura narrativa, consistência de personagem, autenticidade de diálogo ou forma poética. Espero que pelo menos um grande laboratório lance um modelo especialista em criatividade até o segundo semestre deste ano — um que se comprometa inteiramente com a capacidade literária em vez de tentar resolver matemática, escrever código e contar histórias simultaneamente. Quando isso acontecer, redefinirá o topo deste leaderboard da noite para o dia.

Modelos de pesos abertos fecharão a lacuna restante. A presença de dez modelos do DeepSeek é o indicador principal. À medida que as alternativas abertas se aproximam da paridade com sistemas proprietários em benchmarks criativos, a economia da escrita assistida por IA muda drasticamente. Escritores, estúdios e editoras ganham acesso a IA criativa de alto nível sem preços por token, mudando as curvas de adoção e a relação fundamental entre escritores humanos e ferramentas de IA.

A verdadeira fronteira é a orquestração, não o isolamento. O trabalho criativo mais sofisticado que vi recentemente não usa um único modelo — usa três ou quatro em sequência. Gemini para ideação inicial e exploração estilística. Claude para refinamento emocional e polimento de diálogo. DeepSeek ou Qwen para perspectivas culturais alternativas. Grok quando o rascunho precisa de ousadia. O futuro não é sobre coroar um modelo como rei. É sobre aprender a reger um conjunto, combinando a personalidade criativa de cada modelo com o momento certo no processo de escrita. Os escritores que descobrirem isso primeiro produzirão trabalhos que parecem diferentes de qualquer coisa que um único modelo — ou um único humano — poderia alcançar sozinho.

Escolhendo Seu Parceiro Criativo

Após anos escrevendo ao lado desses modelos, eis o que aprendi sobre combinar a ferramenta certa com a tarefa certa:

Versatilidade

Gemini 3 Pro adapta-se a qualquer gênero, qualquer forma, qualquer tom. Quando o briefing é indefinido ou o projeto exige alcance, comece aqui.

Profundidade Emocional

Claude Opus 4.6 escreve com moderação e sentimento genuíno. Para diálogos, trabalho de personagem e prosa onde o que não é dito importa mais.

Velocidade e Qualidade

Gemini 3 Flash prova que rápido não significa pior. Para redação iterativa, projetos de alto volume e prototipagem rápida de ideias narrativas.

Personalidade

Grok 4.1 assume riscos criativos que outros modelos não assumem. Para ficção que precisa de ousadia, humor e personagens que parecem vivos em vez de montados.

Empresarial

GPT-4.5 / GPT-5.1 entregam resultados polidos e confiáveis que se integram aos fluxos de trabalho existentes. Quando a consistência e a segurança da marca importam tanto quanto a criatividade.

Código Aberto

DeepSeek / Qwen: hospede você mesmo, faça o ajuste fino para o seu domínio. Quando você precisa de IA criativa em escala sem custos por token, a economia é imbatível.

Não existe uma única melhor IA criativa. Existem vozes em evolução com diferentes pontos fortes, e o verdadeiro poder reside em saber qual voz serve a qual momento na história que você está tentando contar.

Fonte de Dados: Rankings do Arena AI Creative Writing Leaderboard, 6 de Fevereiro de 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard