A corrida não é mais sobre quem consegue gerar um vídeo. É sobre quem faz você esquecer que é IA.
Passei os últimos quatorze meses gerando vídeos em todas as principais plataformas de IA — dezenas de milhares de prompts, abrangendo cenas cinematográficas, fotos de produtos, arte abstrata e testes de estresse de física. E o que posso dizer, entrando no final de janeiro de 2026, é o seguinte: a tabela de classificação nunca esteve tão apertada, tão profunda ou tão imprevisível. O Google ainda detém a coroa, mas o Sora 2 Pro da OpenAI está em seu encalço por apenas dois pontos. A xAI invadiu a festa com o vídeo Grok do nada. E o nível intermediário agora é tão competitivo que escolher o modelo errado para um tipo de cena específico é o verdadeiro erro que a maioria dos criadores comete. Esta é a Text-to-Video Arena — 31 modelos, classificados por preferência humana cega.
Ranking Completo — 31 Modelos
A tabela abaixo representa o estado completo da Arena em 29 de janeiro de 2026. Cada link de modelo leva você diretamente para a documentação oficial ou endpoint da API para que você possa testá-los.
| Posição | Modelo | Pontuação | Votos | Organização |
|---|---|---|---|---|
🥇 | Veo 3.1 Audio | 1371 | 12,572 | |
🥈 | Sora 2 Pro | 1369 | 11,435 | OpenAI |
🥉 | Veo 3.1 Fast Audio | 1367 | 13,963 | |
#4 | Grok Imagine Video 720p | 1362 | 7,952 | xAI |
#5 | Veo 3 Fast Audio | 1350 | 25,771 | |
#6 | Veo 3 Audio | 1340 | 19,329 | |
#7 | Sora 2 | 1338 | 14,207 | OpenAI |
#8 | Wan2.5 T2v Preview | 1267 | 6,077 | Alibaba |
#9 | Seedance V1.5 Pro | 1261 | 13,960 | Bytedance |
#10 | Veo 3 | 1257 | 15,192 | |
#11 | Veo 3 Fast | 1251 | 15,476 | |
#12 | Kling 2.5 Turbo 1080p | 1222 | 2,054 | KlingAI |
#13 | Kling 2.6 Pro | 1219 | 17,486 | KlingAI |
#14 | Kling O1 Pro | 1207 | 1,197 | KlingAI |
#15 | Ray 3 | 1204 | 1,057 | Luma AI |
#16 | Hailuo 02 Pro | 1200 | 9,888 | MiniMax |
#17 | Hailuo 2.3 | 1198 | 13,037 | MiniMax |
#18 | Seedance V1 Pro | 1192 | 12,895 | Bytedance |
#19 | Hailuo 02 Standard | 1181 | 9,935 | MiniMax |
#20 | Kandinsky 5.0 T2v Pro | 1178 | 1,888 | Kandinsky |
#21 | Hunyuan Video 1.5 | 1171 | 4,101 | Tencent |
#22 | Kling V2.1 Master | 1168 | 14,527 | KlingAI |
#23 | Veo 2 | 1165 | 7,106 | |
#24 | Wan V2.2 A14b | 1130 | 11,160 | Alibaba |
#25 | Seedance V1 Lite | 1114 | 16,716 | Bytedance |
#26 | Kandinsky 5.0 T2v Lite | 1112 | 1,351 | Kandinsky |
#27 | Ltx 2 19b | 1090 | 8,759 | lightricks |
#28 | Sora | 1070 | 4,521 | OpenAI |
#29 | Ray2 | 1066 | 5,611 | Luma AI |
#30 | Pika V2.2 | 1011 | 6,496 | Pika |
#31 | Mochi V1 | 999 | 6,681 | Genmo AI |
O Fio da Navalha no Topo
Deixe-me colocar isso em perspectiva. Dois pontos. Isso é tudo que separa o Veo 3.1 Audio do Sora 2 Pro agora. Quando comecei a acompanhar este ranking meses atrás, o Google tinha uma vantagem confortável. Essa vantagem acabou. Os sete principais modelos — quatro do Google, dois da OpenAI, um da xAI — estão todos agrupados em uma faixa de 33 pontos. No benchmarking competitivo de IA, isso é um cara ou coroa em qualquer prompt.
O que faz o Veo 3.1 manter a coroa não é mais a fidelidade visual bruta — é a geração de áudio sincronizada. Quando gero uma cena de rua, os passos combinam com o tipo de pavimento. Os sons da chuva mudam com a distância da câmera. O motor de um carro acelera em sincronia. Isso não é áudio de pós-produção em camadas; é gerado na mesma passagem direta que o vídeo. Essa capacidade única é o que mantém o Veo em #1, porque quando os juízes humanos assistem a dois clipes lado a lado, aquele com som correspondente simplesmente parece mais real.
Mas o Sora 2 Pro está ganhando em áreas que o Veo não enfatiza. Tenho executado prompts pesados em física — um copo de água derrubado de uma mesa, uma bandeira em vento variável, tecido preso em uma maçaneta — e o Sora consistentemente produz resultados fisicamente mais precisos. A água espirra com a massa certa. O tecido estica antes de rasgar. Fragmentos de vidro se espalham com momento crível. Se o seu clipe depende da confiança do público na física, o Sora é o lugar certo. O Veo cria beleza; o Sora cria crença.
O Sora 2 em #7 continua sendo a variante de trabalho — ligeiramente menos refinada que a Pro, mas mais rápida de gerar e mais do que capaz para a maioria dos trabalhos de produção. Ainda uso o Sora 2 padrão para 70% das minhas tarefas de vídeo da OpenAI porque a relação qualidade-velocidade é excelente.
O Fator Grok
Esta é a história que ninguém viu chegando. O Grok Imagine Video estreou e pousou em #4 — bem entre as duas variantes Veo 3.1 do Google e seus modelos Veo 3. Para um produto de vídeo de primeira geração da xAI, isso é extraordinário. Tenho testado extensivamente desde que apareceu, e o que me impressiona é o quão bem ele lida com a composição cinematográfica. As escolhas de enquadramento são frequentemente melhores do que o que recebo de modelos que estão iterando há mais de um ano.
A resolução de 720p é a limitação atual. Em um mundo onde a Kling está forçando o modo turbo de 1080p e o Veo renderiza em alta resolução nativa, 720p parece uma troca deliberada — a xAI provavelmente priorizou a coerência temporal e a qualidade do movimento em vez da contagem bruta de pixels. Jogada inteligente. Prefiro assistir a um clipe nítido e suave de 720p do que a um clipe de 1080p com trepidação de quadros. O que importa aqui é a trajetória: se a xAI conseguir escalar a resolução mantendo essa qualidade de movimento, eles estarão lutando pelos dois primeiros lugares até meados de 2026.
Por que isso importa para a indústria: Três empresas agora competem de forma credível pelo topo — Google, OpenAI e xAI. Essa corrida a três comprimirá os cronogramas para todos. Quando converso com criadores que constroem com essas ferramentas diariamente, o consenso é claro: a competição no topo é a melhor coisa acontecendo para a qualidade de vídeo IA agora.
O Meio Lotado — Onde Vivem as Escolhas Reais
A maioria dos criadores não gastará seus orçamentos em chamadas de API de primeira linha para cada clipe. A realidade do trabalho de produção é que 80% das suas necessidades de vídeo não exigem o melhor modelo absoluto — elas exigem o modelo certo. E entre as posições #8 e #22, há uma densidade notável de capacidade especializada.
O Wan 2.5 da Alibaba em #8 lidera o próximo grupo. Achei excepcionalmente forte em prompts artísticos e abstratos — o tipo de descrições poéticas e metafóricas que os modelos ocidentais tendem a interpretar muito literalmente. Quando escrevo "solidão se dissolvendo em uma multidão", o Wan 2.5 realmente produz algo visualmente evocativo, em vez de apenas renderizar uma pessoa em pé sozinha perto de outras pessoas.
O Seedance v1.5 Pro da Bytedance (#9) tornou-se minha escolha para trabalhos de câmera complexos. Tomadas orbitais, dollys lentos, transições de grua para portátil — o Seedance lida com coreografia de câmera de vários segmentos melhor do que qualquer coisa, exceto o Veo. O mais antigo Seedance v1 Pro (#18) e Seedance v1 Lite (#25) permanecem viáveis para prompts mais simples — e a um custo significativamente menor.
A KlingAI agora coloca quatro modelos no ranking (#12 a #14, mais #22). Essa proliferação diz algo sobre a estratégia deles: em vez de um carro-chefe, eles estão construindo uma linha. O Kling O1 Pro em #14 é novo e fascinante — ele aplica raciocínio de cadeia de pensamento à geração de vídeo, gastando mais tempo de computação para entender o que você realmente quer antes de renderizar. Os primeiros resultados sugerem que isso melhora drasticamente a aderência ao prompt para cenas complexas de vários elementos. O Kling 2.5 Turbo 1080p em #12 é o demônio da velocidade — 1080p nativo em velocidades turbo, ideal para iterar conceitos antes de se comprometer com uma renderização final em outro lugar.
O Ray 3 da Luma AI em #15 é o realizador silencioso ao qual continuo voltando. Onde outros modelos perseguem o realismo cinematográfico, o Ray 3 tem uma qualidade estética distinta — ligeiramente onírica, com transições de iluminação deslumbrantes que parecem quase pintadas à mão. Para peças de humor e trabalhos de marca que precisam parecer elevados em vez de fotorrealistas, é incomparável.
A linha Hailuo da MiniMax (#16, #17, #19) continua sendo o motor de iteração deste ranking. Quando estou rascunhando — testando vinte variações de um conceito antes de escolher uma direção — a velocidade e a estrutura de custos do Hailuo o tornam a escolha óbvia. A lacuna de qualidade entre o Hailuo 02 Pro e a versão padrão é menor do que você esperaria, o que torna a camada padrão genuinamente útil para pré-visualização de produção.
O Hunyuan Video 1.5 da Tencent em #21 é o azarão que eu observaria com mais cuidado. As publicações de pesquisa da Tencent sugerem que eles estão investindo pesadamente em consistência temporal — a capacidade de manter a aparência do personagem e a lógica da cena em clipes gerados mais longos. Esse é o problema não resolvido mais difícil em vídeo IA, e quem quer que o resolva primeiro remodelará esses rankings da noite para o dia.
O Avanço do Open-Source
Algo importante está acontecendo na metade inferior deste ranking. O Kandinsky 5.0 Pro (#20) e o Kandinsky 5.0 Lite (#26) são modelos totalmente open-source competindo com sistemas proprietários que custam milhões para serem desenvolvidos. A variante Pro está em #20, à frente da Tencent, à frente dos modelos Kling mais antigos, à frente do Veo 2. Isso é uma declaração.
O LTX-2 19B em #27 da Lightricks é novo no ranking e representa o outro ramo do vídeo open-source: um modelo que você pode baixar, ajustar e implantar em sua própria infraestrutura. Com 19 bilhões de parâmetros, não é pequeno, mas roda em hardware de consumo de ponta. Para estúdios que precisam processar imagens proprietárias sem enviar quadros para uma API de terceiros, isso não é uma conveniência — é um requisito.
O Wan v2.2 da Alibaba (#24) une os dois mundos — pesos abertos no Hugging Face, apoiados pela infraestrutura de nuvem da Alibaba. O Mochi v1 (#31) da Genmo AI completa as entradas open-source. Embora esteja no final do ranking hoje, a pesquisa da Genmo sobre arquiteturas eficientes pode render dividendos em iterações futuras.
A trajetória do open-source é clara: um ano atrás, nenhum modelo aberto teria entrado no top 25 desta Arena. Agora, duas variantes Kandinsky estão confortavelmente no top 26. Até o final de 2026, espero pelo menos um modelo open-source no top 15. A lacuna está diminuindo mais rápido do que qualquer um previu.
Para Onde Isso Vai
Tenho acompanhado a geração de vídeo por IA desde as primeiras demos da Runway, e nunca vi uma pressão competitiva tão intensa. Aqui está o que espero nos próximos seis meses, com base em tendências de pesquisa, roteiros de API e no que estou ouvindo das equipes que trabalham nesses modelos:
Áudio se tornará o padrão. Agora, a geração de áudio sincronizada é o principal diferencial do Veo. Até o terceiro trimestre de 2026, espero que Sora, Grok e pelo menos dois modelos chineses lancem recursos de áudio comparáveis. Quando isso acontecer, o ranking mudará drasticamente — a vantagem atual do Veo evapora no momento em que todos puderem igualá-la.
Resolução deixará de importar. Estamos nos aproximando do ponto em que a geração 4K nativa é tecnicamente viável, mas perceptualmente desnecessária para a maioria das aplicações. O próximo campo de batalha é a consistência temporal — um modelo pode gerar 30 segundos de vídeo contínuo e coerente onde o rosto de um personagem não se transforma, onde a física permanece consistente, onde a iluminação não muda aleatoriamente? É aí que a pesquisa Hunyuan da Tencent e a abordagem de raciocínio O1 da Kling podem superar a qualidade visual pura.
A guerra de custos de API está prestes a começar. No momento, modelos premium como Veo 3.1 e Sora 2 Pro têm preços premium. Mas com a MiniMax oferecendo qualidade genuinamente competitiva a uma fração do custo, e modelos open-source como Kandinsky e LTX-2 oferecendo custo marginal zero para implantação auto-hospedada, os provedores de primeira linha terão que comprimir os preços. Isso é bom para todos os criadores.
A xAI não ficará em 720p. A estreia do Grok em #4 com uma desvantagem de resolução é talvez o ponto de dados mais revelador em todo este ranking. Eles provaram que a arquitetura do modelo funciona. O escalonamento de resolução é um problema de engenharia, não de pesquisa. Eu ficaria surpreso se o Grok não estiver oferecendo vídeo 1080p até o verão.
Minhas Escolhas por Caso de Uso
Cinemático + Áudio
Veo 3.1 Audio — ainda o padrão ouro para clipes imersivos onde o som importa.
Realismo Físico
Sora 2 Pro — quando objetos precisam interagir com comportamento fisicamente crível.
Composição Cinemática
Grok Video — enquadramento e composição de cena excepcionais para um modelo de primeira geração.
Coreografia de Câmera
Seedance v1.5 Pro — movimentos de câmera complexos de vários segmentos, transições suaves.
Estilizado & Anime
Kling 2.6 Pro — consistência de personagem e controle artístico em estilos não fotorrealistas.
Iteração Rápida
Hailuo 02 — rodadas de rascunho rápido antes de se comprometer com renderizações premium.
Prompts Artísticos
Wan 2.5 — lida com descrições poéticas e abstratas com nuance genuína.
Auto-Hospedado / Privacidade
LTX-2 19B ou Kandinsky 5.0 Pro — execute em seu próprio hardware, nenhum dado sai de seus servidores.
O resultado final: não existe um único melhor vídeo IA. Existe o melhor vídeo IA para um determinado take, estilo, orçamento e requisito de privacidade. Os profissionais que mais respeito neste espaço não juram lealdade a um modelo — eles mantêm contas ativas em pelo menos três, e sabem exatamente qual prompt vai para onde. Essa é a verdadeira habilidade em 2026: não escrever prompts, mas roteá-los.
Fonte de Dados: Classificações do Arena Text-to-Video Leaderboard, 29 de janeiro de 2026.
Discussão
0 comentáriosDeixe um comentário
Seja o primeiro a compartilhar seus pensamentos!