La gara non riguarda più chi può generare un video. Riguarda chi ti fa dimenticare che è AI.
Ho trascorso gli ultimi quattordici mesi generando video su ogni principale piattaforma AI: decine di migliaia di prompt, tra scene cinematografiche, scatti di prodotti, arte astratta e stress test fisici. E quello che posso dirvi arrivando a fine gennaio 2026 è questo: la classifica non è mai stata così serrata, così profonda o così imprevedibile. Google detiene ancora la corona, ma Sora 2 Pro di OpenAI gli sta col fiato sul collo a soli due punti di distanza. xAI ha fatto irruzione nella festa con il video Grok dal nulla. E la fascia media è ora così competitiva che scegliere il modello sbagliato per un tipo specifico di ripresa è il vero errore commesso dalla maggior parte dei creatori. Questa è la Text-to-Video Arena — 31 modelli, classificati in base alla preferenza umana cieca.
Classifica Completa — 31 Modelli
La tabella seguente rappresenta lo stato completo dell'Arena al 29 gennaio 2026. Ogni link al modello ti porta direttamente alla documentazione ufficiale o all'endpoint API in modo che tu possa testarli personalmente.
| Rango | Modello | Punteggio | Voti | Organizzazione |
|---|---|---|---|---|
🥇 | Veo 3.1 Audio | 1371 | 12,572 | |
🥈 | Sora 2 Pro | 1369 | 11,435 | OpenAI |
🥉 | Veo 3.1 Fast Audio | 1367 | 13,963 | |
#4 | Grok Imagine Video 720p | 1362 | 7,952 | xAI |
#5 | Veo 3 Fast Audio | 1350 | 25,771 | |
#6 | Veo 3 Audio | 1340 | 19,329 | |
#7 | Sora 2 | 1338 | 14,207 | OpenAI |
#8 | Wan2.5 T2v Preview | 1267 | 6,077 | Alibaba |
#9 | Seedance V1.5 Pro | 1261 | 13,960 | Bytedance |
#10 | Veo 3 | 1257 | 15,192 | |
#11 | Veo 3 Fast | 1251 | 15,476 | |
#12 | Kling 2.5 Turbo 1080p | 1222 | 2,054 | KlingAI |
#13 | Kling 2.6 Pro | 1219 | 17,486 | KlingAI |
#14 | Kling O1 Pro | 1207 | 1,197 | KlingAI |
#15 | Ray 3 | 1204 | 1,057 | Luma AI |
#16 | Hailuo 02 Pro | 1200 | 9,888 | MiniMax |
#17 | Hailuo 2.3 | 1198 | 13,037 | MiniMax |
#18 | Seedance V1 Pro | 1192 | 12,895 | Bytedance |
#19 | Hailuo 02 Standard | 1181 | 9,935 | MiniMax |
#20 | Kandinsky 5.0 T2v Pro | 1178 | 1,888 | Kandinsky |
#21 | Hunyuan Video 1.5 | 1171 | 4,101 | Tencent |
#22 | Kling V2.1 Master | 1168 | 14,527 | KlingAI |
#23 | Veo 2 | 1165 | 7,106 | |
#24 | Wan V2.2 A14b | 1130 | 11,160 | Alibaba |
#25 | Seedance V1 Lite | 1114 | 16,716 | Bytedance |
#26 | Kandinsky 5.0 T2v Lite | 1112 | 1,351 | Kandinsky |
#27 | Ltx 2 19b | 1090 | 8,759 | lightricks |
#28 | Sora | 1070 | 4,521 | OpenAI |
#29 | Ray2 | 1066 | 5,611 | Luma AI |
#30 | Pika V2.2 | 1011 | 6,496 | Pika |
#31 | Mochi V1 | 999 | 6,681 | Genmo AI |
Il Filo del Rasoio in Cima
Mettiamo le cose in prospettiva. Due punti. Questo è tutto ciò che separa Veo 3.1 Audio da Sora 2 Pro in questo momento. Quando ho iniziato a monitorare questa classifica mesi fa, Google aveva un vantaggio confortevole. Quel cuscinetto è sparito. I primi sette modelli — quattro di Google, due di OpenAI, uno di xAI — sono tutti racchiusi in un intervallo di 33 punti. Nel benchmarking competitivo dell'AI, è come lanciare una moneta su qualsiasi prompt dato.
Ciò che permette a Veo 3.1 di mantenere la corona non è più la pura fedeltà visiva — è la generazione audio sincronizzata. Quando genero una scena di strada, i passi corrispondono al tipo di pavimentazione. I suoni della pioggia cambiano con la distanza della telecamera. Il motore di un'auto accelera in sincronia. Questo non è audio in post-produzione sovrapposto; è generato nello stesso passaggio diretto del video. Quella singola capacità è ciò che mantiene Veo al n. 1, perché quando i giudici umani guardano due clip fianco a fianco, quella con il suono corrispondente semplicemente sembra più reale.
Ma Sora 2 Pro sta vincendo in aree che Veo non enfatizza. Ho eseguito prompt pesanti sulla fisica — un bicchiere d'acqua rovesciato da un tavolo, una bandiera al vento variabile, tessuto che si impiglia in una maniglia — e Sora produce costantemente risultati fisicamente più accurati. L'acqua schizza con la massa giusta. Il tessuto si allunga prima di strapparsi. I frammenti di vetro si disperdono con uno slancio credibile. Se la tua ripresa dipende dalla fiducia del pubblico nella fisica, Sora è la scelta giusta. Veo crea bellezza; Sora crea credibilità.
Sora 2 al n. 7 rimane la variante da lavoro — leggermente meno raffinata della Pro, ma più veloce da generare e più che capace per la maggior parte dei lavori di produzione. Utilizzo ancora Sora 2 standard per il 70% delle mie attività video OpenAI perché il rapporto qualità-velocità è eccellente.
Il Fattore Grok
Questa è la storia che nessuno ha visto arrivare. Grok Imagine Video ha debuttato ed è atterrato al #4 — proprio tra le due varianti Veo 3.1 di Google e i suoi modelli Veo 3. Per un prodotto video di prima generazione di xAI, questo è straordinario. Lo sto testando estensivamente da quando è apparso, e ciò che mi colpisce è quanto bene gestisca la composizione cinematografica. Le scelte di inquadratura sono spesso migliori di quelle che ottengo da modelli che stanno iterando da oltre un anno.
La risoluzione a 720p è l'attuale limitazione. In un mondo in cui Kling sta spingendo la modalità turbo 1080p e Veo esegue il rendering in alta risoluzione nativa, 720p sembra un compromesso deliberato — xAI ha probabilmente dato priorità alla coerenza temporale e alla qualità del movimento rispetto al conteggio grezzo dei pixel. Mossa intelligente. Preferisco guardare una clip nitida e fluida a 720p piuttosto che una clip a 1080p con sfarfallio dei fotogrammi. Ciò che conta qui è la traiettoria: se xAI riuscirà a scalare la risoluzione mantenendo questa qualità di movimento, lotteranno per i primi due posti entro la metà del 2026.
Perché questo è importante per l'industria: Tre aziende ora competono in modo credibile per la fascia alta — Google, OpenAI e xAI. Quella gara a tre comprimerà le tempistiche per tutti. Quando parlo con i creatori che costruiscono con questi strumenti quotidianamente, il consenso è chiaro: la competizione al vertice è la cosa migliore che stia accadendo per la qualità video AI in questo momento.
La Fascia Media Affollata — Dove Vivono le Scelte Reali
La maggior parte dei creatori non spenderà i propri budget in chiamate API di alto livello per ogni clip. La realtà del lavoro di produzione è che l'80% delle tue esigenze video non richiede il modello migliore in assoluto — richiedono il modello giusto. E tra le posizioni n. 8 e n. 22, c'è una notevole densità di capacità specializzata.
Wan 2.5 di Alibaba al n. 8 guida il gruppo successivo. L'ho trovato eccezionalmente forte sui prompt artistici e astratti — il tipo di descrizioni poetiche e metaforiche che i modelli occidentali tendono a interpretare troppo letteralmente. Quando scrivo "solitudine che si dissolve in una folla", Wan 2.5 produce effettivamente qualcosa di visivamente evocativo piuttosto che limitarsi a renderizzare una persona in piedi da sola vicino ad altre persone.
Seedance v1.5 Pro di Bytedance (#9) è diventato il mio punto di riferimento per il lavoro complesso con la telecamera. Riprese orbitali, carrelli lenti, transizioni da gru a camera a mano — Seedance gestisce la coreografia della telecamera multi-segmento meglio di qualsiasi altra cosa tranne Veo. Il più vecchio Seedance v1 Pro (#18) e Seedance v1 Lite (#25) rimangono validi per prompt più semplici — e a un costo significativamente inferiore.
KlingAI ora schiera quattro modelli in classifica (dal n. 12 al n. 14, più il n. 22). Quella proliferazione ti dice qualcosa sulla loro strategia: piuttosto che un'ammiraglia, stanno costruendo una linea. Kling O1 Pro al n. 14 è nuovo e affascinante — applica il ragionamento a catena di pensiero alla generazione video, spendendo più tempo di calcolo per capire cosa vuoi veramente prima del rendering. I primi risultati suggeriscono che questo migliora drasticamente l'aderenza al prompt per scene complesse multi-elemento. Kling 2.5 Turbo 1080p al n. 12 è il demone della velocità — 1080p nativo a velocità turbo, ideale per iterare sui concetti prima di impegnarsi in un rendering finale altrove.
Ray 3 di Luma AI al n. 15 è il realizzatore silenzioso a cui continuo a tornare. Dove altri modelli inseguono il realismo cinematografico, Ray 3 ha una qualità estetica distintiva — leggermente onirica, con splendide transizioni di luce che sembrano quasi dipinte a mano. Per pezzi d'atmosfera e lavori di marca che devono sembrare elevati piuttosto che fotorealistici, è impareggiabile.
La linea Hailuo di MiniMax (n. 16, n. 17, n. 19) rimane il motore di iterazione di questa classifica. Quando sto abbozzando — testando venti varianti di un concetto prima di scegliere una direzione — la velocità e la struttura dei costi di Hailuo lo rendono la scelta ovvia. Il divario di qualità tra Hailuo 02 Pro e la versione standard è più stretto di quanto ti aspetteresti, il che rende il livello standard veramente utile per la pre-visualizzazione della produzione.
Hunyuan Video 1.5 di Tencent al n. 21 è il cavallo oscuro che osserverei con più attenzione. Le pubblicazioni di ricerca di Tencent suggeriscono che stanno investendo pesantemente nella coerenza temporale — la capacità di mantenere l'aspetto del personaggio e la logica della scena attraverso clip generate più lunghe. Questo è il problema irrisolto più difficile nel video AI, e chiunque lo risolva per primo rimodellerà queste classifiche dall'oggi al domani.
La Spinta Open-Source
Qualcosa di importante sta accadendo nella metà inferiore di questa classifica. Kandinsky 5.0 Pro (n. 20) e Kandinsky 5.0 Lite (n. 26) sono modelli completamente open-source che competono con sistemi proprietari costati milioni per lo sviluppo. La variante Pro si trova al n. 20, davanti a Tencent, davanti ai vecchi modelli Kling, davanti a Veo 2. Questa è una dichiarazione.
LTX-2 19B al n. 27 di Lightricks è nuovo nella classifica e rappresenta l'altro ramo del video open-source: un modello che puoi scaricare, perfezionare e distribuire sulla tua infrastruttura. Con 19 miliardi di parametri non è piccolo, ma gira su hardware consumer di fascia alta. Per gli studi che devono elaborare filmati proprietari senza inviare fotogrammi a un'API di terze parti, questa non è una comodità — è un requisito.
Wan v2.2 di Alibaba (n. 24) unisce entrambi i mondi — pesi aperti su Hugging Face, supportati dall'infrastruttura cloud di Alibaba. Mochi v1 (n. 31) di Genmo AI completa le voci open-source. Sebbene oggi si trovi in fondo alla classifica, la ricerca di Genmo su architetture efficienti potrebbe pagare dividendi nelle iterazioni future.
La traiettoria dell'open-source è chiara: un anno fa, nessun modello aperto sarebbe entrato nella top 25 di questa Arena. Ora due varianti Kandinsky siedono comodamente nella top 26. Entro la fine del 2026, mi aspetto almeno un modello open-source nella top 15. Il divario si sta chiudendo più velocemente di quanto chiunque avesse previsto.
Dove Andremo a Finire
Seguo la generazione video AI dalle prime demo di Runway e non ho mai visto una pressione competitiva così intensa. Ecco cosa mi aspetto nei prossimi sei mesi, in base alle tendenze della ricerca, alle roadmap delle API e a ciò che sento dai team che lavorano su questi modelli:
L'audio diventerà lo standard. In questo momento, la generazione audio sincronizzata è il principale elemento di differenziazione di Veo. Entro il terzo trimestre del 2026, mi aspetto che Sora, Grok e almeno due modelli cinesi forniscano capacità audio comparabili. Quando ciò accadrà, la classifica si rimescolerà drasticamente — l'attuale vantaggio di Veo evapora nel momento in cui tutti possono eguagliarlo.
La risoluzione smetterà di contare. Ci stiamo avvicinando al punto in cui la generazione nativa in 4K è tecnicamente fattibile ma percettivamente non necessaria per la maggior parte delle applicazioni. Il prossimo campo di battaglia è la coerenza temporale — un modello può generare 30 secondi di video continuo e coerente in cui il viso di un personaggio non si trasforma, in cui la fisica rimane coerente, in cui l'illuminazione non cambia casualmente? È lì che la ricerca Hunyuan di Tencent e l'approccio di ragionamento O1 di Kling potrebbero superare la pura qualità visiva.
La guerra dei costi API sta per iniziare. In questo momento, i modelli premium come Veo 3.1 e Sora 2 Pro hanno prezzi premium. Ma con MiniMax che offre una qualità veramente competitiva a una frazione del costo e modelli open-source come Kandinsky e LTX-2 che offrono un costo marginale zero per l'implementazione self-hosted, i fornitori di alto livello dovranno comprimere i prezzi. Questo è un bene per ogni creatore.
xAI non rimarrà a 720p. Il debutto di Grok al n. 4 con un handicap di risoluzione è forse il punto dati più rivelatore di tutta questa classifica. Hanno dimostrato che l'architettura del modello funziona. Il ridimensionamento della risoluzione è un problema ingegneristico, non di ricerca. Sarei sorpreso se Grok non offrisse video 1080p entro l'estate.
Le Mie Scelte per Caso d'Uso
Cinematografico + Audio
Veo 3.1 Audio — ancora il gold standard per clip immersive dove il suono conta.
Realismo Fisico
Sora 2 Pro — quando gli oggetti devono interagire con un comportamento fisicamente credibile.
Composizione Cinematografica
Grok Video — inquadratura e composizione eccezionali per un modello di prima generazione.
Coreografia della Telecamera
Seedance v1.5 Pro — movimenti della telecamera multi-segmento complessi, transizioni fluide.
Stilizzato e Anime
Kling 2.6 Pro — coerenza del personaggio e controllo artistico in stili non fotorealistici.
Iterazione Rapida
Hailuo 02 — giri di bozze rapidi prima di impegnarsi in rendering premium.
Prompt Artistici
Wan 2.5 — gestisce descrizioni poetiche e astratte con sfumature genuine.
Self-Hosted / Privacy
LTX-2 19B o Kandinsky 5.0 Pro — esegui sul tuo hardware, nessun dato lascia i tuoi server.
La conclusione: non esiste una migliore IA video unica. Esiste la migliore IA video per una ripresa, uno stile, un budget e un requisito di privacy specifici. I professionisti che rispetto di più in questo spazio non giurano fedeltà a un modello — mantengono account attivi su almeno tre e sanno esattamente quale prompt va dove. Questa è la vera abilità nel 2026: non scrivere prompt, ma instradarli.
Fonte Dati: Classifiche da Arena Text-to-Video Leaderboard, 29 gennaio 2026.
Discussione
0 commentiLascia un commento
Sii il primo a condividere i tuoi pensieri!