Bảng xếp hạng Arena AI Text-to-Video — 2026

Cốt lõi

Cuộc đua không còn là về việc ai có thể tạo ra video. Đó là về việc ai khiến bạn quên rằng đó là AI.

Tôi đã dành mười bốn tháng qua để tạo video trên mọi nền tảng AI lớn — hàng chục nghìn lời nhắc (prompts), bao gồm các cảnh điện ảnh, ảnh chụp sản phẩm, nghệ thuật trừu tượng và các bài kiểm tra căng thẳng vật lý. Và điều tôi có thể nói với bạn khi bước vào cuối tháng 1 năm 2026 là thế này: bảng xếp hạng chưa bao giờ chặt chẽ, sâu sắc hay khó đoán đến thế này. Google vẫn giữ vương miện, nhưng Sora 2 Pro của OpenAI đang thở ngay sau gáy chỉ với hai điểm cách biệt. xAI đã phá đám bữa tiệc với video Grok từ hư không. Và tầng trung hiện đang cạnh tranh đến mức chọn sai mô hình cho một loại cảnh quay cụ thể là sai lầm thực sự mà hầu hết người sáng tạo mắc phải. Đây là Text-to-Video Arena — 31 mô hình, được xếp hạng theo sở thích mù của con người.

Bảng xếp hạng đầy đủ — 31 Mô hình

Bảng dưới đây thể hiện trạng thái đầy đủ của Arena tính đến ngày 29 tháng 1 năm 2026. Mọi liên kết mô hình sẽ đưa bạn trực tiếp đến tài liệu chính thức hoặc điểm cuối API để bạn có thể tự mình kiểm tra.

Xếp hạng	Mô hình	Điểm	Phiếu bầu	Tổ chức
🥇	Veo 3.1 Audio	1371	12,572	Google
🥈	Sora 2 Pro	1369	11,435	OpenAI
🥉	Veo 3.1 Fast Audio	1367	13,963	Google
#4	Grok Imagine Video 720p	1362	7,952	xAI
#5	Veo 3 Fast Audio	1350	25,771	Google
#6	Veo 3 Audio	1340	19,329	Google
#7	Sora 2	1338	14,207	OpenAI
#8	Wan2.5 T2v Preview	1267	6,077	Alibaba
#9	Seedance V1.5 Pro	1261	13,960	Bytedance
#10	Veo 3	1257	15,192	Google
#11	Veo 3 Fast	1251	15,476	Google
#12	Kling 2.5 Turbo 1080p	1222	2,054	KlingAI
#13	Kling 2.6 Pro	1219	17,486	KlingAI
#14	Kling O1 Pro	1207	1,197	KlingAI
#15	Ray 3	1204	1,057	Luma AI
#16	Hailuo 02 Pro	1200	9,888	MiniMax
#17	Hailuo 2.3	1198	13,037	MiniMax
#18	Seedance V1 Pro	1192	12,895	Bytedance
#19	Hailuo 02 Standard	1181	9,935	MiniMax
#20	Kandinsky 5.0 T2v Pro	1178	1,888	Kandinsky
#21	Hunyuan Video 1.5	1171	4,101	Tencent
#22	Kling V2.1 Master	1168	14,527	KlingAI
#23	Veo 2	1165	7,106	Google
#24	Wan V2.2 A14b	1130	11,160	Alibaba
#25	Seedance V1 Lite	1114	16,716	Bytedance
#26	Kandinsky 5.0 T2v Lite	1112	1,351	Kandinsky
#27	Ltx 2 19b	1090	8,759	lightricks
#28	Sora	1070	4,521	OpenAI
#29	Ray2	1066	5,611	Luma AI
#30	Pika V2.2	1011	6,496	Pika
#31	Mochi V1	999	6,681	Genmo AI

Lưỡi dao ở Đỉnh cao

Hãy để tôi đặt điều này vào bối cảnh. Hai điểm. Đó là tất cả những gì ngăn cách Veo 3.1 Audio khỏi Sora 2 Pro ngay bây giờ. Khi tôi bắt đầu theo dõi bảng xếp hạng này vài tháng trước, Google đã có một khoảng cách an toàn. Khoảng cách đó đã biến mất. Bảy mô hình hàng đầu — bốn từ Google, hai từ OpenAI, một từ xAI — đều nằm trong phạm vi 33 điểm. Trong đánh giá AI cạnh tranh, đó giống như tung đồng xu cho bất kỳ lời nhắc nào.

Điều khiến Veo 3.1 giữ được vương miện không còn là độ trung thực hình ảnh thô nữa — mà là tạo âm thanh đồng bộ. Khi tôi tạo một cảnh đường phố, tiếng bước chân khớp với loại vỉa hè. Tiếng mưa thay đổi theo khoảng cách camera. Động cơ ô tô quay vòng đồng bộ với khả năng tăng tốc. Đây không phải là âm thanh hậu kỳ được xếp chồng lên trên; nó được tạo ra trong cùng một lượt chuyển tiếp với video. Khả năng duy nhất đó là những gì giữ Veo ở vị trí số 1, bởi vì khi ban giám khảo con người xem hai clip cạnh nhau, clip có âm thanh phù hợp chỉ đơn giản là cảm thấy chân thực hơn.

Nhưng Sora 2 Pro đang chiến thắng ở những lĩnh vực mà Veo không nhấn mạnh. Tôi đã chạy các lời nhắc nặng về vật lý — một cốc nước bị gạt khỏi bàn, một lá cờ trong gió thay đổi, vải vướng vào tay nắm cửa — và Sora liên tục tạo ra kết quả chính xác hơn về mặt vật lý. Nước bắn tung tóe với khối lượng phù hợp. Vải căng ra trước khi rách. Mảnh thủy tinh vỡ tan với động lượng đáng tin cậy. Nếu cảnh quay của bạn phụ thuộc vào việc khán giả tin vào vật lý, Sora là nơi bạn đến. Veo tạo ra vẻ đẹp; Sora tạo ra niềm tin.

Sora 2 ở vị trí số 7 vẫn là biến thể 'ngựa thồ' — kém tinh tế hơn một chút so với Pro, nhưng tạo nhanh hơn và thừa khả năng cho hầu hết các công việc sản xuất. Tôi vẫn sử dụng Sora 2 tiêu chuẩn cho 70% các tác vụ video OpenAI của mình vì tỷ lệ chất lượng trên tốc độ là tuyệt vời.

Yếu tố Grok

Đây là câu chuyện mà không ai thấy trước. Grok Imagine Video đã ra mắt và hạ cánh ở vị trí #4 — ngay giữa hai biến thể Veo 3.1 của Google và các mô hình Veo 3 của nó. Đối với một sản phẩm video thế hệ đầu tiên từ xAI, điều đó thật phi thường. Tôi đã thử nghiệm nó rộng rãi kể từ khi nó xuất hiện, và điều làm tôi ấn tượng là nó xử lý bố cục điện ảnh tốt như thế nào. Các lựa chọn khung hình thường tốt hơn những gì tôi nhận được từ các mô hình đã lặp lại hơn một năm.

Độ phân giải 720p là hạn chế hiện tại. Trong một thế giới mà Kling đang đẩy chế độ turbo 1080p và Veo hiển thị ở độ phân giải cao gốc, 720p có cảm giác như một sự đánh đổi có chủ ý — xAI có khả năng ưu tiên sự mạch lạc về thời gian và chất lượng chuyển động hơn là số lượng pixel thô. Nước đi thông minh. Tôi thà xem một clip 720p sắc nét, mượt mà còn hơn một clip 1080p bị giật khung hình. Điều quan trọng ở đây là quỹ đạo: nếu xAI có thể mở rộng độ phân giải trong khi vẫn duy trì chất lượng chuyển động này, họ sẽ chiến đấu cho hai vị trí đầu vào giữa năm 2026.

Tại sao điều này quan trọng đối với ngành: Ba công ty hiện đang cạnh tranh đáng tin cậy cho tầng cao nhất — Google, OpenAI và xAI. Cuộc đua ba bên đó sẽ nén các mốc thời gian cho tất cả mọi người. Khi tôi nói chuyện với những người sáng tạo xây dựng bằng các công cụ này hàng ngày, sự đồng thuận rất rõ ràng: sự cạnh tranh ở đỉnh cao là điều tốt nhất đang xảy ra đối với chất lượng video AI ngay bây giờ.

Tầng trung đông đúc — Nơi các lựa chọn thực sự tồn tại

Hầu hết những người sáng tạo sẽ không chi ngân sách của họ cho các cuộc gọi API hàng đầu cho mỗi clip. Thực tế của công việc sản xuất là 80% nhu cầu video của bạn không yêu cầu mô hình tốt nhất tuyệt đối — chúng yêu cầu mô hình phù hợp. Và giữa các vị trí #8 và #22, có một mật độ năng lực chuyên biệt đáng chú ý.

Wan 2.5 của Alibaba ở vị trí số 8 dẫn đầu nhóm tiếp theo. Tôi thấy nó đặc biệt mạnh mẽ về các lời nhắc nghệ thuật và trừu tượng — loại mô tả thơ mộng, ẩn dụ mà các mô hình phương Tây có xu hướng diễn giải quá theo nghĩa đen. Khi tôi viết "sự cô đơn tan biến vào đám đông", Wan 2.5 thực sự tạo ra thứ gì đó gợi cảm về mặt thị giác thay vì chỉ hiển thị một người đứng một mình gần những người khác.

Seedance v1.5 Pro của Bytedance (#9) đã trở thành lựa chọn của tôi cho công việc máy ảnh phức tạp. Các cảnh quay quỹ đạo, dolly chậm, chuyển từ cần cẩu sang cầm tay — Seedance xử lý vũ đạo máy ảnh nhiều phân đoạn tốt hơn bất kỳ thứ gì ngoại trừ Veo. Seedance v1 Pro cũ hơn (#18) và Seedance v1 Lite (#25) vẫn khả thi cho các lời nhắc đơn giản hơn — và với chi phí thấp hơn đáng kể.

KlingAI hiện đưa bốn mô hình vào bảng xếp hạng (#12 đến #14, cộng với #22). Sự gia tăng đó cho bạn biết điều gì đó về chiến lược của họ: thay vì một chiếc flagship, họ đang xây dựng một đội hình. Kling O1 Pro ở vị trí 14 là mới và hấp dẫn — nó áp dụng lý luận chuỗi suy nghĩ (chain-of-thought) để tạo video, dành nhiều thời gian tính toán hơn để hiểu những gì bạn thực sự muốn trước khi hiển thị. Kết quả ban đầu cho thấy điều này cải thiện đáng kể sự tuân thủ lời nhắc cho các cảnh đa yếu tố phức tạp. Kling 2.5 Turbo 1080p ở vị trí 12 là con quỷ tốc độ — 1080p gốc ở tốc độ turbo, lý tưởng để lặp lại các khái niệm trước khi cam kết hiển thị cuối cùng ở nơi khác.

Ray 3 của Luma AI ở vị trí 15 là người đạt thành tích thầm lặng mà tôi liên tục quay lại. Trong khi các mô hình khác theo đuổi chủ nghĩa hiện thực điện ảnh, Ray 3 có chất lượng thẩm mỹ đặc biệt — hơi giống giấc mơ, với sự chuyển đổi ánh sáng tuyệt đẹp tạo cảm giác gần như được vẽ bằng tay. Đối với các tác phẩm tâm trạng và công việc thương hiệu cần cảm giác nâng cao thay vì chân thực như ảnh, nó là vô song.

Dòng Hailuo của MiniMax (#16, #17, #19) vẫn là động cơ lặp lại của bảng xếp hạng này. Khi tôi soạn thảo — thử nghiệm hai mươi biến thể của một khái niệm trước khi chọn hướng đi — tốc độ và cấu trúc chi phí của Hailuo khiến nó trở thành lựa chọn hiển nhiên. Khoảng cách chất lượng giữa Hailuo 02 Pro và phiên bản tiêu chuẩn hẹp hơn bạn mong đợi, điều này làm cho tầng tiêu chuẩn thực sự hữu ích cho việc hình dung trước sản xuất.

Hunyuan Video 1.5 của Tencent ở vị trí 21 là chú ngựa ô mà tôi sẽ theo dõi cẩn thận nhất. Các ấn phẩm nghiên cứu của Tencent cho thấy họ đang đầu tư mạnh vào tính nhất quán về thời gian — khả năng duy trì ngoại hình nhân vật và logic cảnh qua các clip được tạo dài hơn. Đó là vấn đề khó giải quyết nhất trong video AI và bất kỳ ai giải quyết được nó đầu tiên sẽ định hình lại các bảng xếp hạng này chỉ sau một đêm.

Cú hích nguồn mở

Một điều quan trọng đang xảy ra ở nửa dưới của bảng xếp hạng này. Kandinsky 5.0 Pro (#20) và Kandinsky 5.0 Lite (#26) là các mô hình nguồn mở hoàn toàn cạnh tranh với các hệ thống độc quyền tốn hàng triệu đô la để phát triển. Biến thể Pro nằm ở vị trí số 20, trước Tencent, trước các mô hình Kling cũ hơn, trước Veo 2. Đó là một tuyên bố.

LTX-2 19B ở vị trí 27 từ Lightricks là mới trong bảng xếp hạng và đại diện cho nhánh khác của video nguồn mở: một mô hình bạn có thể tải xuống, tinh chỉnh và triển khai trên cơ sở hạ tầng của riêng mình. Với 19 tỷ tham số, nó không nhỏ, nhưng nó chạy trên phần cứng tiêu dùng cao cấp. Đối với các hãng phim cần xử lý các cảnh quay độc quyền mà không gửi khung hình đến API của bên thứ ba, đó không phải là sự tiện lợi — đó là một yêu cầu.

Wan v2.2 của Alibaba (#24) kết nối cả hai thế giới — trọng số mở trên Hugging Face, được hỗ trợ bởi cơ sở hạ tầng đám mây của Alibaba. Mochi v1 (#31) từ Genmo AI làm tròn các mục nguồn mở. Mặc dù hôm nay nó nằm ở cuối bảng xếp hạng, nghiên cứu của Genmo về các kiến trúc hiệu quả có thể mang lại lợi nhuận trong các lần lặp lại trong tương lai.

Quỹ đạo nguồn mở rất rõ ràng: một năm trước, không có mô hình mở nào lọt vào top 25 trong Arena này. Bây giờ hai biến thể Kandinsky ngồi thoải mái trong top 26. Đến cuối năm 2026, tôi hy vọng ít nhất một mô hình nguồn mở nằm trong top 15. Khoảng cách đang thu hẹp nhanh hơn bất kỳ ai dự đoán.

Điều này sẽ đi về đâu

Tôi đã theo dõi quá trình tạo video AI kể từ những bản demo Runway đầu tiên và tôi chưa bao giờ thấy áp lực cạnh tranh dữ dội như thế này. Đây là những gì tôi mong đợi trong sáu tháng tới, dựa trên các xu hướng nghiên cứu, lộ trình API và những gì tôi nghe được từ các nhóm làm việc trên các mô hình này:

Âm thanh sẽ trở thành tiêu chuẩn. Ngay bây giờ, tạo âm thanh đồng bộ là điểm khác biệt chính của Veo. Đến quý 3 năm 2026, tôi hy vọng Sora, Grok và ít nhất hai mô hình Trung Quốc sẽ cung cấp khả năng âm thanh tương đương. Khi điều đó xảy ra, bảng xếp hạng sẽ xáo trộn đáng kể — lợi thế hiện tại của Veo sẽ bốc hơi ngay khi mọi người có thể sánh kịp.

Độ phân giải sẽ không còn quan trọng. Chúng ta đang tiếp cận điểm mà việc tạo 4K gốc là khả thi về mặt kỹ thuật nhưng không cần thiết về mặt nhận thức đối với hầu hết các ứng dụng. Chiến trường tiếp theo là tính nhất quán về thời gian — một mô hình có thể tạo ra 30 giây video liên tục, mạch lạc trong đó khuôn mặt của nhân vật không bị biến dạng, nơi vật lý vẫn nhất quán, nơi ánh sáng không thay đổi ngẫu nhiên không? Đó là nơi nghiên cứu Hunyuan của Tencent và phương pháp lý luận O1 của Kling có thể vượt qua chất lượng hình ảnh thuần tú.

Cuộc chiến chi phí API sắp bắt đầu. Ngay bây giờ, các mô hình cao cấp như Veo 3.1 và Sora 2 Pro có giá cao cấp. Nhưng với việc MiniMax cung cấp chất lượng cạnh tranh thực sự với giá chỉ bằng một phần nhỏ và các mô hình nguồn mở như Kandinsky và LTX-2 cung cấp chi phí biên bằng không cho việc triển khai tự lưu trữ, các nhà cung cấp hàng đầu sẽ phải nén giá. Điều đó tốt cho mọi người sáng tạo.

xAI sẽ không ở lại mức 720p. Màn ra mắt của Grok ở vị trí số 4 với sự bất lợi về độ phân giải có lẽ là điểm dữ liệu đáng chú ý nhất trên toàn bộ bảng xếp hạng này. Họ đã chứng minh kiến trúc mô hình hoạt động. Mở rộng độ phân giải là một vấn đề kỹ thuật, không phải là một vấn đề nghiên cứu. Tôi sẽ ngạc nhiên nếu Grok không cung cấp video 1080p vào mùa hè.

Lựa chọn của tôi theo trường hợp sử dụng

Điện ảnh + Âm thanh

Veo 3.1 Audio — vẫn là tiêu chuẩn vàng cho các clip nhập vai nơi âm thanh quan trọng.

Chủ nghĩa hiện thực vật lý

Sora 2 Pro — khi các vật thể cần tương tác với hành vi đáng tin cậy về mặt vật lý.

Bố cục điện ảnh

Grok Video — bố cục khung hình và cảnh quay đặc biệt cho một mô hình thế hệ đầu tiên.

Vũ đạo máy ảnh

Seedance v1.5 Pro — chuyển động máy ảnh nhiều phân đoạn phức tạp, chuyển tiếp mượt mà.

Cách điệu & Anime

Kling 2.6 Pro — tính nhất quán của nhân vật và kiểm soát nghệ thuật trong các phong cách không thực tế.

Lặp lại nhanh

Hailuo 02 — các vòng nháp nhanh trước khi cam kết với các bản render cao cấp.

Lời nhắc nghệ thuật

Wan 2.5 — xử lý các mô tả thơ mộng và trừu tượng với sắc thái chân thực.

Tự lưu trữ / Quyền riêng tư

LTX-2 19B hoặc Kandinsky 5.0 Pro — chạy trên phần cứng của riêng bạn, không có dữ liệu nào rời khỏi máy chủ của bạn.

Điểm mấu chốt: không có video AI tốt nhất duy nhất. Có video AI tốt nhất cho một cảnh quay, phong cách, ngân sách và yêu cầu quyền riêng tư cụ thể. Các chuyên gia mà tôi tôn trọng nhất trong không gian này không thề trung thành với một mô hình — họ duy trì các tài khoản hoạt động trên ít nhất ba mô hình và họ biết chính xác lời nhắc nào đi đâu. Đó là kỹ năng thực sự vào năm 2026: không phải viết lời nhắc, mà là định tuyến chúng.

Nguồn dữ liệu: Xếp hạng từ Bảng xếp hạng Arena Text-to-Video, ngày 29 tháng 1 năm 2026.

Tags: #text-to-video #generative-ai #veo #sora #grok #kling #leaderboard