Bảng Xếp Hạng Đấu Trường Viết Sáng Tạo AI — Tháng 2 năm 2026

Thấu Hiểu Cốt Lõi

Viết sáng tạo là nơi trí thông minh thô sơ cúi đầu trước thị hiếu, sự kiềm chế và lòng can đảm để để lại những điều đúng đắn không nói ra.

Ba năm yêu cầu AI kể chuyện cho tôi. Không phải tóm tắt, không phải đề cương—mà là tiểu thuyết thực sự. Loại mà một nhân vật bước vào phòng và bạn cảm thấy nhiệt độ thay đổi. Qua những năm đó, tôi đã xem bảng xếp hạng này chuyển đổi từ một sự tò mò thành một phong vũ biểu thực sự về khả năng văn học. Tháng 2 năm 2026 đã mang đến sự thay đổi thú vị nhất cho đến nay: một mô hình hoàn toàn mới đến lặng lẽ, leo lên nhanh chóng và thu hẹp một khoảng cách dường như vĩnh viễn chỉ vài tuần trước. Đây là bức tranh toàn cảnh—sáu mươi mô hình được xếp hạng, phân tích và đặt trong bối cảnh bởi một người làm việc với chúng mỗi ngày.

Bảng Xếp Hạng Viết Sáng Tạo

Mã có cú pháp. Toán học có chứng minh. Nhưng viết sáng tạo có giọng văn—nhịp điệu, sự bất ngờ, cộng hưởng cảm xúc. Đây là Đấu Trường Viết Sáng Tạo, tiêu chuẩn khắt khe nhất trong đánh giá AI, nơi sáu mươi mô hình được xếp hạng theo mức độ chúng kể những câu chuyện thực sự làm lay động lòng người. Đây là vị trí của mọi thứ tính đến tháng 2 năm 2026.

Hạng	Mô hình	Điểm	Phiếu bầu	Tổ chức
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

Sự Gián Đoạn Tháng Hai

Khi tôi lấy dữ liệu mới nhất, một mục đã khiến tôi dừng lại: Claude Opus 4.6 ngồi ở vị trí số hai. Không phải vì một mô hình Anthropic xếp hạng cao là bất thường—họ đã làm điều đó một cách nhất quán. Nhưng bởi vì mô hình này đã hạ cánh ở vị trí thứ hai với hầu như không có lịch sử đánh giá nào phía sau nó. Loại đồng thuận sớm đó rất hiếm. Điều đó có nghĩa là làn sóng người thử nghiệm đầu tiên—những người ám ảnh chạy các lời nhắc giống hệt nhau qua mọi bản phát hành mới trong vòng vài giờ sau khi ra mắt—đã tìm thấy điều gì đó thực sự khác biệt trong đầu ra sáng tạo của nó.

Tuy nhiên, câu chuyện thực sự là khoảng cách. Vào tháng Giêng, khoảng cách giữa vị trí thứ nhất và thứ hai là hai mươi lăm điểm thoải mái. Bây giờ là mười hai. Gemini 3 Pro vẫn giữ vàng, và nó đã giành được vị trí đó một cách trung thực. Nhưng vị trí dẫn đầu đã giảm một nửa trong một chu kỳ cập nhật duy nhất. Nếu bạn là Google, xu hướng đó đòi hỏi sự chú ý. Nếu bạn là Anthropic, đó là sự xác nhận rằng cách tiếp cận của bạn đối với đào tạo AI sáng tạo đang hội tụ vào một thứ gì đó mạnh mẽ.

Trong khi đó, các mô hình ngay bên dưới hai vị trí đầu đã xáo trộn đáng kể. Biến thể tư duy của Claude Opus 4.5 đã vươn lên vị trí thứ ba, đẩy Opus 4.5 tiêu chuẩn xuống thứ tư và Gemini 3 Flash xuống thứ năm. Flash giữ vị trí thứ ba chỉ vào tháng trước. Bục vinh quang không chỉ đổi chủ ở đỉnh cao—nó không ổn định xuyên suốt. Và sự bất ổn định, theo kinh nghiệm của tôi, đi trước những đột phá.

Đỉnh Cao Thống Trị

Gemini 3 Pro vẫn là mô hình tôi tìm đến khi tôi chưa biết mình cần gì. Điều giữ nó ở vị trí số một là phạm vi: yêu cầu nó phong cách Hemingway và nó cung cấp văn xuôi gọn gàng, cơ bắp. Yêu cầu tiểu thuyết hậu hiện đại thử nghiệm và nó thay đổi thanh ghi mà không mất đi sự mạch lạc. Thư tín thời Victoria, noir hardboiled, hiện thực huyền ảo, văn học thiếu nhi—Gemini xử lý những chuyển đổi này theo cách gợi ý sự hiểu biết thực sự về hình thức, không phải bắt chước bề mặt. Google đặt sáu mô hình trong top sáu mươi, với Gemini 3 Flash ở vị trí thứ năm và Gemini 2.5 Pro ở vị trí thứ sáu lấp đầy một bộ ba mạnh mẽ ở phía trên.

Claude là một loài hoàn toàn khác. Nếu Gemini là phạm vi, thì Claude là chiều sâu. Các mô hình của Anthropic luôn xuất sắc ở những sự tinh tế khó dạy nhất cho máy móc: khi nào để sự im lặng mang theo một cảnh, khi nào một câu nên ngắt quãng thay vì tiếp tục, khi nào những gì một nhân vật không nói tiết lộ nhiều hơn những gì họ nói. Opus 4.6 đẩy điều này đi xa hơn. Trong thử nghiệm của tôi, nó tạo ra cuộc đối thoại cảm thấy thực sự có hồn. Các nhân vật không đọc lời thoại—họ đang suy nghĩ, do dự, chọn từ ngữ theo cách người thật làm khi có điều gì đó quan trọng đang bị đe dọa. Anthropic hiện có mười ba mô hình trong top sáu mươi, nhiều hơn bất kỳ tổ chức nào khác, với năm mô hình được đặt trong top mười một. Bất kể cách tiếp cận của họ để đào tạo khả năng sáng tạo là gì, nó đang hoạt động trên toàn bộ dòng sản phẩm của họ.

Đây là một quan sát không nhận được đủ sự chú ý: lập luận mở rộng—chế độ "thinking"—không cải thiện đáng tin cậy việc viết sáng tạo. Mô hình không nhất quán và tiết lộ sâu sắc.

Đối với các mô hình Claude Opus, các biến thể tư duy có xu hướng xếp hạng cao hơn một chút: Opus 4.5 Thinking ở vị trí thứ ba so với tiêu chuẩn ở vị trí thứ tư, Opus 4.1 Thinking ở vị trí thứ chín so với tiêu chuẩn ở vị trí thứ mười một. Grok 4.1 Thinking vượt trội hơn biến thể tiêu chuẩn của nó ba vị trí. Nhưng chuyển sang các kiến trúc khác và mô hình đảo ngược—đôi khi đáng kể. DeepSeek v3.2-exp tiêu chuẩn ngồi ở vị trí hai mươi tám trong khi biến thể tư duy của nó rơi xuống vị trí bốn mươi hai. DeepSeek v3.1-terminus tiêu chuẩn ở vị trí hai mươi hai; đối tác tư duy của nó rơi xuống vị trí năm mươi tám—một khoảng cách ba mươi sáu vị trí. GPT-5.2 tiêu chuẩn đánh bại GPT-5.2-high.

Điều này nói với tôi là quan trọng: viết sáng tạo không chủ yếu là một vấn đề lập luận. Đó là một vấn đề thẩm mỹ. Đối với các mô hình đã sở hữu bản năng văn học mạnh mẽ, tư duy mở rộng có thể tinh chỉnh những bản năng đó—giống như một biên tập viên cẩn thận xem xét một bản thảo đầu tiên vững chắc. Nhưng đối với các mô hình mà sức mạnh sáng tạo mang tính bản năng và dựa trên khuôn mẫu hơn, việc ép buộc cân nhắc thực sự đánh bóng đi những góc cạnh thô ráp làm cho văn xuôi cảm thấy sống động. Đôi khi phản ứng đầu tiên nắm bắt được điều gì đó mà tính toán bổ sung làm mịn thành tầm thường. Nếu bạn sử dụng các mô hình hỗ trợ tư duy cho công việc sáng tạo, hãy thử nghiệm cả hai chế độ. Giả định rằng nhiều lập luận hơn bằng đầu ra tốt hơn không giữ vững ở đây, và hiểu khi nào nên tắt tư duy có thể có giá trị hơn là biết khi nào nên bật nó lên.

Thủy Triều Dâng

Bên dưới tầng trên cùng, câu chuyện là sự gia tăng và đa dạng—và nó được cho là quan trọng hơn cuộc đua giành vị trí số một.

DeepSeek đặt mười mô hình trong top sáu mươi, trở thành tổ chức được đại diện nhiều thứ ba sau Anthropic và OpenAI. Các biến thể v3.1 và v3.2 của họ trải dài từ vị trí hai mươi hai đến năm mươi tám, bao gồm một loạt các cấp độ khả năng sáng tạo. Là một dự án trọng số mở, DeepSeek đại diện cho một cái gì đó hoàn toàn khác biệt so với các nhà lãnh đạo độc quyền: các mô hình này có thể được tải xuống, lưu trữ cục bộ và tinh chỉnh (fine-tuned) cho các nhiệm vụ sáng tạo cụ thể. Nếu bạn đang xây dựng một công cụ viết AI hoặc tích hợp các khả năng sáng tạo vào quy trình sản phẩm, DeepSeek cung cấp sự linh hoạt mà các mô hình chỉ có API không thể sánh được.

Bức tranh rộng lớn hơn thậm chí còn nổi bật hơn. Giữa DeepSeek, Baidu, Moonshot, Alibaba, Z.ai và Tencent, các phòng thí nghiệm AI của Trung Quốc hiện chiếm hai mươi hai trong số sáu mươi mô hình được xếp hạng—hơn một phần ba toàn bộ bảng xếp hạng. Kimi K2.5 của Moonshot ra mắt với biến thể tư duy của nó ở vị trí hai mươi mốt, đưa công ty lên ba vị trí. Baidu giữ ba vị trí với dòng sản phẩm ERNIE 5.0 của mình. Qwen3 của Alibaba có ba biến thể được xếp hạng. GLM-4.7 của Z.ai ngồi ở vị trí hai mươi bảy. Đây không phải là sự hội tụ—đó là sự đa dạng thực sự. Dữ liệu đào tạo khác nhau, bối cảnh văn hóa khác nhau và truyền thống văn học khác nhau tạo ra các mô hình với sự nhạy cảm sáng tạo riêng biệt. Tôi đã thấy ERNIE tạo ra những ẩn dụ sẽ không xảy ra với các mô hình được đào tạo phương Tây, và GLM xử lý nhịp độ tường thuật theo những cách cảm thấy mới mẻ chính xác vì DNA văn học là khác nhau. Hệ sinh thái AI sáng tạo toàn cầu phong phú hơn nhờ nó.

OpenAI giữ mười một mô hình, mặc dù câu chuyện sáng tạo của họ có một tình tiết phụ thú vị. GPT-4.5-preview ở vị trí mười hai ngồi trước cả GPT-5.1-high ở vị trí mười bốn và GPT-5.1 tiêu chuẩn ở vị trí hai mươi ba. Đôi khi một mô hình được tối ưu hóa cho sắc thái vượt trội hơn người kế nhiệm vượt trội về mặt kỹ thuật của nó trong các nhiệm vụ đánh giá cao sự tinh tế hơn khả năng thô sơ. ChatGPT-4o-latest ở vị trí mười bảy củng cố quan điểm này: các mô hình được tối ưu hóa cho hội thoại mang một lợi thế cố hữu trong viết sáng tạo vì kể chuyện về cơ bản là hội thoại. Bạn không tính toán một câu trả lời—bạn đang duy trì một giọng nói.

Grok đã khắc họa một bản sắc sáng tạo chân thực với bảy mô hình được xếp hạng. Nơi Claude xuất sắc về trí tuệ cảm xúc, Grok mang đến sự trung thực về cảm xúc. Sự hài hước sắc sảo hơn, những ẩn dụ táo bạo hơn, các nhân vật ít bóng bẩy hơn và sống động hơn. Khi tôi muốn viết lách chấp nhận rủi ro—tiểu thuyết có thể khiến người đọc khó chịu theo cách hiệu quả—Grok là nơi tôi bắt đầu. Đó là mô hình ít sợ giọng nói của chính mình nhất, và trong viết sáng tạo, sự không sợ hãi là quan trọng. Medium-2508 của Mistral ở vị trí năm mươi sáu đại diện cho sự hiện diện của Châu Âu trên bảng. Hunyuan của Tencent ở vị trí năm mươi ba thêm một giọng nói khác từ Trung Quốc. Sân chơi chưa bao giờ rộng hơn thế.

Điều Này Sẽ Đi Về Đâu

Tôi sẽ cho bạn biết tôi nghĩ điều gì sẽ xảy ra tiếp theo, bởi vì các xu hướng trong dữ liệu này chỉ ra một nơi cụ thể.

Khoảng cách tiếp tục nén lại. Sự chênh lệch giữa vị trí thứ nhất và thứ sáu mươi là khoảng 7,4 phần trăm—chặt chẽ theo tiêu chuẩn lịch sử, và thu hẹp với mỗi bản cập nhật. Chúng ta đang tiếp cận một ngưỡng nơi những khác biệt có ý nghĩa giữa các mô hình chuyển từ chất lượng thô sơ sang tính cách sáng tạo. Câu hỏi không còn là "mô hình nào viết tốt nhất" và trở thành "giọng nói của mô hình nào phù hợp với dự án cụ thể này". Đó là một sự thay đổi cơ bản trong cách các nhà văn và nhóm sáng tạo nên suy nghĩ về việc lựa chọn AI.

Các mô hình sáng tạo chuyên biệt là không thể tránh khỏi. Kiến trúc đa năng đã đẩy chất lượng viết sáng tạo đi xa đáng kể, nhưng bước nhảy vọt thực sự tiếp theo sẽ đến từ các mô hình được điều chỉnh rõ ràng cho cấu trúc tường thuật, tính nhất quán của nhân vật, tính xác thực của đối thoại hoặc hình thức thơ ca. Tôi hy vọng ít nhất một phòng thí nghiệm lớn sẽ xuất xưởng một mô hình chuyên gia sáng tạo vào nửa cuối năm nay—một mô hình cam kết hoàn toàn với khả năng văn học thay vì cố gắng giải toán, viết mã và kể chuyện cùng một lúc. Khi điều đó xảy ra, nó sẽ thiết lập lại đỉnh của bảng xếp hạng này qua đêm.

Các mô hình trọng số mở sẽ đóng khoảng cách còn lại. Sự hiện diện mười mô hình của DeepSeek là chỉ số hàng đầu. Khi các lựa chọn thay thế mở tiếp cận sự ngang bằng với các hệ thống độc quyền trong các tiêu chuẩn sáng tạo, kinh tế học của việc viết hỗ trợ bởi AI thay đổi đáng kể. Các nhà văn, hãng phim và nhà xuất bản có quyền truy cập vào AI sáng tạo hàng đầu mà không cần giá mỗi token, thay đổi đường cong chấp nhận và mối quan hệ cơ bản giữa các nhà văn con người và các công cụ AI.

Biên giới thực sự là sự phối hợp, không phải sự cô lập. Công việc sáng tạo tinh vi nhất mà tôi thấy gần đây không sử dụng một mô hình duy nhất—nó sử dụng ba hoặc bốn theo trình tự. Gemini cho ý tưởng ban đầu và khám phá phong cách. Claude cho sự tinh tế về cảm xúc và đánh bóng đối thoại. DeepSeek hoặc Qwen cho các quan điểm văn hóa thay thế. Grok khi bản thảo cần sự sắc sảo. Tương lai không phải là về việc trao vương miện cho một mô hình làm vua. Đó là về việc học cách chỉ huy một ban nhạc, khớp tính cách sáng tạo của từng mô hình với đúng thời điểm trong quá trình viết. Những nhà văn tìm ra điều này trước tiên sẽ tạo ra tác phẩm cảm thấy khác biệt với bất cứ điều gì một mô hình đơn lẻ—hoặc một con người đơn lẻ—có thể đạt được một mình.

Chọn Đối Tác Sáng Tạo Của Bạn

Sau nhiều năm viết cùng với các mô hình này, đây là những gì tôi đã học được về việc khớp đúng công cụ với đúng nhiệm vụ:

Sự Linh Hoạt

Gemini 3 Pro thích nghi với bất kỳ thể loại nào, bất kỳ hình thức nào, bất kỳ tông giọng nào. Khi bản tóm tắt không xác định hoặc dự án đòi hỏi phạm vi, hãy bắt đầu ở đây.

Chiều Sâu Cảm Xúc

Claude Opus 4.6 viết với sự kiềm chế và cảm xúc chân thật. Cho đối thoại, công việc nhân vật và văn xuôi nơi những gì không nói ra quan trọng nhất.

Tốc độ & Chất lượng

Gemini 3 Flash chứng minh nhanh không có nghĩa là tệ hơn. Cho soạn thảo lặp đi lặp lại, các dự án khối lượng lớn và tạo mẫu nhanh các ý tưởng tường thuật.

Cá Tính

Grok 4.1 chấp nhận những rủi ro sáng tạo mà các mô hình khác sẽ không làm. Cho tiểu thuyết cần sự sắc sảo, hài hước và các nhân vật cảm thấy sống động thay vì được lắp ráp.

Doanh nghiệp

GPT-4.5 / GPT-5.1 cung cấp đầu ra được đánh bóng, đáng tin cậy tích hợp vào các quy trình làm việc hiện có. Khi sự nhất quán và an toàn thương hiệu quan trọng như sự sáng tạo.

Mã Nguồn Mở

DeepSeek / Qwen: tự lưu trữ, tinh chỉnh cho miền của bạn. Khi bạn cần AI sáng tạo ở quy mô lớn mà không có chi phí mỗi token, kinh tế học là không thể đánh bại.

Không có AI sáng tạo tốt nhất duy nhất. Có những giọng nói đang phát triển với những điểm mạnh khác nhau, và sức mạnh thực sự nằm ở việc biết giọng nói nào phục vụ khoảnh khắc nào trong câu chuyện bạn đang cố gắng kể.

Nguồn Dữ Liệu: Bảng xếp hạng từ Bảng Xếp Hạng Viết Sáng Tạo AI Arena, ngày 6 tháng 2 năm 2026.

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard