創意寫作是原始智慧向品味、克制以及留白的勇氣致敬的地方。
我花了三年時間要求 AI 給我講故事。不是摘要,不是大綱——而是真正的小說。是那種角色走進房間,你能感覺到溫度變化的小說。在這幾年裡,我看著這個排行榜從一個好奇的嘗試轉變為衡量文學能力的真實晴雨表。2026年2月帶來了迄今為止最有趣的轉變:一個全新的模型悄然登場,排名迅速攀升,並縮小了就在幾週前看起來還不可逾越的差距。這裡是全景圖——由一位每天與這些模型打交道的人對六十個模型進行的排名、分析和背景解讀。
創意寫作排行榜
程式碼有語法。數學有證明。但創意寫作有聲音——節奏、驚喜、情感共鳴。這就是創意寫作競技場,AI 評估中最苛刻的基準測試,六十個模型根據它們講故事打動人心的能力進行排名。以下是截至2026年2月的最新情況。
| 排名 | 模型 | 得分 | 票數 | 機構 |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
二月的變局
當我提取最新資料時,有一個項目讓我停了下來:Claude Opus 4.6 位列第二。這並不是因為 Anthropic 的模型排名高有什麼不尋常——他們一直表現穩定。而是因為這個模型在幾乎沒有任何評估歷史的情況下就登上了第二的位置。這種早期的共識是罕見的。這意味著第一批測試者——那些在發布幾小時內就用相同提示詞測試每個新版本的狂熱者——在其創意產出中發現了一些真正與眾不同的東西。
不過,真正的故事在於差距。一月份,第一名和第二名之間的差距還是舒適的25分。現在只有12分。Gemini 3 Pro 仍然佔據金牌位置,並且它是實至名歸的。但在一個更新週期內,領先優勢已經減半。如果你是 Google,這種趨勢需要引起注意。如果你是 Anthropic,這證實了你們對創意 AI 訓練的方法正在匯聚成某種強大的力量。
與此同時,前兩名之下的模型也發生了重大洗牌。Claude Opus 4.5 的思考變體升至第三,將標準版 Opus 4.5 擠到了第四,而 Gemini 3 Flash 則跌至第五。就在上個月,Flash 還排在第三位。領獎台不僅在頂端易手——整個格局都不穩定。而根據我的經驗,不穩定往往是突破的前兆。
制高點
Gemini 3 Pro 仍然是我在不知道自己需要什麼時會首選的模型。讓它保持在第一位的是它的廣度:要求它寫海明威風格,它能交出簡潔有力的散文。要求它寫實驗性的後現代小說,它能在不失連貫性的前提下轉換語域。維多利亞時代的書信體、硬漢派黑色小說、魔幻現實主義、兒童文學——Gemini 處理這些轉換的方式表明它真正理解形式,而不僅僅是表面模仿。Google 在前六十名中佔據了六個席位,Gemini 3 Flash 排名第五,Gemini 2.5 Pro 排名第六,構成了一個強大的前三甲。
Claude 則完全是另一種生物。如果說 Gemini 代表廣度,那麼 Claude 就代表深度。Anthropic 的模型一直擅長機器最難學會的微妙之處:何時讓沉默主導場景,何時句子應該中斷而不是繼續,何時角色沒說的話比說出來的更能揭示問題。Opus 4.6 將這一點推得更遠。在我的測試中,它產生的對話感覺真正有人味。角色不是在唸台詞——他們在思考,猶豫,像真人在重要關頭那樣斟酌詞句。Anthropic 現在在前六十名中擁有十三個模型,比任何其他機構都多,其中五個進入了前十一名。無論他們對創意能力的訓練方法是什麼,這都在他們的整個產品線上發揮作用。
這裡有一個沒有得到足夠重視的觀察結果:擴展推理——即「思考」模式——並不能可靠地改善創意寫作。這種模式是不一致的,而且非常有啟發性。
對於 Claude Opus 模型,思考變體的排名往往略高:Opus 4.5 Thinking 排名第三,標準版排名第四;Opus 4.1 Thinking 排名第九,標準版排名第十一。Grok 4.1 Thinking 比其標準變體高出三個位置。但換到其他架構,模式就會逆轉——有時甚至非常劇烈。DeepSeek v3.2-exp 標準版排在第28位,而其思考變體跌至第42位。DeepSeek v3.1-terminus 標準版在第22位;其思考對應版本跌至第58位——差距達36個位置。GPT-5.2 標準版擊敗了 GPT-5.2-high。
這告訴我很重要的一點:創意寫作主要不是一個推理問題。它是一個美學問題。對於已經擁有強烈文學直覺的模型,擴展思考可以提煉這些直覺——就像一位細心的編輯審閱一份紮實的初稿。但對於那些創意優勢更多在於本能和模式驅動的模型,強行深思熟慮反而會打磨掉讓散文感覺鮮活的棱角。有時,第一個反應捕捉到的東西,額外的運算反而會將其平庸化。如果你使用支援思考的模型進行創意工作,請測試兩種模式。更多的推理等於更好的輸出這一假設在這裡並不成立,知道何時關閉思考可能比知道何時開啟更有價值。
漲潮
在頂層之下,故事的主題是擴散和多樣性——這可能比爭奪第一名更重要。
DeepSeek 在前六十名中佔據了十個席位,使其成為繼 Anthropic 和 OpenAI 之後代表性第三高的機構。他們的 v3.1 和 v3.2 變體跨越了第22到第58位,涵蓋了一系列的創意能力層級。作為一個開放權重的專案,DeepSeek 代表了與專有領導者根本不同的東西:這些模型可以下載、本地託管,並針對特定的創意任務進行微調。如果你正在構建 AI 寫作工具或將創意能力集成到產品流程中,DeepSeek 提供了 API 模型無法比擬的靈活性。
更廣泛的圖景更為引人注目。在 DeepSeek、百度、Moonshot、阿里巴巴、Z.ai 和騰訊之間,中國 AI 實驗室現在佔據了六十個排名模型中的二十二個——超過整個排行榜的三分之一。Moonshot 的 Kimi K2.5 以其思考變體首次亮相於第21位,使該公司的上榜數達到三個。百度 憑藉其 ERNIE 5.0 陣容佔據三個位置。阿里巴巴的 Qwen3 有三個變體上榜。Z.ai 的 GLM-4.7 位於第27位。這不是趨同——這是真正的多樣性。不同的訓練資料、不同的文化背景和不同的文學傳統產生了具有獨特創意敏感性的模型。我見過 ERNIE 創造出西方訓練的模型想不到的隱喻,見過 GLM 處理敘事節奏的方式讓人感覺耳目一新,正是因為其文學基因不同。全球創意 AI 生態系統因此而更加豐富。
OpenAI 擁有十一個模型,儘管他們的創意故事有一個有趣的插曲。排名第12的 GPT-4.5-preview 領先於排名第14的 GPT-5.1-high 和排名第23的 GPT-5.1 標準版。有時,一個為細微差別而最佳化的模型會在重視微妙而非原始能力的任務上勝過其技術上更優越的繼任者。排名第17的 ChatGPT-4o-latest 強化了這一點:針對對話最佳化的模型在創意寫作中具有內在優勢,因為講故事從根本上說是對話性的。你不是在計算答案——你是在維持一種聲音。
Grok 憑藉七個上榜模型確立了真正的創意身分。Claude 擅長情商,Grok 則帶來情感上的誠實。幽默更尖銳,隱喻更大膽,角色不那麼圓滑但更鮮活。當我想要冒險的寫作——那些可能讓讀者在某種程度上感到不舒服的小說時——Grok 是我的首選。它是最不害怕自己聲音的模型,而在創意寫作中,無畏很重要。Mistral 的 medium-2508 排在第56位,代表了歐洲在榜單上的存在。騰訊的混元 排在第53位,增加了另一個來自中國的聲音。這個領域從未如此寬廣。
未來走向
我會告訴你我認為接下來會發生什麼,因為這些資料中的趨勢指向了特定的方向。
差距將持續壓縮。 第一名和第六十名之間的差距大約是7.4%——按照歷史標準來看很緊,而且隨著每一次更新都在縮小。我們正在接近一個臨界點,即模型之間的有意義差異從原始品質轉向創意個性。問題不再是「哪個模型寫得最好」,而是變成了「哪個模型的聲音適合這個特定專案」。這對於作家和創意團隊如何思考 AI 選擇來說是一個根本性的變化。
專業創意模型不可避免。 通用架構已經將創意寫作品質推到了驚人的高度,但下一個真正的飛躍將來自專門為敘事結構、角色一致性、對話真實性或詩歌形式調整的模型。我預計至少有一個主要實驗室會在今年下半年推出創意專用模型——一個完全致力於文學能力,而不是試圖同時解決數學、編寫程式碼和講故事的模型。當這種情況發生時,它將一夜之間重置這個排行榜的榜首。
開放權重模型將縮小剩餘差距。 DeepSeek 的十個模型是領先指標。隨著開放替代方案在創意基準測試中接近專有系統,AI 輔助寫作的經濟學將發生巨大變化。作家、工作室和出版商可以獲得頂級的創意 AI,而無需按 token 付費,這將改變採用曲線以及人類作家與 AI 工具之間的基本關係。
真正的疆域是編排,而不是孤立。 我最近見過的最複雜的創意作品並沒有使用單一模型——它按順序使用了三到四個。Gemini 用於初步構思和風格探索。Claude 用於情感提煉和對話潤色。DeepSeek 或 Qwen 用於替代文化視角。當草稿需要棱角時使用 Grok。未來不是關於加冕一個模型為王。而是關於學習指揮一個樂團,將每個模型的創意個性與寫作過程中的正確時刻相匹配。最早弄清楚這一點的作家將創作出感覺不同於單一模型——或單一透過人類——所能獨立完成的作品。
選擇你的創意夥伴
在與這些模型一起寫作多年後,以下是我學到的關於將正確的工具與正確的任務相匹配的經驗:
多功能性
Gemini 3 Pro 適應任何流派、任何形式、任何基調。當簡報不明確或專案要求廣泛時,從這裡開始。
情感深度
Claude Opus 4.6 寫作克制且情感真摯。適用於對話、角色塑造以及那些留白最重要的散文。
速度與品質
Gemini 3 Flash 證明了快並不意味著差。適用於迭代起草、大批量專案和敘事創意的快速原型設計。
個性
Grok 4.1 承擔其他模型不會承擔的創意風險。適用於需要棱角、幽默和感覺鮮活而非拼湊角色的虛構作品。
沒有單一最好的創意 AI。只有具有不同優勢的不斷進化的聲音,真正的力量在於知道哪種聲音服務於你試圖講述的故事中的哪個時刻。
資料來源:Arena AI 創意寫作排行榜,2026年2月6日。
討論
0 條評論留下評論
成為第一個分享您想法的人!