创意写作是原始智能向品味、克制以及留白的勇气致敬的地方。
我花了三年时间要求 AI 给我讲故事。不是摘要,不是大纲——而是真正的小说。是那种角色走进房间,你能感觉到温度变化的小说。在这几年里,我看着这个排行榜从一个好奇的尝试转变为衡量文学能力的真实晴雨表。2026年2月带来了迄今为止最有趣的转变:一个全新的模型悄然登场,排名迅速攀升,并缩小了就在几周前看起来还不可逾越的差距。这里是全景图——由一位每天与这些模型打交道的人对六十个模型进行的排名、分析和背景解读。
创意写作排行榜
代码有语法。数学有证明。但创意写作有声音——节奏、惊喜、情感共鸣。这就是创意写作竞技场,AI 评估中最苛刻的基准测试,六十个模型根据它们讲故事打动人心的能力进行排名。以下是截至2026年2月的最新情况。
| 排名 | 模型 | 得分 | 票数 | 机构 |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1490 | 4,861 | |
🥈 | Claude Opus 4 6 | 1478 | 347 | Anthropic |
🥉 | Claude Opus 4 5 20251101 Thinking 32k | 1459 | 3,667 | Anthropic |
#4 | Claude Opus 4 5 20251101 | 1457 | 4,382 | Anthropic |
#5 | Gemini 3 Flash | 1456 | 3,678 | |
#6 | Gemini 2.5 Pro | 1450 | 12,564 | |
#7 | Claude Sonnet 4 5 20250929 | 1447 | 5,769 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1447 | 2,253 | |
#9 | Claude Opus 4 1 20250805 Thinking 16k | 1445 | 6,651 | Anthropic |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1442 | 6,015 | Anthropic |
#11 | Claude Opus 4 1 20250805 | 1440 | 9,807 | Anthropic |
#12 | Gpt 4.5 Preview 2025 02 27 | 1438 | 2,618 | OpenAI |
#13 | Grok 4.1 Thinking | 1434 | 4,819 | xAI |
#14 | Gpt 5.1 High | 1434 | 4,213 | OpenAI |
#15 | Claude Opus 4 20250514 Thinking 16k | 1428 | 4,750 | Anthropic |
#16 | Grok 4.1 | 1427 | 5,119 | xAI |
#17 | Chatgpt 4o Latest 20250326 | 1422 | 11,146 | OpenAI |
#18 | Ernie 5.0 Preview 1203 | 1420 | 1,477 | Baidu |
#19 | Claude Opus 4 20250514 | 1419 | 5,794 | Anthropic |
#20 | Ernie 5.0 0110 | 1418 | 1,622 | Baidu |
#21 | Kimi K2.5 Thinking | 1418 | 1,059 | Moonshot |
#22 | Deepseek V3.1 Terminus | 1411 | 458 | DeepSeek |
#23 | Gpt 5.1 | 1411 | 4,512 | OpenAI |
#24 | Ernie 5.0 Preview 1022 | 1411 | 662 | Baidu |
#25 | Deepseek V3.1 Thinking | 1410 | 1,720 | DeepSeek |
#26 | Grok 4 1 Fast Reasoning | 1404 | 3,798 | xAI |
#27 | Glm 4.7 | 1403 | 1,797 | Z.ai |
#28 | Deepseek V3.2 Exp | 1403 | 1,500 | DeepSeek |
#29 | Gpt 4.1 2025 04 14 | 1402 | 6,858 | OpenAI |
#30 | Glm 4.6 | 1402 | 4,764 | Z.ai |
#31 | Kimi K2.5 Instant | 1402 | 427 | Moonshot |
#32 | Grok 3 Preview 02 24 | 1402 | 4,972 | xAI |
#33 | Deepseek V3.2 | 1399 | 3,529 | DeepSeek |
#34 | Gemini 2.5 Flash | 1398 | 12,294 | |
#35 | Gpt 5.2 | 1398 | 1,679 | OpenAI |
#36 | Grok 4 0709 | 1397 | 5,559 | xAI |
#37 | Qwen3 Max Preview | 1396 | 3,713 | Alibaba |
#38 | Claude Sonnet 4 20250514 Thinking 32k | 1396 | 4,582 | Anthropic |
#39 | Deepseek V3.1 | 1395 | 2,082 | DeepSeek |
#40 | Qwen3 Max 2025 09 23 | 1395 | 1,154 | Alibaba |
#41 | Claude 3 7 Sonnet 20250219 Thinking 32k | 1395 | 5,472 | Anthropic |
#42 | Deepseek V3.2 Exp Thinking | 1395 | 1,154 | DeepSeek |
#43 | Gpt 5 Chat | 1394 | 4,010 | OpenAI |
#44 | Gpt 5.2 High | 1394 | 2,133 | OpenAI |
#45 | Kimi K2 Thinking Turbo | 1393 | 4,520 | Moonshot |
#46 | Deepseek V3 0324 | 1391 | 6,338 | DeepSeek |
#47 | Deepseek V3.2 Thinking | 1390 | 3,113 | DeepSeek |
#48 | Deepseek R1 0528 | 1388 | 2,660 | DeepSeek |
#49 | Claude Sonnet 4 20250514 | 1385 | 5,328 | Anthropic |
#50 | Qwen3 235b A22b Instruct 2507 | 1384 | 9,102 | Alibaba |
#51 | O3 2025 04 16 | 1384 | 8,014 | OpenAI |
#52 | O1 2024 12 17 | 1383 | 4,646 | OpenAI |
#53 | Hunyuan T1 20250711 | 1382 | 642 | Tencent |
#54 | Grok 4 Fast Chat | 1382 | 995 | xAI |
#55 | Gemini 2.5 Flash Preview 09 2025 | 1382 | 4,285 | |
#56 | Mistral Medium 2508 | 1382 | 8,527 | Mistral |
#57 | Claude Haiku 4 5 20251001 | 1382 | 5,754 | Anthropic |
#58 | Deepseek V3.1 Terminus Thinking | 1381 | 446 | DeepSeek |
#59 | Grok 4 Fast Reasoning | 1380 | 2,372 | xAI |
#60 | Gpt 5 High | 1379 | 4,330 | OpenAI |
二月的变局
当我提取最新数据时,有一个条目让我停了下来:Claude Opus 4.6 位列第二。这并不是因为 Anthropic 的模型排名高有什么不寻常——他们一直表现稳定。而是因为这个模型在几乎没有任何评估历史的情况下就登上了第二的位置。这种早期的共识是罕见的。这意味着第一批测试者——那些在发布几小时内就用相同提示词测试每个新版本的狂热者——在其创意输出中发现了一些真正与众不同的东西。
不过,真正的故事在于差距。一月份,第一名和第二名之间的差距还是舒适的25分。现在只有12分。Gemini 3 Pro 仍然占据金牌位置,并且它是实至名归的。但在一个更新周期内,领先优势已经减半。如果你是 Google,这种趋势需要引起注意。如果你是 Anthropic,这证实了你们对创意 AI 训练的方法正在汇聚成某种强大的力量。
与此同时,前两名之下的模型也发生了重大洗牌。Claude Opus 4.5 的思考变体升至第三,将标准版 Opus 4.5 挤到了第四,而 Gemini 3 Flash 则跌至第五。就在上个月,Flash 还排在第三位。领奖台不仅在顶端易手——整个格局都不稳定。而根据我的经验,不稳定往往是突破的前兆。
制高点
Gemini 3 Pro 仍然是我在不知道自己需要什么时会首选的模型。让它保持在第一位的是它的广度:要求它写海明威风格,它能交出简洁有力的散文。要求它写实验性的后现代小说,它能在不失连贯性的前提下转换语域。维多利亚时代的书信体、硬汉派黑色小说、魔幻现实主义、儿童文学——Gemini 处理这些转换的方式表明它真正理解形式,而不仅仅是表面模仿。Google 在前六十名中占据了六个席位,Gemini 3 Flash 排名第五,Gemini 2.5 Pro 排名第六,构成了一个强大的前三甲。
Claude 则完全是另一种生物。如果说 Gemini 代表广度,那么 Claude 就代表深度。Anthropic 的模型一直擅长机器最难学会的微妙之处:何时让沉默主导场景,何时句子应该中断而不是继续,何时角色没说的话比说出来的更能揭示问题。Opus 4.6 将这一点推得更远。在我的测试中,它产生的对话感觉真正有人味。角色不是在念台词——他们在思考,犹豫,像真人在重要关头那样斟酌词句。Anthropic 现在在前六十名中拥有十三个模型,比任何其他机构都多,其中五个进入了前十一名。无论他们对创意能力的训练方法是什么,这都在他们的整个产品线上发挥作用。
这里有一个没有得到足够重视的观察结果:扩展推理——即“思考”模式——并不能可靠地改善创意写作。这种模式是不一致的,而且非常有启发性。
对于 Claude Opus 模型,思考变体的排名往往略高:Opus 4.5 Thinking 排名第三,标准版排名第四;Opus 4.1 Thinking 排名第九,标准版排名第十一。Grok 4.1 Thinking 比其标准变体高出三个位置。但换到其他架构,模式就会逆转——有时甚至非常剧烈。DeepSeek v3.2-exp 标准版排在第28位,而其思考变体跌至第42位。DeepSeek v3.1-terminus 标准版在第22位;其思考对应版本跌至第58位——差距达36个位置。GPT-5.2 标准版击败了 GPT-5.2-high。
这告诉我很重要的一点:创意写作主要不是一个推理问题。它是一个审美问题。对于已经拥有强烈文学直觉的模型,扩展思考可以提炼这些直觉——就像一位细心的编辑审阅一份扎实的初稿。但对于那些创意优势更多在于本能和模式驱动的模型,强行深思熟虑反而会打磨掉让散文感觉鲜活的棱角。有时,第一个反应捕捉到的东西,额外的计算反而会将其平庸化。如果你使用支持思考的模型进行创意工作,请测试两种模式。更多的推理等于更好的输出这一假设在这里并不成立,知道何时关闭思考可能比知道何时开启更有价值。
涨潮
在顶层之下,故事的主题是扩散和多样性——这可能比争夺第一名更重要。
DeepSeek 在前六十名中占据了十个席位,使其成为继 Anthropic 和 OpenAI 之后代表性第三高的机构。他们的 v3.1 和 v3.2 变体跨越了第22到第58位,涵盖了一系列的创意能力层级。作为一个开放权重的项目,DeepSeek 代表了与专有领导者根本不同的东西:这些模型可以下载、本地托管,并针对特定的创意任务进行微调。如果你正在构建 AI 写作工具或将创意能力集成到产品流程中,DeepSeek 提供了 API 模型无法比拟的灵活性。
更广泛的图景更为引人注目。在 DeepSeek、百度、Moonshot、阿里巴巴、Z.ai 和腾讯之间,中国 AI 实验室现在占据了六十个排名模型中的二十二个——超过整个排行榜的三分之一。Moonshot 的 Kimi K2.5 以其思考变体首次亮相于第21位,使该公司的上榜数达到三个。百度 凭借其 ERNIE 5.0 阵容占据三个位置。阿里巴巴的 Qwen3 有三个变体上榜。Z.ai 的 GLM-4.7 位于第27位。这不是趋同——这是真正的多样性。不同的训练数据、不同的文化背景和不同的文学传统产生了具有独特创意敏感性的模型。我见过 ERNIE 创造出西方训练的模型想不到的隐喻,见过 GLM 处理叙事节奏的方式让人感觉耳目一新,正是因为其文学基因不同。全球创意 AI 生态系统因此而更加丰富。
OpenAI 拥有十一个模型,尽管他们的创意故事有一个有趣的插曲。排名第12的 GPT-4.5-preview 领先于排名第14的 GPT-5.1-high 和排名第23的 GPT-5.1 标准版。有时,一个为细微差别而优化的模型会在重视微妙而非原始能力的任务上胜过其技术上更优越的继任者。排名第17的 ChatGPT-4o-latest 强化了这一点:针对对话优化的模型在创意写作中具有内在优势,因为讲故事从根本上说是对话性的。你不是在计算答案——你是在维持一种声音。
Grok 凭借七个上榜模型确立了真正的创意身份。Claude 擅长情商,Grok 则带来情感上的诚实。幽默更尖锐,隐喻更大胆,角色不那么圆滑但更鲜活。当我想要冒险的写作——那些可能让读者在某种程度上感到不舒服的小说时——Grok 是我的首选。它是最不害怕自己声音的模型,而在创意写作中,无畏很重要。Mistral 的 medium-2508 排在第56位,代表了欧洲在榜单上的存在。腾讯的混元 排在第53位,增加了另一个来自中国的声音。这个领域从未如此宽广。
未来走向
我会告诉你我认为接下来会发生什么,因为这些数据中的趋势指向了特定的方向。
差距将持续压缩。 第一名和第六十名之间的差距大约是7.4%——按照历史标准来看很紧,而且随着每一次更新都在缩小。我们正在接近一个临界点,即模型之间的有意义差异从原始质量转向创意个性。问题不再是“哪个模型写得最好”,而是变成了“哪个模型的声音适合这个特定项目”。这对于作家和创意团队如何思考 AI 选择来说是一个根本性的变化。
专业创意模型不可避免。 通用架构已经将创意写作质量推到了惊人的高度,但下一个真正的飞跃将来自专门为叙事结构、角色一致性、对话真实性或诗歌形式调整的模型。我预计至少有一个主要实验室会在今年下半年推出创意专用模型——一个完全致力于文学能力,而不是试图同时解决数学、编写代码和讲故事的模型。当这种情况发生时,它将一夜之间重置这个排行榜的榜首。
开放权重模型将缩小剩余差距。 DeepSeek 的十个模型是领先指标。随着开放替代方案在创意基准测试中接近专有系统,AI 辅助写作的经济学将发生巨大变化。作家、工作室和出版商可以获得顶级的创意 AI,而无需按 token 付费,这将改变采用曲线以及人类作家与 AI 工具之间的基本关系。
真正的疆域是编排,而不是孤立。 我最近见过的最复杂的创意作品并没有使用单一模型——它按顺序使用了三到四个。Gemini 用于初步构思和风格探索。Claude 用于情感提炼和对话润色。DeepSeek 或 Qwen 用于替代文化视角。当草稿需要棱角时使用 Grok。未来不是关于加冕一个模型为王。而是关于学习指挥一个乐团,将每个模型的创意个性与写作过程中的正确时刻相匹配。最早弄清楚这一点的作家将创作出感觉不同于单一模型——或单一通过人类——所能独立完成的作品。
选择你的创意伙伴
在与这些模型一起写作多年后,以下是我学到的关于将正确的工具与正确的任务相匹配的经验:
多功能性
Gemini 3 Pro 适应任何流派、任何形式、任何基调。当简报不明确或项目要求广泛时,从这里开始。
情感深度
Claude Opus 4.6 写作克制且情感真挚。适用于对话、角色塑造以及那些留白最重要的散文。
速度与质量
Gemini 3 Flash 证明了快并不意味着差。适用于迭代起草、大批量项目和叙事创意的快速原型设计。
个性
Grok 4.1 承担其他模型不会承担的创意风险。适用于需要棱角、幽默和感觉鲜活而非拼凑角色的虚构作品。
没有单一最好的创意 AI。只有具有不同优势的不断进化的声音,真正的力量在于知道哪种声音服务于你试图讲述的故事中的哪个时刻。
数据来源:Arena AI 创意写作排行榜,2026年2月6日。
讨论
0 条评论留下评论
成为第一个分享您想法的人!