AIクリエイティブライティングアリーナリーダーボード — 2026年2月

核心的洞察

クリエイティブライティングとは、生の知性がセンス、抑制、そして正しいことをあえて言わない勇気に頭を下げる場所です。

AIに物語を語らせて3年。要約でも、あらすじでもなく、本当のフィクションです。登場人物が部屋に入ってくると、温度が変わるのを感じるような種類のものです。その数年間、私はこのリーダーボードが好奇心の対象から、文学的能力の正真正銘のバロメーターへと変化するのを見てきました。2026年2月は、これまでで最も興味深い変化をもたらしました。静かに到着し、急速に上昇し、ほんの数週間前には永続的と思われたギャップを縮めた、真新しいモデルです。これが全体像です——これらを毎日扱っている人間によってランク付けされ、分析され、文脈に沿って配置された60のモデル。

クリエイティブライティング・リーダーボード

コードには構文があります。数学には証明があります。しかし、クリエイティブライティングには声があります——リズム、驚き、感情的な共鳴。これがクリエイティブライティングアリーナです。AI評価における最も過酷なベンチマークであり、実際に人々の心を動かす物語をどれだけうまく語れるかによって60のモデルがランク付けされています。2026年2月時点での状況は以下の通りです。

順位	モデル	スコア	票数	組織
🥇	Gemini 3 Pro	1490	4,861	Google
🥈	Claude Opus 4 6	1478	347	Anthropic
🥉	Claude Opus 4 5 20251101 Thinking 32k	1459	3,667	Anthropic
#4	Claude Opus 4 5 20251101	1457	4,382	Anthropic
#5	Gemini 3 Flash	1456	3,678	Google
#6	Gemini 2.5 Pro	1450	12,564	Google
#7	Claude Sonnet 4 5 20250929	1447	5,769	Anthropic
#8	Gemini 3 Flash (thinking Minimal)	1447	2,253	Google
#9	Claude Opus 4 1 20250805 Thinking 16k	1445	6,651	Anthropic
#10	Claude Sonnet 4 5 20250929 Thinking 32k	1442	6,015	Anthropic
#11	Claude Opus 4 1 20250805	1440	9,807	Anthropic
#12	Gpt 4.5 Preview 2025 02 27	1438	2,618	OpenAI
#13	Grok 4.1 Thinking	1434	4,819	xAI
#14	Gpt 5.1 High	1434	4,213	OpenAI
#15	Claude Opus 4 20250514 Thinking 16k	1428	4,750	Anthropic
#16	Grok 4.1	1427	5,119	xAI
#17	Chatgpt 4o Latest 20250326	1422	11,146	OpenAI
#18	Ernie 5.0 Preview 1203	1420	1,477	Baidu
#19	Claude Opus 4 20250514	1419	5,794	Anthropic
#20	Ernie 5.0 0110	1418	1,622	Baidu
#21	Kimi K2.5 Thinking	1418	1,059	Moonshot
#22	Deepseek V3.1 Terminus	1411	458	DeepSeek
#23	Gpt 5.1	1411	4,512	OpenAI
#24	Ernie 5.0 Preview 1022	1411	662	Baidu
#25	Deepseek V3.1 Thinking	1410	1,720	DeepSeek
#26	Grok 4 1 Fast Reasoning	1404	3,798	xAI
#27	Glm 4.7	1403	1,797	Z.ai
#28	Deepseek V3.2 Exp	1403	1,500	DeepSeek
#29	Gpt 4.1 2025 04 14	1402	6,858	OpenAI
#30	Glm 4.6	1402	4,764	Z.ai
#31	Kimi K2.5 Instant	1402	427	Moonshot
#32	Grok 3 Preview 02 24	1402	4,972	xAI
#33	Deepseek V3.2	1399	3,529	DeepSeek
#34	Gemini 2.5 Flash	1398	12,294	Google
#35	Gpt 5.2	1398	1,679	OpenAI
#36	Grok 4 0709	1397	5,559	xAI
#37	Qwen3 Max Preview	1396	3,713	Alibaba
#38	Claude Sonnet 4 20250514 Thinking 32k	1396	4,582	Anthropic
#39	Deepseek V3.1	1395	2,082	DeepSeek
#40	Qwen3 Max 2025 09 23	1395	1,154	Alibaba
#41	Claude 3 7 Sonnet 20250219 Thinking 32k	1395	5,472	Anthropic
#42	Deepseek V3.2 Exp Thinking	1395	1,154	DeepSeek
#43	Gpt 5 Chat	1394	4,010	OpenAI
#44	Gpt 5.2 High	1394	2,133	OpenAI
#45	Kimi K2 Thinking Turbo	1393	4,520	Moonshot
#46	Deepseek V3 0324	1391	6,338	DeepSeek
#47	Deepseek V3.2 Thinking	1390	3,113	DeepSeek
#48	Deepseek R1 0528	1388	2,660	DeepSeek
#49	Claude Sonnet 4 20250514	1385	5,328	Anthropic
#50	Qwen3 235b A22b Instruct 2507	1384	9,102	Alibaba
#51	O3 2025 04 16	1384	8,014	OpenAI
#52	O1 2024 12 17	1383	4,646	OpenAI
#53	Hunyuan T1 20250711	1382	642	Tencent
#54	Grok 4 Fast Chat	1382	995	xAI
#55	Gemini 2.5 Flash Preview 09 2025	1382	4,285	Google
#56	Mistral Medium 2508	1382	8,527	Mistral
#57	Claude Haiku 4 5 20251001	1382	5,754	Anthropic
#58	Deepseek V3.1 Terminus Thinking	1381	446	DeepSeek
#59	Grok 4 Fast Reasoning	1380	2,372	xAI
#60	Gpt 5 High	1379	4,330	OpenAI

2月の激変

最新データを抽出したとき、一つのエントリーが私の目に留まりました。Claude Opus 4.6が2位に座っています。Anthropicのモデルが上位にランクされることが珍しいからではありません——彼らは一貫してそうしてきました。しかし、このモデルは、背後にほとんど評価履歴がないまま2位に着地したからです。そのような初期のコンセンサスは稀です。それは、最初の波のテスターたち——ローンチから数時間以内にすべての新しいリリースで同一のプロンプトを実行する執念深い人々——が、その創造的な出力に真に異なる何かを見つけたことを意味します。

しかし、本当の話はそのギャップにあります。1月には、1位と2位の間の距離は余裕のある25ポイントでした。今は12です。Gemini 3 Proはまだ金を保持しており、その地位を正直に獲得しました。しかし、リードはたった一度の更新サイクルで半減しました。あなたがGoogleなら、その傾向は注意を要します。あなたがAnthropicなら、それはクリエイティブAIトレーニングへのアプローチが何か強力なものに収束しているという確認です。

一方、上位2つのすぐ下のモデルは大幅に入れ替わりました。Claude Opus 4.5の「思考」バリアントが3位に上がり、標準のOpus 4.5を4位に、Gemini 3 Flashを5位に押し下げました。Flashは先月まで3位を保持していました。表彰台は頂点だけで持ち主を変えているわけではありません——全体的に不安定です。そして、私の経験では、不安定さはブレイクスルーの前兆です。

圧倒的な高み

Gemini 3 Proは、自分が必要なものがまだわからないときに私が手を伸ばすモデルであり続けています。それを1位に保っているのは範囲です。ヘミングウェイのスタイルを求めれば、無駄のない筋肉質な散文を提供します。実験的なポストモダンフィクションを求めれば、一貫性を失うことなくレジスターを変えます。ヴィクトリア朝の書簡体、ハードボイルドなノワール、マジックリアリズム、児童文学——Geminiは、表面的な模倣ではなく、形式の真の理解を示唆する方法でこれらの移行を処理します。Googleはトップ60に6つのモデルを配置し、Gemini 3 Flashが5位、Gemini 2.5 Proが6位で、トップに強力なトリオを形成しています。

Claudeは全く異なる生き物です。Geminiが範囲なら、Claudeは深さです。Anthropicのモデルは常に、機械に教えるのが最も難しい繊細さに優れていました。いつ沈黙にシーンを運ばせるか、いつ文を続けるのではなく切るべきか、いつキャラクターが言わないことが言うこと以上のものを明らかにするか。Opus 4.6はこれをさらに推し進めます。私のテストでは、真に魂が宿っていると感じられる対話を生み出しました。キャラクターはセリフを言っているのではなく——考えて、ためらって、何か重要なことがかかっているときに実際の人間がするように言葉を選んでいました。Anthropicは現在、トップ60に13のモデルを持ち、他のどの組織よりも多く、トップ11に5つが入っています。彼らの創造的能力のトレーニングへのアプローチが何であれ、それは彼らの製品ライン全体で機能しています。

ここで十分な注目を集めていない観察があります。拡張された推論——「思考（thinking）」モード——は、クリエイティブライティングを確実に向上させるわけではありません。パターンは一貫しておらず、深く示唆に富んでいます。

Claude Opusモデルの場合、思考バリアントはわずかに上位にランクされる傾向があります。Opus 4.5 Thinkingは3位対標準4位、Opus 4.1 Thinkingは9位対標準11位。Grok 4.1 Thinkingは標準バリアントを3ランク上回っています。しかし、他のアーキテクチャに切り替えると、パターンは逆転します——時には劇的に。DeepSeek v3.2-exp標準は28位に座っていますが、その思考バリアントは42位に落ちます。DeepSeek v3.1-terminus標準は22位ですが、その思考対応版は58位に急落します——36ランクの差です。GPT-5.2標準はGPT-5.2-highを打ち負かします。

これが私に伝えていることは重要です。クリエイティブライティングは主に推論の問題ではありません。それは美的な問題です。すでに強い文学的直感を持っているモデルにとって、拡張された思考はその直感を洗練させることができます——しっかりした最初のドラフトを見直す慎重な編集者のように。しかし、創造的な強みがより本能的でパターン主導のモデルにとって、熟考を強制することは、実際には散文を生き生きとさせる粗いエッジを磨き落としてしまいます。時には最初の反応が何かを捉え、追加の計算がそれを平凡なものにならしてしまうことがあります。クリエイティブな仕事に思考能力のあるモデルを使用する場合は、両方のモードをテストしてください。より多くの推論がより良い出力に等しいという仮定はここでは成り立ちません。いつ思考をオフにするかを知ることは、いつオンにするかを知ることよりも価値があるかもしれません。

満ち潮

トップ層の下では、物語は拡散と多様性です——そしてそれは間違いなく1位争いよりも重要です。

DeepSeekはトップ60に10のモデルを配置し、AnthropicとOpenAIに次いで3番目に代表的な組織となっています。彼らのv3.1およびv3.2バリアントは22位から58位に及び、さまざまな創造的能力の層をカバーしています。オープンウェイトプロジェクトとして、DeepSeekは独自のリーダーとは根本的に異なる何かを表しています。これらのモデルはダウンロードし、ローカルでホストし、特定の創造的なタスクのためにファインチューニングすることができます。AIライティングツールを構築している場合、または製品パイプラインに創造的な機能を統合している場合、DeepSeekはAPIのみのモデルが匹敵できない柔軟性を提供します。

より広い全体像はさらに印象的です。DeepSeek、Baidu、Moonshot、Alibaba、Z.ai、Tencentの間で、中国のAIラボは現在、60のランク付けされたモデルのうち22を占めています——リーダーボード全体の3分の1以上です。MoonshotのKimi K2.5はその思考バリアントで21位にデビューし、同社を3つのランクインに導きました。BaiduはERNIE 5.0ラインナップで3つのポジションを保持しています。AlibabaのQwen3は3つのバリアントがランクインしています。Z.aiのGLM-4.7は27位に座っています。これは収束ではありません——真の多様性です。異なるトレーニングデータ、異なる文化的背景、異なる文学的伝統が、異なる創造的感性を持つモデルを生み出します。私はERNIEが西洋で訓練されたモデルには思いつかないような比喩を作り出し、GLMが物語のペースを扱う方法が、文学的DNAが異なるからこそ新鮮に感じられるのを見てきました。世界のクリエイティブAIエコシステムはそれによってより豊かになっています。

OpenAIは11のモデルを保持していますが、彼らのクリエイティブな物語には興味深いサブプロットがあります。12位のGPT-4.5-previewは、14位のGPT-5.1-highと23位のGPT-5.1標準の両方を上回っています。時には、ニュアンスのために最適化されたモデルが、生の能力よりも繊細さを評価するタスクにおいて、技術的に優れた後継者を上回ることがあります。17位のChatGPT-4o-latestはこの点を強化します。会話に最適化されたモデルは、ストーリーテリングが根本的に会話的であるため、クリエイティブライティングにおいて固有の利点を持っています。あなたは答えを計算しているのではなく——声を維持しているのです。

Grokは、7つのモデルがランクインし、真のクリエイティブなアイデンティティを刻みました。Claudeが感情的知性に優れているところで、Grokは感情的な正直さをもたらします。ユーモアはより鋭く、比喩はより大胆で、キャラクターは洗練されておらず、より生き生きとしています。リスクを冒す文章——読者を生産的な方法で不快にさせるかもしれないフィクション——が欲しいとき、Grokは私が始めるところです。それは自分の声を最も恐れないモデルであり、クリエイティブライティングにおいて、大胆不敵さは重要です。56位のMistralのmedium-2508は、ボード上のヨーロッパの存在を表しています。53位のTencentのHunyuanは、中国からのもう一つの声を加えています。フィールドはかつてないほど広くなっています。

これからの行方

次に何が起こると思うかお話しします。なぜなら、このデータの傾向は特定の場所を指し示しているからです。

ギャップは圧縮され続けます。 1位と60位の間の広がりは約7.4パーセントです——歴史的基準ではタイトで、更新ごとに狭まっています。私たちは、モデル間の意味のある違いが生の品質から創造的な個性へと移行する閾値に近づいています。問いは「どのモデルが最もよく書けるか」ではなくなり、「どのモデルの声がこの特定のプロジェクトに合うか」になります。それは、作家やクリエイティブチームがAIの選択についてどう考えるべきかにおける根本的な変化です。

特化型クリエイティブモデルは避けられません。 汎用アーキテクチャはクリエイティブライティングの品質を驚くほど遠くまで押し上げましたが、次の本当の飛躍は、物語の構造、キャラクターの一貫性、対話の信憑性、または詩的な形式のために明示的に調整されたモデルから来るでしょう。少なくとも1つの主要な研究所が今年下半期までにクリエイティブスペシャリストモデルを出荷すると予想しています——数学を解き、コードを書き、物語を語ることを同時にしようとするのではなく、文学的能力に完全にコミットするもの。それが起こると、このリーダーボードのトップは一夜にしてリセットされるでしょう。

オープンウェイトモデルが残りのギャップを埋めるでしょう。 DeepSeekの10モデルの存在は先行指標です。オープンな代替案がクリエイティブなベンチマークでプロプライエタリなシステムとの同等性に近づくにつれて、AI支援ライティングの経済学は劇的に変化します。作家、スタジオ、出版社は、トークンごとの価格設定なしでトップクラスのクリエイティブAIにアクセスできるようになり、採用曲線と人間の作家とAIツールの間の基本的な関係が変わります。

真のフロンティアはオーケストレーションであり、孤立ではありません。 私が最近見た最も洗練されたクリエイティブな仕事は、単一のモデルを使用していません——3つか4つを順番に使用しています。初期のアイデア出しと文体の探索にはGemini。感情的な洗練と対話の研磨にはClaude。代替の文化的視点にはDeepSeekまたはQwen。ドラフトにエッジが必要なときはGrok。未来は1つのモデルを王に戴冠させることではありません。それはアンサンブルを指揮し、各モデルの創造的な個性を執筆プロセスの正しい瞬間に合わせることを学ぶことです。これを最初に見つけ出した作家は、単一のモデル——または単一の人間——が単独で達成できるものとは異なると感じる作品を生み出すでしょう。

クリエイティブパートナーの選び方

これらのモデルと一緒に何年も書いてきた後、正しいツールを正しいタスクに合わせることについて私が学んだことは次のとおりです。

多用途性

Gemini 3 Proは、あらゆるジャンル、あらゆる形式、あらゆるトーンに適応します。ブリーフが未定義の場合やプロジェクトが範囲を要求する場合は、ここから始めてください。

感情的な深さ

Claude Opus 4.6は抑制と真の感情を持って書きます。対話、キャラクターワーク、そして言われないことが最も重要な散文のために。

スピードと品質

Gemini 3 Flashは、速いことが悪いことを意味しないことを証明しています。反復的なドラフト作成、大量のプロジェクト、物語のアイデアの迅速なプロトタイピングのために。

個性

Grok 4.1は、他のモデルが取らないクリエイティブなリスクを取ります。エッジ、ユーモア、そして組み立てられたのではなく生きていると感じられるキャラクターが必要なフィクションのために。

エンタープライズ

GPT-4.5 / GPT-5.1は、既存のワークフローに統合される洗練された信頼性の高い出力を提供します。一貫性とブランドの安全性が創造性と同じくらい重要な場合。

オープンソース

DeepSeek / Qwen：自分でホストし、ドメインに合わせてファインチューニングします。トークンごとのコストなしで大規模にクリエイティブAIが必要な場合、経済性は比類のないものです。

単一の最高のクリエイティブAIはありません。異なる強みを持つ進化する声があり、本当の力は、あなたが語ろうとしている物語のどの瞬間にどの声が役立つかを知ることにかかっています。

データソース：Arena AIクリエイティブライティングリーダーボードからのランキング、2026年2月6日。

Tags: #creative-writing #storytelling #ai-writing #gemini #claude #grok #deepseek #leaderboard

AIクリエイティブライティングアリーナリーダーボード — 2026年2月

クリエイティブライティング・リーダーボード

2月の激変

圧倒的な高み

満ち潮

これからの行方