AIクリエイティブライティングアリーナ リーダーボード — 2026年2月

核心的洞察

クリエイティブライティングとは、生の知性がセンス、抑制、そして正しいことをあえて言わない勇気に頭を下げる場所です。

AIに物語を語らせて3年。要約でも、あらすじでもなく、本当のフィクションです。登場人物が部屋に入ってくると、温度が変わるのを感じるような種類のものです。その数年間、私はこのリーダーボードが好奇心の対象から、文学的能力の正真正銘のバロメーターへと変化するのを見てきました。2026年2月は、これまでで最も興味深い変化をもたらしました。静かに到着し、急速に上昇し、ほんの数週間前には永続的と思われたギャップを縮めた、真新しいモデルです。これが全体像です——これらを毎日扱っている人間によってランク付けされ、分析され、文脈に沿って配置された60のモデル。

クリエイティブライティング・リーダーボード

コードには構文があります。数学には証明があります。しかし、クリエイティブライティングにはがあります——リズム、驚き、感情的な共鳴。これがクリエイティブライティングアリーナです。AI評価における最も過酷なベンチマークであり、実際に人々の心を動かす物語をどれだけうまく語れるかによって60のモデルがランク付けされています。2026年2月時点での状況は以下の通りです。

順位 モデル スコア 票数 組織
🥇
Gemini 3 Pro 14904,861Google
🥈
Claude Opus 4 6 1478347Anthropic
🥉
Claude Opus 4 5 20251101 Thinking 32k 14593,667Anthropic
#4
Claude Opus 4 5 20251101 14574,382Anthropic
#5
Gemini 3 Flash 14563,678Google
#6
Gemini 2.5 Pro 145012,564Google
#7
Claude Sonnet 4 5 20250929 14475,769Anthropic
#8
Gemini 3 Flash (thinking Minimal) 14472,253Google
#9
Claude Opus 4 1 20250805 Thinking 16k 14456,651Anthropic
#10
Claude Sonnet 4 5 20250929 Thinking 32k 14426,015Anthropic
#11
Claude Opus 4 1 20250805 14409,807Anthropic
#12
Gpt 4.5 Preview 2025 02 27 14382,618OpenAI
#13
Grok 4.1 Thinking 14344,819xAI
#14
Gpt 5.1 High 14344,213OpenAI
#15
Claude Opus 4 20250514 Thinking 16k 14284,750Anthropic
#16
Grok 4.1 14275,119xAI
#17
Chatgpt 4o Latest 20250326 142211,146OpenAI
#18
Ernie 5.0 Preview 1203 14201,477Baidu
#19
Claude Opus 4 20250514 14195,794Anthropic
#20
Ernie 5.0 0110 14181,622Baidu
#21
Kimi K2.5 Thinking 14181,059Moonshot
#22
Deepseek V3.1 Terminus 1411458DeepSeek
#23
Gpt 5.1 14114,512OpenAI
#24
Ernie 5.0 Preview 1022 1411662Baidu
#25
Deepseek V3.1 Thinking 14101,720DeepSeek
#26
Grok 4 1 Fast Reasoning 14043,798xAI
#27
Glm 4.7 14031,797Z.ai
#28
Deepseek V3.2 Exp 14031,500DeepSeek
#29
Gpt 4.1 2025 04 14 14026,858OpenAI
#30
Glm 4.6 14024,764Z.ai
#31
Kimi K2.5 Instant 1402427Moonshot
#32
Grok 3 Preview 02 24 14024,972xAI
#33
Deepseek V3.2 13993,529DeepSeek
#34
Gemini 2.5 Flash 139812,294Google
#35
Gpt 5.2 13981,679OpenAI
#36
Grok 4 0709 13975,559xAI
#37
Qwen3 Max Preview 13963,713Alibaba
#38
Claude Sonnet 4 20250514 Thinking 32k 13964,582Anthropic
#39
Deepseek V3.1 13952,082DeepSeek
#40
Qwen3 Max 2025 09 23 13951,154Alibaba
#41
Claude 3 7 Sonnet 20250219 Thinking 32k 13955,472Anthropic
#42
Deepseek V3.2 Exp Thinking 13951,154DeepSeek
#43
Gpt 5 Chat 13944,010OpenAI
#44
Gpt 5.2 High 13942,133OpenAI
#45
Kimi K2 Thinking Turbo 13934,520Moonshot
#46
Deepseek V3 0324 13916,338DeepSeek
#47
Deepseek V3.2 Thinking 13903,113DeepSeek
#48
Deepseek R1 0528 13882,660DeepSeek
#49
Claude Sonnet 4 20250514 13855,328Anthropic
#50
Qwen3 235b A22b Instruct 2507 13849,102Alibaba
#51
O3 2025 04 16 13848,014OpenAI
#52
O1 2024 12 17 13834,646OpenAI
#53
Hunyuan T1 20250711 1382642Tencent
#54
Grok 4 Fast Chat 1382995xAI
#55
Gemini 2.5 Flash Preview 09 2025 13824,285Google
#56
Mistral Medium 2508 13828,527Mistral
#57
Claude Haiku 4 5 20251001 13825,754Anthropic
#58
Deepseek V3.1 Terminus Thinking 1381446DeepSeek
#59
Grok 4 Fast Reasoning 13802,372xAI
#60
Gpt 5 High 13794,330OpenAI

2月の激変

最新データを抽出したとき、一つのエントリーが私の目に留まりました。Claude Opus 4.6が2位に座っています。Anthropicのモデルが上位にランクされることが珍しいからではありません——彼らは一貫してそうしてきました。しかし、このモデルは、背後にほとんど評価履歴がないまま2位に着地したからです。そのような初期のコンセンサスは稀です。それは、最初の波のテスターたち——ローンチから数時間以内にすべての新しいリリースで同一のプロンプトを実行する執念深い人々——が、その創造的な出力に真に異なる何かを見つけたことを意味します。

しかし、本当の話はそのギャップにあります。1月には、1位と2位の間の距離は余裕のある25ポイントでした。今は12です。Gemini 3 Proはまだ金を保持しており、その地位を正直に獲得しました。しかし、リードはたった一度の更新サイクルで半減しました。あなたがGoogleなら、その傾向は注意を要します。あなたがAnthropicなら、それはクリエイティブAIトレーニングへのアプローチが何か強力なものに収束しているという確認です。

一方、上位2つのすぐ下のモデルは大幅に入れ替わりました。Claude Opus 4.5の「思考」バリアントが3位に上がり、標準のOpus 4.5を4位に、Gemini 3 Flashを5位に押し下げました。Flashは先月まで3位を保持していました。表彰台は頂点だけで持ち主を変えているわけではありません——全体的に不安定です。そして、私の経験では、不安定さはブレイクスルーの前兆です。

圧倒的な高み

Gemini 3 Proは、自分が必要なものがまだわからないときに私が手を伸ばすモデルであり続けています。それを1位に保っているのは範囲です。ヘミングウェイのスタイルを求めれば、無駄のない筋肉質な散文を提供します。実験的なポストモダンフィクションを求めれば、一貫性を失うことなくレジスターを変えます。ヴィクトリア朝の書簡体、ハードボイルドなノワール、マジックリアリズム、児童文学——Geminiは、表面的な模倣ではなく、形式の真の理解を示唆する方法でこれらの移行を処理します。Googleはトップ60に6つのモデルを配置し、Gemini 3 Flashが5位、Gemini 2.5 Proが6位で、トップに強力なトリオを形成しています。

Claudeは全く異なる生き物です。Geminiが範囲なら、Claudeは深さです。Anthropicのモデルは常に、機械に教えるのが最も難しい繊細さに優れていました。いつ沈黙にシーンを運ばせるか、いつ文を続けるのではなく切るべきか、いつキャラクターが言わないことが言うこと以上のものを明らかにするか。Opus 4.6はこれをさらに推し進めます。私のテストでは、真に魂が宿っていると感じられる対話を生み出しました。キャラクターはセリフを言っているのではなく——考えて、ためらって、何か重要なことがかかっているときに実際の人間がするように言葉を選んでいました。Anthropicは現在、トップ60に13のモデルを持ち、他のどの組織よりも多く、トップ11に5つが入っています。彼らの創造的能力のトレーニングへのアプローチが何であれ、それは彼らの製品ライン全体で機能しています。

ここで十分な注目を集めていない観察があります。拡張された推論——「思考(thinking)」モード——は、クリエイティブライティングを確実に向上させるわけではありません。パターンは一貫しておらず、深く示唆に富んでいます。

Claude Opusモデルの場合、思考バリアントはわずかに上位にランクされる傾向があります。Opus 4.5 Thinkingは3位対標準4位、Opus 4.1 Thinkingは9位対標準11位。Grok 4.1 Thinkingは標準バリアントを3ランク上回っています。しかし、他のアーキテクチャに切り替えると、パターンは逆転します——時には劇的に。DeepSeek v3.2-exp標準は28位に座っていますが、その思考バリアントは42位に落ちます。DeepSeek v3.1-terminus標準は22位ですが、その思考対応版は58位に急落します——36ランクの差です。GPT-5.2標準はGPT-5.2-highを打ち負かします。

これが私に伝えていることは重要です。クリエイティブライティングは主に推論の問題ではありません。それは美的な問題です。すでに強い文学的直感を持っているモデルにとって、拡張された思考はその直感を洗練させることができます——しっかりした最初のドラフトを見直す慎重な編集者のように。しかし、創造的な強みがより本能的でパターン主導のモデルにとって、熟考を強制することは、実際には散文を生き生きとさせる粗いエッジを磨き落としてしまいます。時には最初の反応が何かを捉え、追加の計算がそれを平凡なものにならしてしまうことがあります。クリエイティブな仕事に思考能力のあるモデルを使用する場合は、両方のモードをテストしてください。より多くの推論がより良い出力に等しいという仮定はここでは成り立ちません。いつ思考をオフにするかを知ることは、いつオンにするかを知ることよりも価値があるかもしれません。

満ち潮

トップ層の下では、物語は拡散と多様性です——そしてそれは間違いなく1位争いよりも重要です。

DeepSeekはトップ60に10のモデルを配置し、AnthropicとOpenAIに次いで3番目に代表的な組織となっています。彼らのv3.1およびv3.2バリアントは22位から58位に及び、さまざまな創造的能力の層をカバーしています。オープンウェイトプロジェクトとして、DeepSeekは独自のリーダーとは根本的に異なる何かを表しています。これらのモデルはダウンロードし、ローカルでホストし、特定の創造的なタスクのためにファインチューニングすることができます。AIライティングツールを構築している場合、または製品パイプラインに創造的な機能を統合している場合、DeepSeekはAPIのみのモデルが匹敵できない柔軟性を提供します。

より広い全体像はさらに印象的です。DeepSeek、Baidu、Moonshot、Alibaba、Z.ai、Tencentの間で、中国のAIラボは現在、60のランク付けされたモデルのうち22を占めています——リーダーボード全体の3分の1以上です。MoonshotのKimi K2.5はその思考バリアントで21位にデビューし、同社を3つのランクインに導きました。BaiduはERNIE 5.0ラインナップで3つのポジションを保持しています。AlibabaのQwen3は3つのバリアントがランクインしています。Z.aiのGLM-4.7は27位に座っています。これは収束ではありません——真の多様性です。異なるトレーニングデータ、異なる文化的背景、異なる文学的伝統が、異なる創造的感性を持つモデルを生み出します。私はERNIEが西洋で訓練されたモデルには思いつかないような比喩を作り出し、GLMが物語のペースを扱う方法が、文学的DNAが異なるからこそ新鮮に感じられるのを見てきました。世界のクリエイティブAIエコシステムはそれによってより豊かになっています。

OpenAI11のモデルを保持していますが、彼らのクリエイティブな物語には興味深いサブプロットがあります。12位のGPT-4.5-previewは、14位のGPT-5.1-highと23位のGPT-5.1標準の両方を上回っています。時には、ニュアンスのために最適化されたモデルが、生の能力よりも繊細さを評価するタスクにおいて、技術的に優れた後継者を上回ることがあります。17位のChatGPT-4o-latestはこの点を強化します。会話に最適化されたモデルは、ストーリーテリングが根本的に会話的であるため、クリエイティブライティングにおいて固有の利点を持っています。あなたは答えを計算しているのではなく——声を維持しているのです。

Grokは、7つのモデルがランクインし、真のクリエイティブなアイデンティティを刻みました。Claudeが感情的知性に優れているところで、Grokは感情的な正直さをもたらします。ユーモアはより鋭く、比喩はより大胆で、キャラクターは洗練されておらず、より生き生きとしています。リスクを冒す文章——読者を生産的な方法で不快にさせるかもしれないフィクション——が欲しいとき、Grokは私が始めるところです。それは自分の声を最も恐れないモデルであり、クリエイティブライティングにおいて、大胆不敵さは重要です。56位のMistralのmedium-2508は、ボード上のヨーロッパの存在を表しています。53位のTencentのHunyuanは、中国からのもう一つの声を加えています。フィールドはかつてないほど広くなっています。

これからの行方

次に何が起こると思うかお話しします。なぜなら、このデータの傾向は特定の場所を指し示しているからです。

ギャップは圧縮され続けます。 1位と60位の間の広がりは約7.4パーセントです——歴史的基準ではタイトで、更新ごとに狭まっています。私たちは、モデル間の意味のある違いが生の品質から創造的な個性へと移行する閾値に近づいています。問いは「どのモデルが最もよく書けるか」ではなくなり、「どのモデルの声がこの特定のプロジェクトに合うか」になります。それは、作家やクリエイティブチームがAIの選択についてどう考えるべきかにおける根本的な変化です。

特化型クリエイティブモデルは避けられません。 汎用アーキテクチャはクリエイティブライティングの品質を驚くほど遠くまで押し上げましたが、次の本当の飛躍は、物語の構造、キャラクターの一貫性、対話の信憑性、または詩的な形式のために明示的に調整されたモデルから来るでしょう。少なくとも1つの主要な研究所が今年下半期までにクリエイティブスペシャリストモデルを出荷すると予想しています——数学を解き、コードを書き、物語を語ることを同時にしようとするのではなく、文学的能力に完全にコミットするもの。それが起こると、このリーダーボードのトップは一夜にしてリセットされるでしょう。

オープンウェイトモデルが残りのギャップを埋めるでしょう。 DeepSeekの10モデルの存在は先行指標です。オープンな代替案がクリエイティブなベンチマークでプロプライエタリなシステムとの同等性に近づくにつれて、AI支援ライティングの経済学は劇的に変化します。作家、スタジオ、出版社は、トークンごとの価格設定なしでトップクラスのクリエイティブAIにアクセスできるようになり、採用曲線と人間の作家とAIツールの間の基本的な関係が変わります。

真のフロンティアはオーケストレーションであり、孤立ではありません。 私が最近見た最も洗練されたクリエイティブな仕事は、単一のモデルを使用していません——3つか4つを順番に使用しています。初期のアイデア出しと文体の探索にはGemini。感情的な洗練と対話の研磨にはClaude。代替の文化的視点にはDeepSeekまたはQwen。ドラフトにエッジが必要なときはGrok。未来は1つのモデルを王に戴冠させることではありません。それはアンサンブルを指揮し、各モデルの創造的な個性を執筆プロセスの正しい瞬間に合わせることを学ぶことです。これを最初に見つけ出した作家は、単一のモデル——または単一の人間——が単独で達成できるものとは異なると感じる作品を生み出すでしょう。

クリエイティブパートナーの選び方

これらのモデルと一緒に何年も書いてきた後、正しいツールを正しいタスクに合わせることについて私が学んだことは次のとおりです。

多用途性

Gemini 3 Proは、あらゆるジャンル、あらゆる形式、あらゆるトーンに適応します。ブリーフが未定義の場合やプロジェクトが範囲を要求する場合は、ここから始めてください。

感情的な深さ

Claude Opus 4.6は抑制と真の感情を持って書きます。対話、キャラクターワーク、そして言われないことが最も重要な散文のために。

スピードと品質

Gemini 3 Flashは、速いことが悪いことを意味しないことを証明しています。反復的なドラフト作成、大量のプロジェクト、物語のアイデアの迅速なプロトタイピングのために。

個性

Grok 4.1は、他のモデルが取らないクリエイティブなリスクを取ります。エッジ、ユーモア、そして組み立てられたのではなく生きていると感じられるキャラクターが必要なフィクションのために。

エンタープライズ

GPT-4.5 / GPT-5.1は、既存のワークフローに統合される洗練された信頼性の高い出力を提供します。一貫性とブランドの安全性が創造性と同じくらい重要な場合。

オープンソース

DeepSeek / Qwen:自分でホストし、ドメインに合わせてファインチューニングします。トークンごとのコストなしで大規模にクリエイティブAIが必要な場合、経済性は比類のないものです。

単一の最高のクリエイティブAIはありません。異なる強みを持つ進化する声があり、本当の力は、あなたが語ろうとしている物語のどの瞬間にどの声が役立つかを知ることにかかっています。


データソース:Arena AIクリエイティブライティングリーダーボードからのランキング、2026年2月6日。

ディスカッション

0 コメント

コメントを残す

この記事についてご感想をお聞かせください!