静かな半分
第1回では3月と4月に定額制AIサブスクで何が起きたかを並べた。第2回では、その出来事を不可避にしていた算数を歩いた。正直に言うと、両方とも絵の暗い側だった。値上げメール、設備投資と消費収益の差、お気に入りのベンダーからのポストモーテム。
ここから先は、kafkai.aiの読者の多くが過小評価していると思う側を書きたい。
フロンティア・サブスク市場が値付け直されているあいだ、その下で別のことが起きていた。本物のオープンウェイト層が成熟した。研究プレスリリースの意味ではない。「今日プロダクトを出荷できる」という意味でだ。私自身、この領域については1月の「ローカルLLMの現状」で書いた。それから4か月、絵は当時より明確に良くなっている。
第3回の趣旨は「ClaudeやGPTを捨てろ」ではない。フロンティアは依然として重要だ。論点は、プレミアム価格を正当化していた差は1年前より狭くなっており、サブスクの判断ではなくルーティングの判断こそが請求書を決める時代に入った、ということだ。
Ollamaがプラットフォーム層になった
最初に置いておきたい数字はOllamaだ。2026年第1四半期、Ollamaは月間ダウンロード数およそ5,200万に達した。2023年第1四半期と比べて520倍ほどの伸びだ。HuggingFaceは現在、約135,000のGGUFモデルを抱えている。ローカルLLM生態系は、3年足らずで趣味人の片隅から、出荷可能なプラットフォーム層になった。
中小企業にとってこれが実務面で意味するのは、リクエスト1件あたり限界費用ゼロで自社ハードウェア上の推論が回せるようになり、しかも回せるモデルの品質が、多くのタスクでフロンティアの70〜85%の幅に入っているということだ。「ほぼ同等」ではない。「昨日まで定額のClaudeに乗せていたワークロードのうち、意味のある一部分には十分」だ。全部ではない。十分な範囲だ。
Ollama自身も今年、スタックを上げた。Ollama Cloudだ。無料枠には日次クォータがある。Proが月20ドル、Maxが月100ドル。kafkai.aiの読者の多くが気にするであろうローカル運用は、これとは別に無料のままだ。Ollama Cloudの構造的な要点は価格ではない。価格は妥当だ。要点は、OllamaはAnthropicやOpenAIのようにフロンティア・モデルの学習コストを背負っていないことだ。原価スタックが低い分、マージン圧力も低い。彼らは他社の学習投資を再販・オーケストレートしている。これは別物の、より楽な事業だ。
まだOllamaを触ったことがなければ、ローカルLLMの実行手段から入るのが妥当だ。基礎は変わっていない。広がったのはモデルの品揃えのほうだ。次はそこの話をする。
2026年2月から4月の波
2026年2月から4月の第1週にかけて、オープンウェイトのコーディング・モデル領域には一連のリリースがあった。総合すると、計画の前提を見直すのに十分な変化だ。深い技術比較ではなく、要点を素早く並べる。「オープンウェイト」が「二軍」の同義語ではなくなった、という確認だ。
比較の単一ソースとして便利なのは、Atlas CloudによるKimi K2.6・GLM 5.1・Qwen 3.6 Plus・MiniMax M2.7のまとめだ。要点を抽出する。
-
GLM-5.1。Z.AIが2026年4月7日にリリース。754Bパラメータのmixture-of-experts、MITライセンス。SWE-Bench Proで58.4%、このベンチマーク上ではGPT-5.4およびClaude Opus 4.6を上回る。MITライセンスというのは、多くの中小企業にとって最重要点だ。誰とも交渉せずに商用利用できる。
-
Qwen 3.6 Plus。Alibaba、2026年3月下旬。コンテキスト100万トークン。Terminal-Bench 2.0でClaude Opus 4.6の57.5%に対して61.6%でリード。執筆時点ではOpenRouterで無料プレビュー利用が可能。
-
Kimi K2.6。Moonshot、2026年4月。SWE-Bench Verifiedで80.2%。Claude Opus 4.6の80.8%にあと一歩。オープンソース。Kimi K2.6のエージェンティック・ループ信頼性は公の場で評価が積み上がってきており、極めて長いセッションでツールコールを維持できるという報告も出ている。
-
DeepSeek V4 Flash。自社ホスト時のコストパフォーマンスはこの中で最良。ベンチマーク・タスク1回あたり約0.01ドル。「コール単価が事実上の丸め誤差」という自社ホスト・モデルが欲しかった人には、これだ。
-
Qwen3-Coder-Next。2026年2月。総パラメータ80B、アクティブ3B。コーディング・タスクではClaude Sonnet 4.5に近い品質。Mac Studio上で動く。最後の一文を覚えておいてほしい。昨年末の有料フロンティア帯と同じ近所のモデルが、机の下に収まるハードウェアで動く時代だ。
5つの名前、5つの具体的な能力主張、5つの異なるライセンスとアーキテクチャ。2年前ならこの段落は「DeepSeekとLlama、それと幸運を」で終わっていた。それは過去の話になった。
Claude Codeはすでにこれに対応している
そして何より良いのは、第1回・第2回でずっと「定額制の圧力点」として描いてきたClaude Codeが、これら他社モデルと最初から相互運用できる点だ。
Ollamaを動かして、使いたいモデルを次のように指定すればいい。
ollama launch claude --model qwen3.6
同じスキル、同じMCPサーバー、同じサブエージェント、同じフックがそのまま動く。
ここは過大評価しないように丁寧に書く。挙動は文字どおり同一ではない。Claude固有のクセを前提にしているスキルもある。Claudeのツールコール様式に最適化されたエージェンティック・パターンもある。エッジには当たる。ただし、コアのループ、すなわち「指示を出し、モデルが手順を踏み、ツール出力を読み、ファイルを編集し、レビューを依頼する」、これは複数のモデル・バックエンドに対してわずかな配管で動く。Claude Codeの操作画面を維持したまま、Anthropicへの月額支払いをゼロにしている開発者の手順記事も公開され始めている。
念のため言っておくと、これは「そうしろ」という指示ではない。私は小さなAI会社を経営していて、主要AI企業各社の定額プランには今も支払い続けている。意味のある割合の業務でフロンティアモデルの違いはまだ効くし、節約できる時間は購読料以上の価値があるからだ。kafkai.aiの読者に伝えたいのは、ロックインの物語が弱くなった、という事実のほうだ。6月1日に特定のエージェンティック・ワークフローのせいで請求書が3倍になっても、意味のある選択肢が手元にある。2024年にはなかった選択肢だ。
中小企業が打つべき三つの手
ここが本稿で一番持ち帰ってほしい部分だ。すべての発端である4月9日の宇宙データセンター記事の締めくくりと同じ形で並べる。
-
フロンティアAIをプレミアムSKUとして扱うこと。 Claude Opus、GPT、その他の最上位モデルは、本当にフロンティア推論の恩恵を受ける業務、業務全体の10〜15%程度に絞る。難しい契約書のドラフト。戦略分析。マルチステップ・リサーチ。「答えそのものが商品」になる仕事だ。それ以外、分類、要約、ドラフト、単純なエージェントは、Claude Sonnet、Haiku、もしくはOpenRouterやOllama経由のオープンウェイト・モデルにルーティングする。請求書は意味のある割合で即座に減り、ルーティングし直した業務の品質に体感差は出ない。
-
次の値上げを待たずに、ルーティング戦略を今組むこと。 今後12か月、従量課金の追加展開、「2%のユーザーへの小規模テスト」のようなもの、静かなスロットリング、そしておそらく「24時間で撤回される料金ページ事件」がもう1〜2回起きる。どのワークロードがどのモデルで回っているかを既に把握している事業者は、その変化を予算ショックなしに通過する。把握していなければ、次の受信箱の変更で2回痛む。1回は支払いが増えるから、もう1回は締切のなかで再構成に1週間取られるからだ。
-
足元を忘れないこと。 これは4月9日の記事と同じ締めだ。月200〜500ドルの実用的なAIツールはすでに中小企業に実ROIを返している。コンシューマー機材で動くローカルLLMは現時点でフロンティアの70〜85%の品質を出す。日本にはNIIのllm-jp-3-172b-instruct3という、日本語データで学習され、GENIACを通じて1,900名超の研究者が貢献したオープンウェイト・モデルが存在する。Vibe Codingのワークフロー、実用AIツール、そして必要なときだけフロンティアに当てるルーティング層を組み合わせている中小企業は、月20ドルのサブスク一本ですべてを組んだ事業者よりはるかに強い位置にいる。McKinseyの78%が成果を出している企業の多くは、フロンティア・ブランドへの忠誠ではなく、こうした実務的な実行で成果を出している。私たちの競合分析プラットフォームも、その経済性に逆らうのではなく、その経済性の側で設計されている。
ループを閉じる
3週間前、宇宙データセンターはバブルに見える、中小企業は地上を見るべきだ、と書いた。2回前、定額制AIサブスクに何が起きているかをそのフォローアップとして書いた。1回前、その算数を歩いた。今回は、何をすべきかを書いた。
要約はできる限り平たくする。バブルはしぼみ始めている。軌道上ではなく、ターミナルから先にしぼんでいる。AI戦略の全体を定額フロンティア・サブスク一本で組んだ中小企業は、これからの12か月を肌で感じることになる。ルーティング・ファースト、ハイブリッド前提、フロンティアはプレミアムSKU、それ以外はオープンウェイト、という設計を組んだ事業者はそうならない。そのハイブリッド・スタックを組むためのツールは、昨年とは違って、今日もう成熟している。
私はまだ地上にいる。バブルはまだしぼみつつある。地上で解くべき問題は、まだ山ほどある。
これで全3回の連載は終わりだ。3本とも読んでくれた方には、感謝する。今回だけ読んでくれた方には、上のアクション項目こそ持ち帰ってほしい部分だと伝えたい。次にAIプロバイダーの上限締め直しや値付け直しの見出しを目にしたとき、私が勧めたい反応はパニックではない。設定ファイルを開く。フロンティアに向けているワークロードを確認する。フロンティアを必要としていないものを別のモデルに移す。それから、請求書を支払ってくれている本来の仕事に戻る。
関連記事
定額AIが破綻する理由 ―バブルの算数― (第2回/全3回)
第1回では3月と4月に定額制AIプランで何が起きたかを並べた。第2回はその「なぜ」を書く。OpenAIの推論コスト、2026〜2027年の米国AI設備投資の予測、そして米国の消費者AI市場の実サイズ。三つを同じ段落に並べた瞬間、定額プランがきしむことは驚きでなくなる。驚きは、ここまで持ったほうだ。
値上げメールが届き始めた ―AIバブル、ターミナルから縮む― (第1回/全3回)
3週間前、宇宙データセンターはバブルの匂いがすると書いた。バブルは予想より早く現れた。しかも軌道上ではなく、私のメール受信箱に。GitHub Copilotは6月1日から従量制へ移行する。Anthropicは3月以降、Claudeの利用上限を静かに絞り続けている。定額制AI時代は終わりつつある。
宇宙にデータセンターを建てるという話 ―これはAIバブルの匂いだ―
ブルーオリジンが衛星51,600機、SpaceXが100万機。AI需要の爆発で、データセンターの宇宙進出計画が相次いでいる。東京でAI会社を経営する私から見ると、これはバブルの古典的な兆候だ。中小企業が見るべきところは宇宙ではなく、足元にある。