【Markdownの蜃気楼】ウェブを削ぎ落としてもAIクローラーは助からない

AI SEOの世界に新しい考えが流布している。ウェブサイトをMarkdownに削ぎ落とせばLLMがより速くクロールできる、というものだ。シンプルなテキストはトークン数が少なく、ゴミが減り、AI主導の検索に有利になる、という理屈だ。

賢く聞こえる。実際に検索エンジンを作っている人物が、なぜそれが間違いかを説明するまでの話だ。

その説明は、Googleの Search Off the Record ポッドキャスト、エピソード111 で登場した。John MuellerとMartin Splittがこの潮流を正面から論じた。彼らのメッセージは明確だった。サイトをMarkdownに削ぎ落とすことは、Googleがコンテンツの意味、所在、信頼性を判断するのに必要な正確な部分を除去することになる。 この潮流は効果がないどころか、ランキング自体を左右するシグナルに対して能動的に有害だ。

Markdownが魅力的に聞こえる理由――そしてその論理が崩れる場所

AI SEOの提唱者からの議論は直截だ。HTMLには、読解とは無関係な要素が含まれている。CSSクラス、インラインスタイル、JavaScriptタグ、divラッパー。機械にとって見出しが #2c3e50 でスタイルされているかどうかは必要ない。必要なのはテキストと構造だけだ。

Martin Splittはこれを率直に認めた。Markdown はミニマリストだ。Markdownのレンダリングに失敗しても、テキストエディタでファイルを開けば、階層が理解できる。

「Markdownのレンダリングが失敗して、テキストエディタでMarkdownファイルを見ても、それは依然として構造化されていて読める……そして、このミニマリズムが、たぶん人々を『ああ、これは機械にとって素晴らしい』と思わせているのだと思う。」

― Martin Splitt

問題は、Splittが説明したように、そのミニマリズムには代償が伴うことだ。その代償とは、単一のページ上の言葉を超えて、ウェブサイトを評価するために検索エンジンが使う一切のものだ。

しかし、もっと深い欠陥がある。Markdownは2004年にJohn Gruberがライターのための道具として作ったもので、出版フォーマットではない。Peter Conradは、Markdownの本来の役割についてのMedium記事でこれを的確に述べている。「MarkdownはHTMLを置き換えることを意図したものではなく、補完するものだ――ライティングツールとして意図されたものであり、一方HTMLは出版フォーマットだ。」

Markdownをクローラーへの配信フォーマットとして扱うとき、ライティング用のショートカットを建築的な代替物として使っていることになる。それは、建築検査官が建物そのものを見せろと言ったのに、設計図を届けるようなものだ。設計図は建築者には有用だ。建物が安全かどうかを評価する人にとっては無用だ。

棚のない図書館

あなたのウェブサイトを公共図書館に例えてほしい。本があなたの記事だ。HTMLは建物全体だ。関連する本をグループ化する棚、歴史のフロアがどこかを示す案内板、ここが本物の図書館であることを確認する貸出カウンター、そしてあなたが手にしている本を他のどの本が参照しているかを示す索引カード。

さて、棚を取り壊し、案内板を撤去し、すべての本を一つのテーブルに積み上げることを想像してほしい。読者はまだすべてのページを読める。だが、蔵書がどう編成されているか、情報源が信頼できるかどうか、関連する作品をどう見つけるか、まったく分からない。これが専門家によるキュレーションなのか、ウィキペディアをバインダーにコピーしたものなのか、区別できない。

それがMarkdownがすることだ。言葉は与えてくれるが、アーキテクチャは与えない。そして検索エンジンは言葉だけを読むのではない。アーキテクチャを読むのだ。

削ぎ落とされるもの

ウェブサイトをMarkdownに変換するとき、ただのゴミを取り除いているのではない。単一のページをインターネットの残りと接続するシグナルを除去しているのだ。

HTML要素	検索エンジンに伝えること	Markdownが除去するもの
ナビゲーションメニュー	サイトがどう編成され、どんなトピックをカバーしているか	サイト全体の文脈と階層
ヘッダー・フッターのリンク	権威のシグナル、連絡先の信頼性、法的正当性	信頼と正当性の指標
インラインの文脈リンク	トピック間の関係性と情報源の推奨	コンテンツグラフとトピカル深度
サイドバーのセクションとカテゴリー	分類法とテーマ的クラスタリング	テーマ編成のシグナル
スキーママークアップと構造化データ	エンティティ認識、リッチスニペット、機械可読な事実	機械理解の補助
パンくずリスト	ページの深さとナビゲーションの論理	ユーザージャーニーとサイトの階層

これらの要素がないと、検索エンジンが見るのはテキストファイルの山だ。ウェブサイトを見るのではない。

この価値は理論上のものではない。Google自身の構造化データドキュメントには事例がある。Rotten Tomatoesが100,000ページに構造化データを追加したところ、CTRが25%向上した。NestléはリッチリザルトがCTRを82%向上させたと報告した。スキーママークアップは、ページがどんな種類のエンティティを表すかを検索エンジンに伝える。これを除去すれば、検索エンジンがコンテンツを分類し、上位に表示するメカニズムを除去するのと同じだ。

「些末な」問題

John Muellerは、この議論の前提そのものを根底から覆した。HTMLから使えるテキストに変換することは些末だ。私たちは数十年やってきた。

「HTMLとすべてのものを含むウェブは、本当に長い間存在してきた。Markdownより長い。そして、そこにいるすべてのクローラーは、HTMLで実践してきた。そして、HTMLをテキストに変換することは些末だ。」

― John Mueller

LLMのためにMarkdownにするという中核的な売り文句――クローラーが処理するものを単純化する――は、存在しない問題を解決するものだ。HTMLは1990年からウェブの出版言語であり、Markdownが登場する15年前からある。主要な検索エンジンはすべてHTMLを難なく解析する。Jeff Atwoodは、Coding Horrorのエッセイでこれを露骨に述べている。「HTMLを解析することは解決済みの問題だ。」あらゆる言語に成熟したライブラリが存在する。PythonのBeautifulSoup、.NETのHTML Agility Pack、Cのlibxml2――いずれもHTMLからクリーンなテキストを抽出するために作られたもので、並列フォーマットを発明する必要はない。

GoogleがMarkdownコピーを正規版とみなさない理由

検索エンジンは、個別のページ、セクション、サイト全体、そこにリンクしている・リンクされているサイトの集合、という複数のレベルで同時にコンテンツを評価する。この階層的評価こそが、Googleが真面目な出版物とコンテンツファームを区別する方法だ。

Markdown版を公開すれば、あなたが首尾一貫した事業の一部であることを示すナビゲーションが消える。トピカル深度を示す内部リンクが消える。ローカルビジネスなのかニュース媒体なのかレシピサイトなのか、検索エンジンに伝える構造化データが消える。

GoogleとBingには、削ぎ落とされた版を正規版または権威ある版として扱う理由がない。歴史がこの慎重さを裏付けている。サイト運営者にランキングに影響するショートカットが与えられたとき、たとえば古いkeywordメタタグのようなものだ、彼らは濫用した。検索エンジンは、サイト運営者が主張するものを無視し、実際のレンダリングされたコンテンツと構造から独自に検証できるものに依存することを学んだ。

ショートカットの誘惑

このパターンはSEOで繰り返される。誰かが面倒な作業を回避する約束の手法を発明し、それが攻撃的にスケールし、検索エンジンが追いついたときに崩壊する。キーワード詰め込み、プライベートブログネットワーク、完全一致ドメイン、ドアウェイページ。サイクルは見慣れたものだ。これがLily Rayが「だから私たちは素敵なものを持てないのだ」と言う意味だ。

Markdown for AIの潮流も同じプロフィールに合う。複雑性は敵ではない。意味のない複雑性が敵だ。よく構築されたHTMLページの構造的要素――ナビゲーション、リンク、スキーマ、階層――はウェブの文法だ。それらを除去しても、あなたのメッセージは明確にならない。黙殺されるのだ。

トークン不安はすでに時代遅れだ

2年前、「トークンを意識する」ことは思慮深く聞こえた。コンテキストウィンドウは厳しく、推論は高価だった。その計算は崩壊した。

a16zのパートナーGuido Appenzellerの調査によれば、同等の性能の推論コストはおおよそ1年ごとに10分の1に低下している。GPT-3は2021年11月に100万トークンあたり60ドルだった。2024年11月には、Llama 3.2 3Bが同じスコアを0.06ドルで達成した。3年で1,000分の1だ。Epoch AIは年間中央値で50分の1の低下を確認した。

DeepSeek R1やLlama 3.3のような無料のオープンウェイトモデルが、今やコンシューマ機器で動く。1,500ドルのGPUセットアップが、以前はOpenAI API呼び出しを必要としていたタスクを処理する。トークンを意識することは、トークンが希少だったときに理にかなっていた。今日、ボトルネックはクローラーがどれだけ効率的に読むかではなく、あなたのコンテンツがインデックスに値するかどうかだ。

あなたのサイトにとっての意味

小規模事業を営んだり、専任の技術チームを持たないサイトを運営したりするなら、この罠を避けるために新しいものや複雑なものは何も必要ないというのが良い知らせだ。長年重要だった基本が、依然として重要だ。

私は以前、テクニカルSEOの負債がいかに目に見えないうちに蓄積し、企業にトラフィックと収益を損なわせるかについて書いた。Markdownの潮流は、同じ間違いの別亜種だ。検索エンジンが依存する構造的シグナルを除去したり無視したりする。

保持に値する基本はシンプルだが、オプションではない。

フルHTML構造を維持する。 ナビゲーション、ヘッダー、フッター、内部リンクは、あなたのコンテンツがより広いウェブとどう接続しているかを検索エンジンに伝える。
明確な内部リンクを維持する。 すべての記事は自然に関連コンテンツにリンクすべきだ。これが検索エンジンが新しいページを発見し、トピカル深度を測る方法だ。
適切な場所で構造化データを使う。 スキーママークアップは、人間が読めるコンテンツと機械が理解できる意味の橋渡しだ。
ページではなくレイヤーとして考える。 検索エンジンはあなたのサイトを集合体として評価する。強力なホームページ、明確なカテゴリー、一貫したURL、論理的なパンくずリストがすべて信頼を強化する。
証明できるものに集中する。 オリジナルデータと明確な情報源が、従来の検索とAIシステムの両方が報奨する権威を築く。

この潮流は、Markdownが脅威だから注目に値するのではない。現在のいわゆる「AI SEO」の状況が何を明らかにしているかが理由だ。信頼と権威を築く面倒な作業をショートカットする約束のクイックフィックスへの欲求が増大している。検索技術の構造的変化は毎回、確立された実践の早すぎる死亡宣告の波を生み、それから基本が再主張する際に静かな修正が起きる。

AIは検索を変えている。ゼロクリック時代はリアルだ。AI Overviewsが紹介トラフィックを削っている。まだ小さいが、若いユーザーはGoogleに到達する前にTikTokやChatGPTでクエリを開始しており、より多くの人々がQwenやClaudeのような他のチャットボットを使ってGoogleでの検索を置き換え始めるだろう。しかし、これらの変化のどれもが、サイト構造、クロール可能性、文脈リンクがもはや重要でないことを意味するものではない。むしろ逆だ。検索が起こる場所が増えるほど、サイトのアーキテクチャの明確さはより重要になり、より重要でなくなるのではない。AIエージェントが、明確な内部リンクを持つよく編成されたHTMLサイトと、文脈なしのMarkdownファイルの山の間で選択しなければならないなら、選択は明白だ。

結論

Google自身のエンジニアからのアドバイスは明確だ。「AI最適化」のために並列のMarkdown版を作るのをやめろ。それらは重要なシグナルを削ぎ落とし、技術的な利点を何も提供せず、検索エンジンが信頼する理由がないコンテンツの版を作る。

HTMLはAIクローラーの敵ではない。彼らの母語だ。Markdownが除去する構造的要素――ナビゲーション、リンク、ヘッダー、スキーマ――は理解の障害ではない。理解が起こる手段なのだ。

あなたのウェブサイトは文書ではない。場所だ。シンプルさの名の下にアーキテクチャを取り壊せば、空き地に言葉の山が残るだけだ。人間にも機械にも、それらがどこから来たのか、重要かどうかを知る方法がない。

出典：Search Engine JournalによるSearch Off the Record Episode 111の報道、Google Search Off the Record Podcast; Guido Appenzeller, a16z, "Welcome to LLMflation"; Epoch AI, "LLM inference prices have fallen rapidly but unequally across tasks"; Jeff Atwood, Coding Horror, "Parsing HTML the Cthulhu Way"; Peter Conrad, Medium, "Why You Should and Should Not Use Markdown"; John Gruber, Daring Fireball, Markdown; Google Search Central, "Introduction to Structured Data"。

メニュー

言語

【Markdownの蜃気楼】ウェブを削ぎ落としてもAIクローラーは助からない

Markdownが魅力的に聞こえる理由――そしてその論理が崩れる場所

棚のない図書館

削ぎ落とされるもの

「些末な」問題

GoogleがMarkdownコピーを正規版とみなさない理由

ショートカットの誘惑

トークン不安はすでに時代遅れだ

あなたのサイトにとっての意味

結論

関連記事

ChatGPTの検索シェアは3.2% ―その数字は安心材料であり危険信号でもある (Part 3)

全ての「検索」が同じではない ―同列に扱えば代償を払う (Part 2)

SparkToroが「Googleの検索シェアは73%」と発表、その手法に疑問符（Part 1）