robots.txtを無視するクローラーが増加中 AI学習を完全に拒否できない問題とは

2026年2月18日2026年3月18日

URLをコピーしました！

昨今、生成AIが急速に普及する裏側で、コンテンツを生み出すサイト運営者と、情報を収集するAI開発事業者の争いが激化しています。

2023年12月にニューヨーク・タイムズが、記事の流用を理由にOpenAIとMicrosoftを提訴したのを皮切りに、世界中で大手メディア vs AI事業者の訴訟が繰り広げられています。日本でも、2025年8月7日に読売新聞社がPerplexityを提訴、同月26日には朝日新聞社・日本経済新聞社が共同でPerplexityを提訴したのは記憶に新しいところです。

このような状況の中で、現在多くのメディアがAIクローラーをrobots.txtでブロックしています。しかし、中にはその設定を無視するクローラーも存在します。例えばChatGPTに「このページを要約して」と頼んだ際に使用されるクローラー（ChatGPT-User）について、OpenAIは公式ドキュメントに以下のように明記しています。

Because these actions are initiated by a user, robots.txt rules may not apply.
（日本語訳：これらの操作はユーザによって開始されるため、robots.txtのルールが適用されない場合があります。）

このように「ユーザの代理」という理屈でrobots.txtを無視するクローラーは、増えてきています。

確かにrobots.txtには技術的にも法的にも強制力はないため、クローラーが無視すればクロールできてしまいます。それでもサイト運営者は明確な意図を持ってrobots.txtを設定していますし、数年前までは有名サービスのほとんどがこの紳士協定を守っていました。しかしその状況が、ここ数年のAI普及の流れの中で変わってきているのです。昔の感覚でrobots.txtを設置していると、気づかないうちに情報を吸われてしまうかもしれません。

そこで今回は、robots.txtを無視するクローラーと、AI学習拒否の実情について調査しました。

※主要なクローラーとrobots.txtの遵守状況の一覧はこちら

なぜrobots.txtを無視するのか

そもそもサイト運営者がrobots.txtを設置する目的は、意図しないデータ収集の防止や、サーバー負荷の低減などです。そのようなサイト運営者の意思を、生成AI・検索エンジン側は、どのような目的で無視しているのでしょうか。主に以下の3つのパターンに分類されます。

「ユーザの代理」という名目のクロール
セキュリティ維持やサービス規約に基づくクロール
理由を明かさないクロール

「ユーザの代理」という名目のクロール

生成AIは、ユーザが投げたプロンプトに対して学習済みの知識だけで回答するのではなく、必要に応じてリアルタイムで外部の情報を取得します。この仕組みをRAG（Retrieval-Augmented Generation：検索拡張生成）と呼びます。

例えば、ユーザが最新ニュースについて質問したり、特定のURLを提示して「この記事を要約して」と依頼した際、AIは回答の精度を高めるためにその場で対象のページへアクセスします。つまり、ユーザの指示によってクロールを行っていると言い換えることもできます。

そしてOpenAIやPerplexityなどの一部のAI事業者は、このような「ユーザの代理」として行うクロールについては、ユーザ自身がブラウザでページを開くのと同等であり、robots.txtを守る必要はないという立場を取っているのです。

また、Googleも「ユーザによってリクエストされるクロール」については同様の立場を取っています。例えばWebページの音声読み上げ機能や、NotebookLMなどを利用するためのクロールには、「robots.txtのルールが適用されない」と公式ドキュメントに明記されています。

セキュリティ維持やサービス規約に基づくクロール

検索エンジンが提供するセキュリティ診断や、不正防止、広告審査を目的としたクローラーに見られるケースです。これらは、ページのインデックスや情報収集のためではなく、インターネットの安全性を守る、あるいはサービスの品質を担保するために動作します。

例えばGoogleのサービスで公開されているリンクに対してマルウェアの検出などを行うクローラー（Google-Safety）について、Googleは公式ドキュメントで「robots.txtを無視します」と明記しています。もし攻撃者が悪意あるページをrobots.txtで隠し、チェックを回避できてしまえば、ユーザの安全が脅かされるためです。これはセキュリティの維持という、やむを得ない目的と言えます。

また、Google広告の品質チェックを行うクローラー（AdsBot）についても、Googleは公式ドキュメントで「User-agent: * を無視する」と明記しています。

Google広告を配信するためには、当然ながらGoogle側の審査が必要であり、Google広告のポリシーにおいて「広告のリンク先とコンテンツは Google AdsBot によりクロール可能であること」は必須とされています。そして広告配信を希望する以上、広告主はサービスのポリシーや利用規約に合意しています。そのため、広告用クローラーまでブロックする意図はおそらくないであろう「User-agent: *」については、やむを得ず無視しているのだと考えられます。

理由を明かさないクロール

理由を明かさずにrobots.txtを無視するクローラーも存在します。最初からrobots.txtについてなにも言及していないケースや、公式には「robots.txtのルールを遵守する」と明言している一方で実際は無視しているケース、拒否設定が反映されるまでに異常なタイムラグがあるケースなど、様々なケースが報告されています。しかし、その理由が生成AI・検索エンジン側から明かされることはほとんどありません。

例えばTikTokを運営するByteDanceのクローラー（Bytespider）は、ブロックしても堂々とクロールしてくるという報告が多くのサイト運営者からあがっています。

カリフォルニア大学サンディエゴ校とシカゴ大学の研究チームが2024年9月から2025年3月にかけて行ったAIクローラーに関する大規模な調査においても、大手AIクローラーの中でBytespiderだけが明確にrobots.txtを無視し続けたという結果が出ています。また、同調査によると大手AIクローラーのほとんどがrobots.txtを守っている一方で、サードパーティ製のAIアプリ（カスタムGPTなど）や新興のAIクローラーのほとんどがrobots.txtを無視しているそうです。

なお、他にも「robots.txtを無視している」とサイト運営者から報告されているクローラーはいくつかありますが、必ずしも本物のクローラーがrobots.txtを無視しているとは限らないので注意してください。サイト運営者の勘違い、robots.txtの設定ミス、第三者による偽装、あるいはクローラーのバグといった可能性も否定はできません。

以上のように、様々な理由でrobots.txtを無視するクローラーが存在します。そのため、今までと同じように、守ってもらえる前提で設定するのは危険です。どうしてもアクセスを防ぎたいときは、robots.txt以外の方法も検討しましょう。

情報をこっそり収集・販売される場合も

特定のユーザーエージェント（UA）を持つクローラーであれば、robots.txtを無視されたとしてもサーバー側で対処（WAFやIP制限）が可能です。しかし、中には特定のユーザーエージェントを持たない、あるいは他のユーザーエージェントを偽装するクローラーも存在します。つまりrobots.txtを無視するのではなく、そもそもrobots.txtやサーバー側で対策できないようにクロールを行う手法です。

例えばPerplexityは、公開しているクローラー（PerplexityBot）がブロックされた際にユーザーエージェントを偽装し、公開されていないIPアドレスを用いることでブロックを回避していると、WIREDや多くのサイト運営者によって指摘されました。この指摘に対してPerplexityのCEOであるアラヴィンド・スリニヴァス氏は「私たちはrobots.txtを無視していない」「サードパーティのクローラーによるものだ」と主張しています。

また、Brave Searchのクローラーも「Googleが検索エンジンのシェアを独占することで支配的な利益を得るのを防ぐ」という大義名分のもと、使用しているユーザーエージェントやIPアドレスを公開せずにクロールを行っています。そのため、robots.txtにユーザーエージェントを記載することも、サーバー側で完全にブロックすることもできません。

ただし、Braveは「Googlebotがクロールできないドメインやページにはクロールしない」と明言しているため、robots.txtでGooglebotをブロックすれば、一応はBrave Searchのクローラーもブロックできます。とはいえ、Googlebotをブロックすれば、ほとんどのページがGoogle検索にも表示されなくなってしまいます。そのため、もしBrave Searchのクローラーだけをブロックしたい場合は、本物のGooglebotに対してのみ別の内容のrobots.txtを表示するといった高度な設定が必要です。これは、Redditが実際に行っている手法です。

なお、Brave SearchのクローラーはユーザーエージェントもIPアドレスもわからないため、Googlebotへの指示に本当に従っているという証拠も、逆に従っていないという証拠も今のところありません。

また、BraveはBraveブラウザのユーザからもデータを収集しています。これは「Web Discovery Project」と呼ばれる取り組みで、合意したユーザの検索語句、訪問したURL、滞在時間、メタデータなどを匿名化したうえで取得し、Brave Searchのインデックス構築などに活用しています。そのため、仮にBrave Searchのクローラーをブロックできたとしても、Braveブラウザのユーザ経由で情報を吸い上げられてしまう可能性があるのです。

さらにBraveは、これらの手法で収集した300億ページ以上のデータを、「Brave Search API」を通じて外部企業に販売しています。購入した企業は、AIのトレーニングにも使用できます。

つまりBraveは、サイト側が完全にはブロックできない方法で取得したデータを、AI学習に利用できる形で外部企業に販売しているということです。サイト側がどれほどAIクローラーをブロックしても、Brave経由で間接的にAI学習に利用されてしまう可能性は十分にあります。

この問題を巡っては、アメリカでNews Corp（ウォール・ストリート・ジャーナルを発行するDow Jonesの親会社）とBraveの間で訴訟に発展しました。一旦は両者の合意により訴えが取り下げられましたが、将来的に同じ問題で再提訴する権利は互いに残されている状態です。

AIの普及でrobots.txtの在り方は変わるのか

以上のように、昨今では有名サービスのクローラーでもrobots.txtを無視する場合が増えてきました。robots.txtに強制力がないとはいえ、今まで当たり前のように守られてきたものを堂々と無視すると宣言する以上、何らかの大義名分を掲げているのは確かです。

一方でサイト側も、大切な権利を守るためであったり、大量アクセスによる負荷を防ぐためであったりと、さまざまな理由でクローラーをブロックしようとします。そのような意図が込められたrobots.txtを無視する行為が正しいのかは、議論が分かれるでしょう。

こうした中、人間の指示に従ってAIがさまざまなタスクを処理してくれる「AIエージェント」がおそらく今後増えていきます。もしかすると、人間よりもAIエージェントの方がWebを利用する時代がくるかもしれません。そしてこの記事で述べた通り「ユーザの代理」としてのクローラーはrobots.txtを無視しても良いと考えるAI事業者は増えてきています。

つまりAIの普及に伴い、robots.txtは今後さらに軽視されるかもしれないのです。自分のサイト・情報を守り続けるため、この問題は注視し続けていく必要があります。

主要なクローラーとrobots.txtの遵守状況

最後に、主要サービスのクローラーとrobots.txtの遵守状況の一覧表を用意しました。

検索エンジン関連
広告関連
AI関連
SNS関連
その他

※2026年2月時点の公式情報を参照しているため、実際は守られていないケースもあります。
※Googlebot、Bingbot、PerplexityBotなど綺麗な棲み分けができないものもありますが、伊藤の独断と偏見で分類しています。

検索エンジン関連

スクロールできます

運営元	ユーザーエージェントトークン	主な用途	robots.txt 遵守状況	備考
Google	Googlebot	Google検索のインデックス構築など	遵守	Googlebotへの設定はGoogleのサービス全般に影響
Google	Googlebot-Image	Google画像検索のための画像クロール	遵守
Google	Googlebot-Video	動画検索のための動画クロール	遵守
Google	Googlebot-News	Googleニュース向けのコンテンツ取得	遵守
Google	Storebot-Google	Googleショッピング向けの商品情報取得	遵守
Microsoft	bingbot	Bing検索のインデックス構築など	遵守
Microsoft	BingVideoPreview	Bing検索専用の動画プレビュー提供	遵守
Yahoo!	Y!J-BRU	検索サービスでの利用、研究、開発	遵守	UAの「!」は省略される場合あり
Yahoo!	Y!J-BRW	検索サービスでの利用、研究、開発	遵守	UAの「!」は省略される場合あり
Yahoo!	Y!J-ASR	検索サービスでの利用、研究、開発	遵守	UAの「!」は省略される場合あり
Yahoo!	Y!J-MMP	検索サービスでの利用、研究、開発	遵守	UAの「!」は省略される場合あり
Yahoo!	Y!J-WSC	検索サービスでの利用、研究、開発	遵守	UAの「!」は省略される場合あり
Yandex	YandexBot	Yandex検索のインデックス構築	遵守
Yandex	YandexImages	Yandex画像検索用の画像クロール	遵守
Yandex	YandexVideo	Yandex動画検索用の動画クロール	遵守
Yandex	YandexVideoParser	Yandex動画検索用の動画クロール	無視
Yandex	YandexMedia	マルチメディアデータのインデックス構築	遵守
Yandex	YandexComBot	ロシア語以外のコンテンツのインデックス構築	条件付き無視	「User-agent: *」を無視
Yandex	YandexBlogs	ブログ検索のコメントインデックス構築	遵守
Yandex	YandexOntoDB	情報カード用のデータ取得	遵守
Yandex	YandexOntoDBAPI	情報カード用の動的データ取得	無視
Yandex	YandexVertis	バーティカル検索用のインデックス構築	遵守
Yandex	YandexVerticals	求人や不動産など特定分野のインデックス構築	遵守
Yandex	YandexMarket	Yandex Market用のクロール	条件付き無視	V1.0は遵守するがV2.0は無視する
Yandex	YandexSpravBot	Yandex Business用のクロール	遵守
Yandex	YandexFavicons	検索結果表示用のファビコン取得	無視
Yandex	YandexRenderResourcesBot	JSレンダリング用リソースの取得	条件付き無視	元のHTMLが許可されていればリソース制限を無視する
Yandex	YandexSitelinks	サイトリンク用ページの可用性確認	遵守
Yandex	YandexMobileBot	モバイル向けレイアウトの判定	無視
Yandex	YandexRCA	プレビュー生成用データの収集	無視
Yandex	YandexImageResizer	モバイルデバイス用の画像リサイズ処理	遵守
Yandex	YandexMobileScreenShotBot	モバイル用ページのスクリーンショット取得	無視
Yandex	YandexScreenshotBot	ページ全体のスクリーンショット取得	無視
DuckDuckGo	DuckDuckBot	DuckDuckGo検索のインデックス構築	遵守
Baidu	Baiduspider	Baidu検索のインデックス構築	遵守
Baidu	Baiduspider-image	Baidu画像検索用の画像クロール	遵守
Baidu	Baiduspider-video	Baidu動画検索用の動画クロール	遵守
Baidu	Baiduspider-news	Baiduニュース検索用のインデックス構築	遵守
Baidu	Baiduspider-favo	Baiduお気に入り機能用のクロール	遵守

2026年2月時点の公式情報

広告関連

スクロールできます

運営元	ユーザーエージェントトークン	主な用途	robots.txt 遵守状況	備考
Google	AdsBot-Google	Google広告の品質チェック	条件付き無視	「User-agent: *」を無視
Google	AdsBot-Google-Mobile	モバイル向けGoogle広告の品質チェック	条件付き無視	「User-agent: *」を無視
Google	Mediapartners-Google	Google AdSense向けの関連広告提供	条件付き無視	「User-agent: *」を無視
Microsoft	adidxbot	Bing Adsの広告リンク先品質管理	遵守
Yahoo!	Y!J-BRJ	広告審査やAI提案機能用クロール	遵守
Yahoo!	Y!J-BRY	広告審査やAI提案機能用クロール	遵守
Yahoo!	Y!J-BRZ	広告審査やAI提案機能用クロール	遵守
Yahoo!	Y!J-HRZ	広告審査やAI提案機能用クロール	遵守
Yahoo!	YJ-SAD	広告審査やAI提案機能用クロール	遵守
Meta	meta-externalads	広告やビジネス関連製品の改善用クロール	遵守
Yandex	YandexAdNet	Yandex広告ネットワーク用のクロール	遵守
Yandex	YandexDirect	関連広告配信のための提携サイトカテゴリ判定	無視
Yandex	YandexDirectDyn	動的バナーの生成	無視
Yandex	YaDirectFetcher	広告リンク先の可用性とトピック確認	無視
Yandex	YandexPartner	Yandex提携サイトのコンテンツ情報取得	無視
Baidu	Baiduspider-cpro	Baidu広告ネットワーク用のクロール	無視	顧客との合意に基づくため無視
Baidu	Baiduspider-ads	Baidu広告のリンク先品質確認	無視	顧客との合意に基づくため無視

2026年2月時点の公式情報

AI関連

スクロールできます

運営元	ユーザーエージェントトークン	主な用途	robots.txt 遵守状況	備考
Google	Google-Extended	Geminiモデル学習やグラウンディングの制御用	遵守	実際にクロールするのはGooglebotなど
Google	Google-CloudVertexBot	Vertex AIエージェント構築用のデータ取得	遵守
Google	Google-NotebookLM	NotebookLMで指定されたソースURLの取得	無視	ユーザリクエスト起点のため無視
Google	Gemini-Deep-Research	GeminiのDeepResearch機能		公式ドキュメントはないが、弊社でも存在を確認
OpenAI	GPTBot	生成AI基盤モデルの学習用データ収集	遵守
OpenAI	ChatGPT-User	ユーザリクエストによるChatGPTの代行アクセス	無視	ユーザリクエスト起点のため無視
OpenAI	OAI-SearchBot	ChatGPTの検索機能に向けたインデックス構築	遵守
Anthropic	ClaudeBot	生成AI基盤モデルの学習用データ収集	遵守
Anthropic	Claude-User	ユーザリクエストによるClaudeの代行アクセス	遵守
Anthropic	Claude-SearchBot	検索結果の精度向上のためのインデックス構築	遵守
Perplexity	PerplexityBot	Perplexity検索結果への表示用インデックス構築	遵守	ユーザーエージェント・IPアドレス偽装の報告あり
Perplexity	Perplexity-User	ユーザリクエストによる回答生成時の代行アクセス	無視	ユーザリクエスト起点のため無視
Apple	Applebot-Extended	AIモデルの学習や機能利用の制御	遵守	実際にクロールするのはApplebot
Amazon	Amzn-SearchBot	AlexaやAIアシスタントの検索体験向上	遵守	AIモデルの学習には使用されない
Amazon	Amzn-User	Alexaなどでのユーザリクエストに基づく最新情報の取得	遵守	AIモデルの学習には使用されない
Meta	Meta-WebIndexer	Meta AI検索の精度向上のためのクロール	遵守
Meta	Meta-ExternalAgent	AIモデルの学習や製品改善のためのクロール	遵守
Yandex	YandexAdditionalBot	Yandex AIの検索結果からコンテンツを除外する処理	無視	インデックスリクエスト自体は行わない
DuckDuckGo	DuckAssistBot	AIによる回答のためのリアルタイムクロール	遵守	robots.txtの変更反映までに72時間を要する

2026年2月時点の公式情報

SNS関連

スクロールできます

運営元	ユーザーエージェントトークン	主な用途	robots.txt 遵守状況	備考
Meta	facebookexternalhit	Metaプラットフォーム内で共有されたリンクの情報収集	条件付き無視	セキュリティチェック時は無視する場合あり
Meta	facebookcatalog	Metaプラットフォーム内で共有されたリンクの情報収集	条件付き無視	セキュリティチェック時は無視する場合あり
Meta	meta-externalfetcher	ユーザアクションによる個別リンクの取得	無視	ユーザリクエスト起点のため無視
Pinterest	Pinterestbot	ピン作成やサムネイル用のデータ取得	遵守

2026年2月時点の公式情報

その他

スクロールできます

運営元	ユーザーエージェントトークン	主な用途	robots.txt 遵守状況	備考
Google	Google-InspectionTool	Search ConsoleのURL検査などのテスト用	遵守
Google	GoogleOther	特定製品に依存しない公開コンテンツの取得	遵守	社内の研究開発などに使用される
Google	GoogleOther-Image	GoogleOtherの画像URL取得版	遵守
Google	GoogleOther-Video	GoogleOtherの動画URL取得版	遵守
Google	APIs-Google	Google APIによるプッシュ通知の配信	条件付き無視	「User-agent: *」を無視
Google	Google-Safety	マルウェア検出などの安全確認	無視	不正使用対策のため、robots.txtを完全に無視
Google	Google-CWS	Chrome拡張機能等のメタデータURLの取得	無視	ユーザリクエスト起点のため無視
Google	FeedFetcher-Google	RSSやAtomフィードのクロール	無視	ユーザリクエスト起点のため無視
Google	GoogleMessages	チャット送信URLのリンクプレビュー生成	無視	ユーザリクエスト起点のため無視
Google	Google-Pinpoint	Pinpointで指定されたソースURLの取得	無視	ユーザリクエスト起点のため無視
Google	GoogleProducer	ニュース用に提供されたフィードの取得	無視	ユーザリクエスト起点のため無視
Google	Google-Read-Aloud	ウェブページのテキスト音声読み上げ（TTS）	無視	ユーザリクエスト起点のため無視
Google	Google-Site-Verification	Search Consoleのサイト所有権確認	無視	ユーザリクエスト起点のため無視
Microsoft	MicrosoftPreview	Microsoft製品用ページスナップショット生成	遵守
Yahoo!	Y!J-DLC	リンク先ウェブページの確認	遵守
Apple	Applebot	Spotlight、Siri、Safariの提案などのためのデータ収集	遵守	robots.txtに指定がなくても、Googlebotへの指示に従う
Apple	iTMS	Apple Podcast関連コンテンツのURLクロール	条件付き無視	Apple Podcastに登録されているコンテンツのみクロール
Amazon	Amazonbot	Amazon製品・サービス全般の改善用クロール	遵守	AIモデルの学習に使用される場合がある
LINE	Linespider	LINEの検索サービス用インデックス構築	遵守
Slack	Slackbot	各種機能実行やHTTPリクエストの処理	無視
Slack	Slackbot-LinkExpanding	共有されたリンクのプレビュー生成	無視
Slack	Slack-ImgProxy	共有された画像のキャッシュとプロキシ取得	無視
Yandex	YandexAccessibilityBot	ユーザのアクセシビリティ確認	無視
Yandex	YandexCalendar	ユーザリクエストによるカレンダーファイルの取得	無視
Yandex	YandexMetrika	Yandex Metrica（アクセス解析）用の可用性確認等	無視
Yandex	YandexPagechecker	構造化データの検証ツール	遵守
Yandex	YandexSearchShop	ユーザリクエストによるYML製品カタログの取得	無視
Yandex	YandexTracker	Yandex Tracker用のクロール	無視
Yandex	YandexUserproxy	オンライン翻訳などユーザアクションの代理実行	無視
Yandex	YandexWebmaster	Yandex Webmaster（管理ツール）用のクロール	遵守
NICT	ICC-Crawler	研究開発用データ収集	遵守
Common Crawl	CCBot	オープンなウェブクロールデータの構築	遵守
Ahrefs	AhrefsBot	被リンクデータベース構築	遵守
Ahrefs	AhrefsSiteAudit	サイト監査ツールによる分析	遵守
Semrush	SemrushBot	被リンク等のSEOデータ収集	遵守
Semrush	SiteAuditBot	サイト監査ツールによるSEOや技術的分析	遵守
Semrush	SemrushBot-BA	被リンク監査ツールによる分析	遵守
Semrush	SemrushBot-SI	On Page SEO Checker等の分析	遵守
Semrush	SemrushBot-SWA	SEO Writing Assistant用のURL確認	遵守
Semrush	SplitSignalBot	SEOのA/Bテスト実行用	遵守
Semrush	SemrushBot-OCOB	Content Toolkit用のクロール	遵守
Semrush	SemrushBot-FT	Plagiarism Checker等のコンテンツ重複確認	遵守
Semrush	RyteBot	Ryte.com提供ツールによる分析	遵守
Semrush	SemrushBot-ESI	Enterprise Site Intelligence用の分析	遵守
Moz	dotbot	Mozscapeインデックス用のリンク収集	遵守
Moz	rogerbot	Moz Proキャンペーンのサイト監査	遵守
Similarweb	SimilarwebBot	ウェブトラフィック等の競合分析データ収集	遵守
Majestic	MJ12bot	Majesticのデータベース構築用	遵守

2026年2月時点の公式情報

伊藤壮良

株式会社so.la

大学時代に長期インターンでSEOに出会い、新卒で株式会社メンバーズに入社。大手企業を中心に様々なサイトの制作・運用を支援。SEOに関する社内の教育や体制構築などにも従事。

その後株式会社so.laに入社。現在は複数の巨大サイトのSEO面の分析や施策立案・コンテンツ改善などを担当。日本で行われる検索の1割弱にも及ぶ巨大データを活用したGoogleアルゴリズム分析にも取り組んでいる。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！