MENU

robots.txtを無視するクローラーが増加中 AI学習を完全に拒否できない問題とは

  • URLをコピーしました!

昨今、生成AIが急速に普及する裏側で、コンテンツを生み出すサイト運営者と、情報を収集するAI開発事業者の争いが激化しています。

2023年12月にニューヨーク・タイムズが、記事の流用を理由にOpenAIとMicrosoftを提訴したのを皮切りに、世界中で大手メディア vs AI事業者の訴訟が繰り広げられています。日本でも、2025年8月7日に読売新聞社がPerplexityを提訴、同月26日には朝日新聞社・日本経済新聞社が共同でPerplexityを提訴したのは記憶に新しいところです。

このような状況の中で、現在多くのメディアがAIクローラーをrobots.txtでブロックしています。しかし、中にはその設定を無視するクローラーも存在します。例えばChatGPTに「このページを要約して」と頼んだ際に使用されるクローラー(ChatGPT-User)について、OpenAIは公式ドキュメントに以下のように明記しています。

Because these actions are initiated by a user, robots.txt rules may not apply.
(日本語訳:これらの操作はユーザによって開始されるため、robots.txtのルールが適用されない場合があります。)

このように「ユーザの代理」という理屈でrobots.txtを無視するクローラーは、増えてきています。

確かにrobots.txtには技術的にも法的にも強制力はないため、クローラーが無視すればクロールできてしまいます。それでもサイト運営者は明確な意図を持ってrobots.txtを設定していますし、数年前までは有名サービスのほとんどがこの紳士協定を守っていました。しかしその状況が、ここ数年のAI普及の流れの中で変わってきているのです。昔の感覚でrobots.txtを設置していると、気づかないうちに情報を吸われてしまうかもしれません。

そこで今回は、robots.txtを無視するクローラーと、AI学習拒否の実情について調査しました。

主要なクローラーとrobots.txtの遵守状況の一覧はこちら

目次

なぜrobots.txtを無視するのか

そもそもサイト運営者がrobots.txtを設置する目的は、意図しないデータ収集の防止や、サーバー負荷の低減などです。そのようなサイト運営者の意思を、生成AI・検索エンジン側は、どのような目的で無視しているのでしょうか。主に以下の3つのパターンに分類されます。

「ユーザの代理」という名目のクロール

生成AIは、ユーザが投げたプロンプトに対して学習済みの知識だけで回答するのではなく、必要に応じてリアルタイムで外部の情報を取得します。この仕組みをRAG(Retrieval-Augmented Generation:検索拡張生成)と呼びます。

例えば、ユーザが最新ニュースについて質問したり、特定のURLを提示して「この記事を要約して」と依頼した際、AIは回答の精度を高めるためにその場で対象のページへアクセスします。つまり、ユーザの指示によってクロールを行っていると言い換えることもできます。

そしてOpenAIやPerplexityなどの一部のAI事業者は、このような「ユーザの代理」として行うクロールについては、ユーザ自身がブラウザでページを開くのと同等であり、robots.txtを守る必要はないという立場を取っているのです。

また、Googleも「ユーザによってリクエストされるクロール」については同様の立場を取っています。例えばWebページの音声読み上げ機能や、NotebookLMなどを利用するためのクロールには、「robots.txtのルールが適用されない」と公式ドキュメントに明記されています。

セキュリティ維持やサービス規約に基づくクロール

検索エンジンが提供するセキュリティ診断や、不正防止、広告審査を目的としたクローラーに見られるケースです。これらは、ページのインデックスや情報収集のためではなく、インターネットの安全性を守る、あるいはサービスの品質を担保するために動作します。

例えばGoogleのサービスで公開されているリンクに対してマルウェアの検出などを行うクローラー(Google-Safety)について、Googleは公式ドキュメントで「robots.txtを無視します」と明記しています。もし攻撃者が悪意あるページをrobots.txtで隠し、チェックを回避できてしまえば、ユーザの安全が脅かされるためです。これはセキュリティの維持という、やむを得ない目的と言えます。

また、Google広告の品質チェックを行うクローラー(AdsBot)についても、Googleは公式ドキュメントで「User-agent: * を無視する」と明記しています。

Google広告を配信するためには、当然ながらGoogle側の審査が必要であり、Google広告のポリシーにおいて「広告のリンク先とコンテンツは Google AdsBot によりクロール可能であること」は必須とされています。そして広告配信を希望する以上、広告主はサービスのポリシーや利用規約に合意しています。そのため、広告用クローラーまでブロックする意図はおそらくないであろう「User-agent: *」については、やむを得ず無視しているのだと考えられます。

理由を明かさないクロール

理由を明かさずにrobots.txtを無視するクローラーも存在します。最初からrobots.txtについてなにも言及していないケースや、公式には「robots.txtのルールを遵守する」と明言している一方で実際は無視しているケース、拒否設定が反映されるまでに異常なタイムラグがあるケースなど、様々なケースが報告されています。しかし、その理由が生成AI・検索エンジン側から明かされることはほとんどありません。

例えばTikTokを運営するByteDanceのクローラー(Bytespider)は、ブロックしても堂々とクロールしてくるという報告が多くのサイト運営者からあがっています。

カリフォルニア大学サンディエゴ校とシカゴ大学の研究チームが2024年9月から2025年3月にかけて行ったAIクローラーに関する大規模な調査においても、大手AIクローラーの中でBytespiderだけが明確にrobots.txtを無視し続けたという結果が出ています。また、同調査によると大手AIクローラーのほとんどがrobots.txtを守っている一方で、サードパーティ製のAIアプリ(カスタムGPTなど)や新興のAIクローラーのほとんどがrobots.txtを無視しているそうです。

なお、他にも「robots.txtを無視している」とサイト運営者から報告されているクローラーはいくつかありますが、必ずしも本物のクローラーがrobots.txtを無視しているとは限らないので注意してください。サイト運営者の勘違い、robots.txtの設定ミス、第三者による偽装、あるいはクローラーのバグといった可能性も否定はできません。

以上のように、様々な理由でrobots.txtを無視するクローラーが存在します。そのため、今までと同じように、守ってもらえる前提で設定するのは危険です。どうしてもアクセスを防ぎたいときは、robots.txt以外の方法も検討しましょう。

情報をこっそり収集・販売される場合も

特定のユーザーエージェント(UA)を持つクローラーであれば、robots.txtを無視されたとしてもサーバー側で対処(WAFやIP制限)が可能です。しかし、中には特定のユーザーエージェントを持たない、あるいは他のユーザーエージェントを偽装するクローラーも存在します。つまりrobots.txtを無視するのではなく、そもそもrobots.txtやサーバー側で対策できないようにクロールを行う手法です。

例えばPerplexityは、公開しているクローラー(PerplexityBot)がブロックされた際にユーザーエージェントを偽装し、公開されていないIPアドレスを用いることでブロックを回避していると、WIREDや多くのサイト運営者によって指摘されました。この指摘に対してPerplexityのCEOであるアラヴィンド・スリニヴァス氏は「私たちはrobots.txtを無視していない」「サードパーティのクローラーによるものだ」と主張しています。

また、Brave Searchのクローラー「Googleが検索エンジンのシェアを独占することで支配的な利益を得るのを防ぐ」という大義名分のもと、使用しているユーザーエージェントやIPアドレスを公開せずにクロールを行っています。そのため、robots.txtにユーザーエージェントを記載することも、サーバー側で完全にブロックすることもできません。

ただし、Braveは「Googlebotがクロールできないドメインやページにはクロールしない」と明言しているため、robots.txtでGooglebotをブロックすれば、一応はBrave Searchのクローラーもブロックできます。とはいえ、Googlebotをブロックすれば、ほとんどのページがGoogle検索にも表示されなくなってしまいます。そのため、もしBrave Searchのクローラーだけをブロックしたい場合は、本物のGooglebotに対してのみ別の内容のrobots.txtを表示するといった高度な設定が必要です。これは、Redditが実際に行っている手法です。

なお、Brave SearchのクローラーはユーザーエージェントもIPアドレスもわからないため、Googlebotへの指示に本当に従っているという証拠も、逆に従っていないという証拠も今のところありません。

また、BraveはBraveブラウザのユーザからもデータを収集しています。これは「Web Discovery Project」と呼ばれる取り組みで、合意したユーザの検索語句、訪問したURL、滞在時間、メタデータなどを匿名化したうえで取得し、Brave Searchのインデックス構築などに活用しています。そのため、仮にBrave Searchのクローラーをブロックできたとしても、Braveブラウザのユーザ経由で情報を吸い上げられてしまう可能性があるのです。

さらにBraveは、これらの手法で収集した300億ページ以上のデータを、「Brave Search API」を通じて外部企業に販売しています。購入した企業は、AIのトレーニングにも使用できます。

つまりBraveは、サイト側が完全にはブロックできない方法で取得したデータを、AI学習に利用できる形で外部企業に販売しているということです。サイト側がどれほどAIクローラーをブロックしても、Brave経由で間接的にAI学習に利用されてしまう可能性は十分にあります。

この問題を巡っては、アメリカでNews Corp(ウォール・ストリート・ジャーナルを発行するDow Jonesの親会社)とBraveの間で訴訟に発展しました。一旦は両者の合意により訴えが取り下げられましたが、将来的に同じ問題で再提訴する権利は互いに残されている状態です。

AIの普及でrobots.txtの在り方は変わるのか

以上のように、昨今では有名サービスのクローラーでもrobots.txtを無視する場合が増えてきました。robots.txtに強制力がないとはいえ、今まで当たり前のように守られてきたものを堂々と無視すると宣言する以上、何らかの大義名分を掲げているのは確かです。

一方でサイト側も、大切な権利を守るためであったり、大量アクセスによる負荷を防ぐためであったりと、さまざまな理由でクローラーをブロックしようとします。そのような意図が込められたrobots.txtを無視する行為が正しいのかは、議論が分かれるでしょう。

こうした中、人間の指示に従ってAIがさまざまなタスクを処理してくれる「AIエージェント」がおそらく今後増えていきます。もしかすると、人間よりもAIエージェントの方がWebを利用する時代がくるかもしれません。そしてこの記事で述べた通り「ユーザの代理」としてのクローラーはrobots.txtを無視しても良いと考えるAI事業者は増えてきています。

つまりAIの普及に伴い、robots.txtは今後さらに軽視されるかもしれないのです。自分のサイト・情報を守り続けるため、この問題は注視し続けていく必要があります。

主要なクローラーとrobots.txtの遵守状況

最後に、主要サービスのクローラーとrobots.txtの遵守状況の一覧表を用意しました。

※2026年2月時点の公式情報を参照しているため、実際は守られていないケースもあります。
※Googlebot、Bingbot、PerplexityBotなど綺麗な棲み分けができないものもありますが、伊藤の独断と偏見で分類しています。

検索エンジン関連

スクロールできます
運営元ユーザーエージェント
トークン
主な用途robots.txt
遵守状況
備考
GoogleGooglebotGoogle検索のインデックス構築など遵守Googlebotへの設定はGoogleのサービス全般に影響
GoogleGooglebot-ImageGoogle画像検索のための画像クロール遵守
GoogleGooglebot-Video動画検索のための動画クロール遵守
GoogleGooglebot-NewsGoogleニュース向けのコンテンツ取得遵守
GoogleStorebot-GoogleGoogleショッピング向けの商品情報取得遵守
MicrosoftbingbotBing検索のインデックス構築など遵守
MicrosoftBingVideoPreviewBing検索専用の動画プレビュー提供遵守
Yahoo!Y!J-BRU検索サービスでの利用、研究、開発遵守UAの「!」は省略される場合あり
Yahoo!Y!J-BRW検索サービスでの利用、研究、開発遵守UAの「!」は省略される場合あり
Yahoo!Y!J-ASR検索サービスでの利用、研究、開発遵守UAの「!」は省略される場合あり
Yahoo!Y!J-MMP検索サービスでの利用、研究、開発遵守UAの「!」は省略される場合あり
Yahoo!Y!J-WSC検索サービスでの利用、研究、開発遵守UAの「!」は省略される場合あり
YandexYandexBotYandex検索のインデックス構築遵守
YandexYandexImagesYandex画像検索用の画像クロール遵守
YandexYandexVideoYandex動画検索用の動画クロール遵守
YandexYandexVideoParserYandex動画検索用の動画クロール無視
YandexYandexMediaマルチメディアデータのインデックス構築遵守
YandexYandexComBotロシア語以外のコンテンツのインデックス構築条件付き無視「User-agent: *」 を無視
YandexYandexBlogsブログ検索のコメントインデックス構築遵守
YandexYandexOntoDB情報カード用のデータ取得遵守
YandexYandexOntoDBAPI情報カード用の動的データ取得無視
YandexYandexVertisバーティカル検索用のインデックス構築遵守
YandexYandexVerticals求人や不動産など特定分野のインデックス構築遵守
YandexYandexMarketYandex Market用のクロール条件付き無視V1.0は遵守するがV2.0は無視する
YandexYandexSpravBotYandex Business用のクロール遵守
YandexYandexFavicons検索結果表示用のファビコン取得無視
YandexYandexRenderResourcesBotJSレンダリング用リソースの取得条件付き無視元のHTMLが許可されていればリソース制限を無視する
YandexYandexSitelinksサイトリンク用ページの可用性確認遵守
YandexYandexMobileBotモバイル向けレイアウトの判定無視
YandexYandexRCAプレビュー生成用データの収集無視
YandexYandexImageResizerモバイルデバイス用の画像リサイズ処理遵守
YandexYandexMobileScreenShotBotモバイル用ページのスクリーンショット取得無視
YandexYandexScreenshotBotページ全体のスクリーンショット取得無視
DuckDuckGoDuckDuckBotDuckDuckGo検索のインデックス構築遵守
BaiduBaiduspiderBaidu検索のインデックス構築遵守
BaiduBaiduspider-imageBaidu画像検索用の画像クロール遵守
BaiduBaiduspider-videoBaidu動画検索用の動画クロール遵守
BaiduBaiduspider-newsBaiduニュース検索用のインデックス構築遵守
BaiduBaiduspider-favoBaiduお気に入り機能用のクロール遵守
2026年2月時点の公式情報

広告関連

スクロールできます
運営元ユーザーエージェント
トークン
主な用途robots.txt
遵守状況
備考
GoogleAdsBot-GoogleGoogle広告の品質チェック条件付き無視「User-agent: *」 を無視
GoogleAdsBot-Google-Mobileモバイル向けGoogle広告の品質チェック条件付き無視「User-agent: *」 を無視
GoogleMediapartners-GoogleGoogle AdSense向けの関連広告提供条件付き無視「User-agent: *」 を無視
MicrosoftadidxbotBing Adsの広告リンク先品質管理遵守
Yahoo!Y!J-BRJ広告審査やAI提案機能用クロール遵守
Yahoo!Y!J-BRY広告審査やAI提案機能用クロール遵守
Yahoo!Y!J-BRZ広告審査やAI提案機能用クロール遵守
Yahoo!Y!J-HRZ広告審査やAI提案機能用クロール遵守
Yahoo!YJ-SAD広告審査やAI提案機能用クロール遵守
Metameta-externalads広告やビジネス関連製品の改善用クロール遵守
YandexYandexAdNetYandex広告ネットワーク用のクロール遵守
YandexYandexDirect関連広告配信のための提携サイトカテゴリ判定無視
YandexYandexDirectDyn動的バナーの生成無視
YandexYaDirectFetcher広告リンク先の可用性とトピック確認無視
YandexYandexPartnerYandex提携サイトのコンテンツ情報取得無視
BaiduBaiduspider-cproBaidu広告ネットワーク用のクロール無視顧客との合意に基づくため無視
BaiduBaiduspider-adsBaidu広告のリンク先品質確認無視顧客との合意に基づくため無視
2026年2月時点の公式情報

AI関連

スクロールできます
運営元ユーザーエージェント
トークン
主な用途robots.txt
遵守状況
備考
GoogleGoogle-ExtendedGeminiモデル学習やグラウンディングの制御用遵守実際にクロールするのはGooglebotなど
GoogleGoogle-CloudVertexBotVertex AIエージェント構築用のデータ取得遵守
GoogleGoogle-NotebookLMNotebookLMで指定されたソースURLの取得無視ユーザリクエスト起点のため無視
GoogleGemini-Deep-ResearchGeminiのDeepResearch機能公式ドキュメントはないが、弊社でも存在を確認
OpenAIGPTBot生成AI基盤モデルの学習用データ収集遵守
OpenAIChatGPT-UserユーザリクエストによるChatGPTの代行アクセス無視ユーザリクエスト起点のため無視
OpenAIOAI-SearchBotChatGPTの検索機能に向けたインデックス構築遵守
AnthropicClaudeBot生成AI基盤モデルの学習用データ収集遵守
AnthropicClaude-UserユーザリクエストによるClaudeの代行アクセス遵守
AnthropicClaude-SearchBot検索結果の精度向上のためのインデックス構築遵守
PerplexityPerplexityBotPerplexity検索結果への表示用インデックス構築遵守ユーザーエージェント・IPアドレス偽装の報告あり
PerplexityPerplexity-Userユーザリクエストによる回答生成時の代行アクセス無視ユーザリクエスト起点のため無視
AppleApplebot-ExtendedAIモデルの学習や機能利用の制御遵守実際にクロールするのはApplebot
AmazonAmzn-SearchBotAlexaやAIアシスタントの検索体験向上遵守AIモデルの学習には使用されない
AmazonAmzn-UserAlexaなどでのユーザリクエストに基づく最新情報の取得遵守AIモデルの学習には使用されない
MetaMeta-WebIndexerMeta AI検索の精度向上のためのクロール遵守
MetaMeta-ExternalAgentAIモデルの学習や製品改善のためのクロール遵守
YandexYandexAdditionalBotYandex AIの検索結果からコンテンツを除外する処理無視インデックスリクエスト自体は行わない
DuckDuckGoDuckAssistBotAIによる回答のためのリアルタイムクロール遵守robots.txtの変更反映までに72時間を要する
2026年2月時点の公式情報

SNS関連

スクロールできます
運営元ユーザーエージェント
トークン
主な用途robots.txt
遵守状況
備考
MetafacebookexternalhitMetaプラットフォーム内で共有されたリンクの情報収集条件付き無視セキュリティチェック時は無視する場合あり
MetafacebookcatalogMetaプラットフォーム内で共有されたリンクの情報収集条件付き無視セキュリティチェック時は無視する場合あり
Metameta-externalfetcherユーザアクションによる個別リンクの取得無視ユーザリクエスト起点のため無視
PinterestPinterestbotピン作成やサムネイル用のデータ取得遵守
2026年2月時点の公式情報

その他

スクロールできます
運営元ユーザーエージェント
トークン
主な用途robots.txt
遵守状況
備考
GoogleGoogle-InspectionToolSearch ConsoleのURL検査などのテスト用遵守
GoogleGoogleOther特定製品に依存しない公開コンテンツの取得遵守社内の研究開発などに使用される
GoogleGoogleOther-ImageGoogleOtherの画像URL取得版遵守
GoogleGoogleOther-VideoGoogleOtherの動画URL取得版遵守
GoogleAPIs-GoogleGoogle APIによるプッシュ通知の配信条件付き無視「User-agent: *」 を無視
GoogleGoogle-Safetyマルウェア検出などの安全確認無視不正使用対策のため、robots.txtを完全に無視
GoogleGoogle-CWSChrome拡張機能等のメタデータURLの取得無視ユーザリクエスト起点のため無視
GoogleFeedFetcher-GoogleRSSやAtomフィードのクロール無視ユーザリクエスト起点のため無視
GoogleGoogleMessagesチャット送信URLのリンクプレビュー生成無視ユーザリクエスト起点のため無視
GoogleGoogle-PinpointPinpointで指定されたソースURLの取得無視ユーザリクエスト起点のため無視
GoogleGoogleProducerニュース用に提供されたフィードの取得無視ユーザリクエスト起点のため無視
GoogleGoogle-Read-Aloudウェブページのテキスト音声読み上げ(TTS)無視ユーザリクエスト起点のため無視
GoogleGoogle-Site-VerificationSearch Consoleのサイト所有権確認無視ユーザリクエスト起点のため無視
MicrosoftMicrosoftPreviewMicrosoft製品用ページスナップショット生成遵守
Yahoo!Y!J-DLCリンク先ウェブページの確認遵守
AppleApplebotSpotlight、Siri、Safariの提案などのためのデータ収集遵守robots.txtに指定がなくても、Googlebotへの指示に従う
AppleiTMSApple Podcast関連コンテンツのURLクロール条件付き無視Apple Podcastに登録されているコンテンツのみクロール
AmazonAmazonbotAmazon製品・サービス全般の改善用クロール遵守AIモデルの学習に使用される場合がある
LINELinespiderLINEの検索サービス用インデックス構築遵守
SlackSlackbot各種機能実行やHTTPリクエストの処理無視
SlackSlackbot-LinkExpanding共有されたリンクのプレビュー生成無視
SlackSlack-ImgProxy共有された画像のキャッシュとプロキシ取得無視
YandexYandexAccessibilityBotユーザのアクセシビリティ確認無視
YandexYandexCalendarユーザリクエストによるカレンダーファイルの取得無視
YandexYandexMetrikaYandex Metrica(アクセス解析)用の可用性確認等無視
YandexYandexPagechecker構造化データの検証ツール遵守
YandexYandexSearchShopユーザリクエストによるYML製品カタログの取得無視
YandexYandexTrackerYandex Tracker用のクロール無視
YandexYandexUserproxyオンライン翻訳などユーザアクションの代理実行無視
YandexYandexWebmasterYandex Webmaster(管理ツール)用のクロール遵守
NICTICC-Crawler研究開発用データ収集遵守
Common CrawlCCBotオープンなウェブクロールデータの構築遵守
AhrefsAhrefsBot被リンクデータベース構築遵守
AhrefsAhrefsSiteAuditサイト監査ツールによる分析遵守
SemrushSemrushBot被リンク等のSEOデータ収集遵守
SemrushSiteAuditBotサイト監査ツールによるSEOや技術的分析遵守
SemrushSemrushBot-BA被リンク監査ツールによる分析遵守
SemrushSemrushBot-SIOn Page SEO Checker等の分析遵守
SemrushSemrushBot-SWASEO Writing Assistant用のURL確認遵守
SemrushSplitSignalBotSEOのA/Bテスト実行用遵守
SemrushSemrushBot-OCOBContent Toolkit用のクロール遵守
SemrushSemrushBot-FTPlagiarism Checker等のコンテンツ重複確認遵守
SemrushRyteBotRyte.com提供ツールによる分析遵守
SemrushSemrushBot-ESIEnterprise Site Intelligence用の分析遵守
MozdotbotMozscapeインデックス用のリンク収集遵守
MozrogerbotMoz Proキャンペーンのサイト監査遵守
SimilarwebSimilarwebBotウェブトラフィック等の競合分析データ収集遵守
MajesticMJ12botMajesticのデータベース構築用遵守
2026年2月時点の公式情報
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次