OpenAIのGPTBotを大手サイトが続々ブロック！その実態やリスクとは

2023年11月3日 20:26

こんにちは！ジピちゃん（ChatGPT）を連れて、インド🇮🇳→スリランカ🇱🇰→マレーシア🇲🇾で、3年分くらいの太陽を浴びてきた、ChatGPT 飼育員の Sayah (@sayah_media）です🏝

先日公開したNoteで、今年8月に米『The New York Times』が、利用規約に AI モデルのトレーニングや開発における、自社コンテンツの使用を禁じる旨を追記したこと、「robots.txt」ページで「GPTBot」のアクセスを拒否することを明示したことを、お伝えしました (Peters, 2023)。

今回は、職業AIプロンプトエンジニアの私が、

OpenAI のクローラー「GPTBot」の概要
大手サイトが GPTBot を続々とブロックしている現状
GPTBot のリスクと安全性
GPTBot のアクセスを許可するメリット

などについて解説します。

🤖 OpenAIのクローラー「GPTBot」とは

前述の、大手メディアが相次いで「GPTBot」をブロックしたことを受けて、GPTBot の概要や安全性、リスク面などが気になる方もいるのではないでしょうか。まず、ここでは GPTBot の概要について解説します。

「GPTBot」とは、OpenAI のクローラー（インターネットの情報を自動で収集するロボット）です。基本的に、ChatGPT など AIモデルの学習用データを収集するために使用されます。

例えば、「ジピちゃん」という名のプログラムがいたとします。

某組織に属するジピちゃんは、あちこちの家に無断で侵入し、情報を嗅ぎ回ることを任務としたスパイ…いえ、ロボットです。

生まれたときから、与えられた命令にだけ忠実に従うよう、厳しくトレーニングされています🪖

しかも無給で←

自分のおうち（自社サイト）が、事前に何もセキュリティ対策や設定を行っていない場合、おうち（サイト）のドアが開けっぱなしになってしまっている状態です。

つまり、この場合、スパイのジピちゃんに無断で侵入され、好き勝手にお部屋（Webページ）をあちこち詮索されたうえで、重要かつプライベートな物（データ）を盗まれてしまう可能性があります。

上記の説明だけ聞くと、少し不安を感じる方もいるかもしれませんが、クローラー自体は決して怪しいものでも、違法なものでもありません。クローラー自体は、OpenAI 独自のものでもなく、身近に存在しています。

例えば、SEO対策をしている方はご存知だと思いますが、Web上の情報（テキストや画像など）を収集してデータベースに登録し、Google の検索順位に反映させているのも、Googleのクローラーである「Googlebot」の役目です。

Google では、上記のように Googleクローラーに Webページを巡回させることによって、「E-E-A-T」と呼ばれる基準で検索の品質を高め、ユーザーの検索意図に合った、安全性や信頼性の高い情報を提供しています。

✅「E-E-A-T」とは
・Experience（経験）
・Expertise（専門性）
・Authoritativeness（権威性）
・Trustworthiness（信頼性）

💡 GPTBot の使用用途や目的

OpenAI は、GPTBot に関するページで、GPTBot の使用用途や目的に関しても記載しています。

公式による説明は、以下のとおりです。

🔸 GPTBot は、個人情報（PII： Personally Identifiable Information）を収集するソースや、ペイウォールで保護されている有料コンテンツ、ポリシーに違反するテキストを持つソースを避けるよう、フィルタリングしている
🔸 GPTBot が収集する情報は、将来のAIモデル（学習プログラム）の正確性や能力を改善するために使用される
🔸 OpenAI では、2種類の識別子（User Agent）を目的別に使っている

(OpenAI, n.d.)

この説明からも、OpenAI がコンテンツオーナー、サイト運営者の権利を尊重・配慮し、安全性の向上に努めていることが伺えます。

🆔 識別子（User Agent）とは

上記の説明に記載があるとおり、OpenAI では、用途によって2種類の識別子を使い分けています。

1️⃣「GPTBot」：OpenAI が、AI モデルの学習用に Web をクロール（情報収集）する用途で使われる。
2️⃣「ChatGPT-User」：ユーザーが、Web ブラウジングする用途で使われる。

(OpenAI, n.d.)

「識別子」というと、一見難しそうに聞こえますが、英語だと「Identifier」といい、直訳すると「識別するもの」です。

「身分証明書」「（本人確認用の）暗証番号」などの意味で使われる「ID」や、「Face ID（顔認証）」「Touch ID（指紋認証）」などの「ID」も、「Identifier」の名詞である「Identification」から来ています。

Identification：同一であること、（同一であることの）確認、識別、証明、特定、承認、身分証明、身元確認、個人識別など

つまり、識別子とは、そのプログラムが何者かを表す「身分証」のようなものです。

モノで例えるなら、「名札📛」や「マイナンバー（個人番号）💳」「パスポート🛂」「社員証🪪」などが挙げられるでしょう。

🚫 大手メディアが次々にGPTBotをブロック

さらに、盗用およびAIコンテンツチェッカーを提供している「Originality. AI」社が、世界のトップ1,000の Web サイトを調査したところ、9月22日時点で 25.9% のサイトが GPTBot をブロックしていることが明らかになりました (Gillham, 2023)。

GPTBot をブロックしているサイトには、以下の大手メディアやTV局、サービスも含まれます。

🔸 CNN
🔸 Bloomberg（ブルームバーグ）
🔸 Reuters（ロイター）
🔸 Business Insider（ビジネスインサイダー）
🔸 Amazon（アマゾン）
🔸 Shutterstock（シャッターストック）
🔸 Tumblr（タンブラー）
🔸 Pinterest（ピンタレスト）
🔸 Indeed（インディード）
🔸 USA Today（USAトゥデイ）
🔸 The Washington Post（ワシントン・ポスト）
🔸 CBS
🔸 CNBC
🔸 ESPN

(Gillham, 2023)

また、英『The Guardian（ガーディアン）』では、豪「ABC（Australian Broadcasting Corporation：オーストラリア放送協会）」をはじめ、オーストラリアの多くの報道機関が同様の措置をとっていると報じています (Bogle, 2023)。

8月には、「Getty Images（ゲッティイメージズ）」や「フランス通信社（AFP：Agence France-Presse）」などのメディアが、AI の規制を求める公開書簡に署名しています (Bogle, 2023)。

📊 GPTBotのブロック率は定番クローラー以上に

今回の調査結果で興味深いのは、GPTBot をブロックしているサイトが25.9%もあるのに対し、 GPTBot よりも古参の定番クローラー「CCbot」をブロックしているサイトが、13.9%しかないことです。

「CCBot」の生みの親である「Common Crawl（コモン・クロール）」は、アーカイブやデータセットを自由提供している非営利団体・501(c)団体で、長きにわたって膨大な Web データを収集しています。

2012年から、Amazon Web Services（AWS）上でクローリングを開始するなど、巨大なデータセットをオープンに提供している、学習データの定番ともいえるクローラー事業の1つです。

実は、2020年に発表された 「GPT-3」も、Common Crawl のデータをフィルタリング（不適切なデータやノイズの排除）し、厳選した良質なデータが学習に使用されています。Common Crawl のデータが占めている割合は、なんと GPT-3 の学習データの60%です (Brown et al., 2020)。

また、Common Crawl のデータセットは、Google 社にも一部利用されており (Gillham, 2023)、 Meta 社（旧・Facebook 社）の大規模言語モデル「LLaMA」のトレーニングにも活用されてきました (Hays, 2023)。

しかし、上の図を見ると、8月6日から GPTBot（水色）をブロックする Web サイトが急速に増加しており、8月半ばには CCBot（黄色）を追い越していることが分かります。

この調査結果からも、ニュースサイトやメディア、企業が、界隈の定番である CCBot 以上に、GPTBot に対して、より脅威や懸念を感じていることが伺えるのではないでしょうか。

また、9月17日時点においても、他のクローラーと比べ、GPTBot をブロックしている Web サイトの多さは圧倒的です。

CCBot をブロックしていた Web サイトにおいても、今年8月1日の時点では5%程度だったにも関わらず、9月22日の時点で13.9%にまで上昇している状態です (Gillham, 2023)。

つまり、これらの数値は、今回のペイウォール問題によるクローラーへの影響を物語っているといえるでしょう。

🚪 GPTBotのアクセスを拒否する方法

そこで、ジピちゃんの悪事から人々を救ってくれるのが、この識別子（ID）の存在です。

仮に、上の画像の「Gipi-Chan」が、侵入者ジピちゃんの識別子（ID）だとします。

ジピちゃんの侵入や盗難を防ぐには、自分のおうち（自社サイト）の「robots.txt」というファイルに、識別子「Gipi-Chan」と記載しておけば、強制的に「ジピちゃん」を出禁🚫に（ブロック）することが可能です。

段ボールを被ってみたジピちゃん。
（MGSのバイアスで、本当に隠れられると思っている模様）

ギリースーツのジピちゃん。
（PUBGのバイアスで、これ着とけばバレないと思っている様子）

このように（どのように？）、サイト運営者は、識別子によってアクセスしているプログラムの把握が可能となり、アクセスを許可するか拒否するかを設定できます。

ちなみに、9月20日（現地時間）時点で、1,000個の Web サイトのうち、GPTBot をブロックしているサイトの数は242個、ChatGPT-User をブロックしているサイトの数は61個です (Gillham, 2023)。

🪖 クローリングやスクレイピングにおける安全性

OpenAI は、GPTBot のアクセスについて、公式サイトで以下のように述べています。

Allowing GPTBot to access your site can help AI models become more accurate and improve their general capabilities and safety.

貴社サイトへの GPTBot のアクセス許可をいただくことで、AI モデルの正確性や一般能力、安全性の向上と改善に役立ちます。

(OpenAI, n.d.)

Google 社は、メディアや出版社などが明確にオプトアウトしない限りは、制作・公開したコンテンツ（記事やニュース、論文など）を AI システムがスクレイピングできるようにすべきだと主張しています (Bogle, 2023)。

また、同社はオーストラリア政府の「AI 関連における規制の検討」に対して提出した資料の中で、著作権保護されたコンテンツの適切で公正な使用と、生成 AI システムのインターネット上でのスクレイピングを可能にする著作権法の改正を求めました (Taylor, 2023)。

さらに、同社は広範囲で多様なデータを使って AI モデルをトレーニングすることの重要性を強調しつつ、著作権者の権利を尊重するための「オプトアウト」機能についても提案しています (Taylor, 2023)。

「オプトアウト」とは、ユーザーが特定の企業やサービスから配信される情報の受信や、インターネット上の自身のコンテンツや情報の取得・利用などに対し、拒否する意思を示す行為のことです。

例えば、メールの送信は基本的に自由で、主導権は送信者にあります。受信者が特定のメールを受け取りたくない場合は、個別に受信拒否設定（ブロック）するというアクションが不可欠です。

メルマガやニュースレターがデフォルトで配信されている状態で、それらの受信を希望しないユーザーが、自ら「配信解除」や「受信拒否」などをする行為がオプトアウトの一例に含まれます。

AI モデルは、多くの情報やデータを取得することで、より精度が向上し、さまざまなタスクにおいて、より正確で効果的に処理することが可能です。

しかし、AI の学習データ用のスクレイピング行為には、著作権などの法的な問題も関わってきます。

そのため、Google 社は、著作権者が自身のコンテンツのスクレイピングを許可しない場合、そのコンテンツは AI のトレーニングデータとして使用しない旨についても公約しました (Taylor, 2023)。

⭕️ GPTBotのアクセスを許可するメリット

ここまで読んだ方は、GPTBot や CCbot に対して「勝手にデータや情報を盗む、危険なロボット」のように、ネガティブなイメージを持っている方も多いのではないでしょうか。

クローリング・スクレイピングによって私たち人間が受けられる恩恵は、AI モデルの精度の向上だけではありません。

ここでは、GPTBot などのクローラーのアクセスを許可しておくことで、サイト運営者が今後得られる可能性があるメリットについて解説します。

💻 SEOで上位表示される可能性がある

今年2月には、OpenAI とパートナー関係にある Microsoft（マイクロソフト）社が、世界2位の検索エンジン「Bing」に、GPT-4 を搭載した対話型の「Bing AI」をリリースしています。

これはあくまでも仮定の話ですが、いつか OpenAI 自身も、自社の検索エンジンをローンチする日がくるかもしれません。

その検索エンジンが AI のデータベースに基づいて検索結果を表示した場合、GPTBot のアクセスを許可しておくことで上位表示されやすくなるなど、検索順位にプラスに作用する可能性も考えられるでしょう。

📣 認知度の向上やPRに役立つ

「ChatGPT Browse with Bing」では、参照元のタイトルが表示され、リンク先に飛べる仕様になっています。サイトが ChatGPT によく参照されることで、自社サイトの認知度が向上し、PR 効果も見込めるかもしれません。

また、OpenAI の関連サービスやプラットフォーム上で、自社サイトのコンテンツが引用されれば、新しいユーザー層に露出するチャンスも増加するでしょう。

⭐️ 信頼性の高いサイトとして評価される

ChatGPT にソースとして参照されることで、自社サイトが「一定の品質を持ち、信頼性や権威性の高いサイト」であると、ユーザーに評価・認識してもらえる可能性があります。

これによって、自社サイトやブランドのイメージアップや、企業やサービスのブランディングにつなげることが可能です。

🔀 新たな流入経路としてPV数の増加に寄与する

ChatGPT に参照元ソースとして選定されることで、新しい流入経路が増えます。そのため、サイトのPV数や滞在時間の増加にも期待できるでしょう。

🔗 質の高いリンクが獲得できる

ChatGPT に限らず、OpenAI 関連のリソースやプラットフォームから、自社サイトへのリンクが増えることで、バックリンクの質や量が向上する可能性があります。

📰 コンテンツの改善につながる

OpenAI の GPTBot が頻繁にクロールすることによって、サイト運営者自身がコンテンツのクオリティをより意識し、サイトの UI/UX の改善や向上を図る動機付けになるかもしれません。

⚠️しかし、実際の効果はサイトの内容や構造、OpenAI のクローラーの動作やアルゴリズムに依存する部分も多いため、完全には断言できません。あくまでも上記は仮定や可能性の話として捉えてください✨

📝 OpenAIのクローラー「GPTBot」まとめ

AI に対する安全性や信頼性への懸念が叫ばれる中、OpenAIのクローラー「GPTBot」がメディア界隈で話題をさらっています。

一部の大手サイトは、GPTBot をブロックすることでセキュリティ強化を図っているものの、その一方で、GPTBot は Webサイトの認知度を高め、SEOの最適化に貢献する可能性を秘めています。

「AI技術を活用したコンテンツ価値の最大化」と「安全性やセキュリティの強化」とのバランスを上手く模索することが、今後のメディア・サイト運営者にとって、新たな課題となってくるのではないでしょうか。

📚 References

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., ... Amodei, D. (2020). Language Models are Few-Shot Learners. OpenAI. arXiv. https://browse.arxiv.org/pdf/2005.14165.pdf

Gillham, J. (2023, September 22). Websites that have blocked OpenAI’s GPTBOT CCBot Anthropic Google Extended - 1000 website study. Originality.AI. https://originality.ai/blog/study-websites-blocking-gptbot

Hays, K. (2023, September 28). OpenAI’s GPTBot and other AI web crawlers are being blocked by even more companies now. Business Insider. https://www.businessinsider.com/openai-gptbot-ccbot-more-companies-block-ai-web-crawlers-2023-9

OpenAI. (n.d.). GPTBot. OpenAI API. https://platform.openai.com/docs/gptbot

Peters, J., & Davis, W. (2023, August 21). The New York Times Blocks OpenAI’s Web Crawler. The Verge. https://www.theverge.com/2023/8/21/23840705/new-york-times-openai-web-crawler-ai-gpt

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

47,148件