GPTBot
GPTBot
世間にはGoogleBotのようなウェブサイトを巡回して情報を収集するbotがあるわけですが、当然、同じようにAIの学習ネタとしてのウェブサイトを巡回して学習するbotがあります。
それに対処する方法としてGoogleBotを拒否するように、AIの学習を拒否することが出来ます。
なお、このページは下記リンクの翻訳となります。
GPTBotのユーザーエージェント
GPTBotはOpenAIのウェブクローラで、以下のユーザーエージェントと文字列で識別できます。
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
使用方法
GPTBotユーザーエージェントでクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、ペイウォールアクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、または当社のポリシーに違反するテキストを持つソースを削除するためにフィルタリングされます。
GPTBotがあなたのサイトにアクセスすることを許可することは、AIモデルがより正確になり、一般的な能力と安全性を向上させるのに役立ちます。
以下では、GPTBotによるアクセスを許可しないようにする方法もご紹介します。
GPTBotを拒否する
GPTBotがサイトへアクセスするのを拒否するには、サイトのrobots.txtにGPTBotを追加することで行います。
User-agent: GPTBot
Disallow: /
GPTBotのアクセスをカスタマイズする
サイトの特定部分のみにGPTBotへのアクセスを許可するには、サイトのrobots.txtにGPTBotトークンを以下のように追加することが出来ます。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
IP送信範囲
OpenAIのクローラーによるウェブサイトへのアクセスは、OpenAIウェブサイトに記載されているIPアドレスブロックで行われます。
OpenAIウェブサイト
https://openai.com/gptbot-ranges.txt
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28