GPTBot

GPTBot

 世間にはGoogleBotのようなウェブサイトを巡回して情報を収集するbotがあるわけですが、当然、同じようにAIの学習ネタとしてのウェブサイトを巡回して学習するbotがあります。
 それに対処する方法としてGoogleBotを拒否するように、AIの学習を拒否することが出来ます。
 なお、このページは下記リンクの翻訳となります。


GPTBotのユーザーエージェント

 GPTBotはOpenAIのウェブクローラで、以下のユーザーエージェントと文字列で識別できます。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)


使用方法

 GPTBotユーザーエージェントでクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、ペイウォールアクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、または当社のポリシーに違反するテキストを持つソースを削除するためにフィルタリングされます。
 GPTBotがあなたのサイトにアクセスすることを許可することは、AIモデルがより正確になり、一般的な能力と安全性を向上させるのに役立ちます。
 以下では、GPTBotによるアクセスを許可しないようにする方法もご紹介します。

GPTBotを拒否する

 GPTBotがサイトへアクセスするのを拒否するには、サイトのrobots.txtにGPTBotを追加することで行います。

User-agent: GPTBot
Disallow: /


GPTBotのアクセスをカスタマイズする

 サイトの特定部分のみにGPTBotへのアクセスを許可するには、サイトのrobots.txtにGPTBotトークンを以下のように追加することが出来ます。


User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IP送信範囲

 OpenAIのクローラーによるウェブサイトへのアクセスは、OpenAIウェブサイトに記載されているIPアドレスブロックで行われます。

OpenAIウェブサイト

https://openai.com/gptbot-ranges.txt

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28


いいなと思ったら応援しよう!