GPTBotとは検索エンジンと同じなのか？

2023年8月8日 18:41

OpenAIは公式でGPTBotのリリースを発表しました。

公式によると、GPTBotはOpenAIが開発したウェブクローラーで、特定のユーザーエージェントと文字列を使用して識別できます。ウェブページはGPTBotのユーザーエージェントでクロールされ、将来のモデルの改善に使用される可能性があります。ただし、ペイウォールへのアクセスが必要なソース、個人を特定可能な情報（PII）を収集することが知られているソース、またはポリシーに違反するテキストを含むソースはフィルタリングされます。

GPTBotを使用してサイトにアクセスを許可すると、AIモデルがより正確になり、一般的な能力と安全性が向上する可能性があります。一方で、サイトの所有者はrobots.txtを使用してGPTBotのアクセスを制限することも可能です。

GoogleやBingの検索エンジンと同じ？

どちらもウェブクローラー（またはウェブスパイダー、検索ロボットとも呼ばれます）で、インターネット上のウェブページを自動的に巡回し、その内容を収集しますが、それぞれの目的と使用方法には違いがあります。

GooglebotやBingbotはウェブページをクロールしてその内容を検索エンジンのインデックスに追加します。

GPTBotはウェブページをクロールしてその情報を収集し、そのデータを将来のAIモデルの改善に使用します。GPTBotが収集したデータは、OpenAIのAIモデルがより広範で正確な情報を理解し、ユーザーに提供するために使用されます。

ChatGPTのブラウジング機能を強化させる働き

将来的にChatGPTにブラウジング機能が追加される場合、GPTBotが収集したデータはその機能の改善に貢献する可能性があります。

GPTBotがウェブページをクロールして収集した情報は、AIモデルがより広範で正確な情報を理解し、ユーザーに提供するために使用されます。したがって、ブラウジング機能がChatGPTに追加される場合、GPTBotが収集したデータは、モデルが最新のウェブ情報を理解し、それに基づいてユーザーに情報を提供するのに役立つでしょう。

GPTBotには、実は重要な役割がある

実はこれがいちばんの目的である様です。GPTBotはOpenAIのAIモデルが偽情報や不適切なコンテンツを学ぶのを防ぐための重要な役割も果たします。GPTBotはペイウォールへのアクセスが必要なソース、個人を特定可能な情報を収集することが知られているソース、またはポリシーに違反するテキストを含むソースをフィルタリングします。

トロールファームを学習すればモデルが崩壊する

私たちはクリック、コンテンツ、トロールファームの創設を見ました。これは、ソーシャルネットワークや検索アルゴリズムを誤導するための人間の「言語モデル」の一形態です。これらの毒性攻撃が検索結果に及ぼした負の影響は、検索アルゴリズムの変更をもたらしました。

「毒性を持つ攻撃」とは、トロールファームなどが行う一種の情報操作を指しています。彼らは大量の偽情報や誤情報をネット上に拡散し、人々の意見を操作したり、社会的な混乱を引き起こしたりします。これらの行為は、ソーシャルネットワークや検索エンジンのアルゴリズムを誤導し、本来表示されるべき正確な情報の代わりに、偽情報や誤情報が表示される結果を生み出します。

このような「毒性を持つ攻撃」が検索結果に及ぼすネガティブな影響とは、つまり、ユーザーが検索エンジンを通じて正確な情報を得ることが難しくなるため、Googleは信頼性のあるソース（例：教育ドメイン）で生成されたコンテンツに重点を置くようになり、DuckDuckGoはそれらを完全に削除しました。

検索エンジンがもたらしたネットの負の遺産

過去の情報操作や欺瞞によって生じたバイアスや偏見は、AIモデルの学習データとして用いられることで、そのモデル自体にも影響を及ぼす可能性があります。そのため、これらの情報操作を行ってきた企業や組織には、その結果を是正し、情報の真実性や公正性を回復するための責任があります。

また、Googleやその他の大手テクノロジー企業が持っているデータや技術は、その影響力から、多くのAIやLLMsの学習や挙動に影響を及ぼす可能性があります。したがって、これらの企業には、情報操作や欺瞞を避けるための方法や手順を公開し、業界全体のスタンダードとして共有する義務があると言えるでしょう。

GPTBotが不適切なソースを避ける方法

GPTBotがトロールファームなどの不適切なソースを避ける方法は、特定のフィルタリングプロセスを通じて実現されます。具体的には、以下のようなソースを除外します：

ペイウォールへのアクセスが必要なソース：これにより、有料の記事や情報に依存することなく、公開されている情報だけを学習します。
個人を特定可能な情報（PII）を収集することが知られているソース：これにより、プライバシーを侵害する可能性のある情報の学習を避けます。
OpenAIのポリシーに違反するテキストを含むソース：これにより、不適切なコンテンツや偽情報の学習を避けます。

これらのフィルタリングプロセスにより、GPTBotはトロールファームなどの不適切なソースからの情報を学習することを防ぎます。

自分のサイトからGPTBotをブロックすることも可能

これは、robots.txtファイルに「User-agent: GPTBot」および「Disallow: /」を追加することで実現できます。これにより、GPTBotはそのサイトから情報を取得することができなくなります。

robots.txtファイルを使用してウェブサイトから特定のボットをブロックする方法は、GPTBotだけでなく、GoogleBotや他のウェブクローラーに対しても同様に適用されます。

robots.txtファイルは、ウェブサイトのルートディレクトリに配置され、ウェブクローラーがウェブサイトを巡回する際のルールを指定します。このファイルに「User-agent: [ボットの名前]」および「Disallow: [アクセスを禁止するパス]」を記述することで、特定のボットが指定したパスへのアクセスを禁止することができます。

参考論文はこちら↓
THE CURSE OF RECURSION: TRAINING ON GENERATED DATA MAKES MODELS FORGET