GPTBot, AIクローラブロックとその影響を考える
AIに学習させたくない
ココ最近のトレンドとして、AIクローラーブロックが話題です。これは、自社サイトの情報をOpenAI GPTモデルなどの大規模言語モデルAIから隠したいというニーズに応えるものです。しかし、私の考えでは、これを実行するメリットは必ずしも明らかではないように思います。
なぜサイトを「公開」しているのか
インターネット上に情報を公開する目的は何でしょうか。それは、その情報をできるだけ多くの人々に見てもらうことです。この辺を理解していないのか、社外秘をインターネット上に公開している企業は意外に多いのです。下記をグーグル検索にコピペしてみてください。
社外秘 filetype:pdf
サイトをできるだけ多くの人々に見てもらう。そのためには、Googleのような検索エンジンからあなたのウェブサイトを見つけてもらう必要があります。
Google検索のシェアは85%以上と言われており、その影響力は無視できません。さらに日本のYahoo!はGoogleの検索エンジンを使っている点も忘れてはいけません。
もちろん、Googleのクローラーからサイトをブロックすることも可能ですが、それはGoogle検索とYahoo!検索に表示されない事を意味します。事実上存在しないサイトになってしまうと言えるでしょう。
Googleクローラー→AIクローラー
近い将来、自然言語での検索やAIツールを使用した検索が主流になると予想されています。その場合、AIにサイトの情報を学習させないという選択は、AIサービスからのリンク表示がなくなり、事実上存在しないサイトとなる危険性があります。
特に商品のウェブサイト(家電、車など)においては、AIに情報を学習させない選択は商品名がAIの出力に現れないという問題を引き起こす可能性があります。これは大きなデメリットと言えるでしょう。
AIクローラーの応用
例えば、OpenAIを例でいうと、ChatGPTの出力結果に参考リンクは表示されません。なのでただ単に素材を食われて損をしたと思う企業や個人もいるでしょう。しかし、今後のAIクローラーはただ単に、ChatGPTへの出力のような形だけを目的としないでしょう。
例えば、AIクローラーは特定の業界や市場に関する情報を自動的に収集し、分析することができます。学習したそのモデルをAPIで誰にでも(例えばAmazonなど)提供したりすることも可能です。するとAmazonはそのモデルを使いプライムデーの特集を自動で作成します。普段からカメラに興味あるユーザーへはカメラの最新機種とトレンドのメッセージを送信します。
AIクローラーを拒否していた場合、そこに自社商品が登場する余地はありません。
クローラーブロックは絶対か?
さらに重要な点はクローラーブロックは絶対ではないという事です。robots.txtにより規定されたルールは、そのルールを尊重して設計されたウェブクローラーにのみ適用されます。robots.txtを無視するクローラーには効果がありません。つまり、A社のAIでは学習拒否できても、B社がrobots.txtを無視するAIクローラーで収集すれば学習されてしまうのです。
有料コンテンツはどうすべきか?
これも答えは簡単でrobots.txtに何も書かないことです。おそらく有料コンテンツを販売するサイトは現在もそうしているでしょう。そもそもクローラーを拒否してしまえば有料コンテンツにたどり着いてもらえません。
有料部分のみ、ログイン認証などを設置して保護するのです。先ほどの社外秘も同様です。ログインや特定の認証が必要なページは、その認証をクリアしない限り、クローラーも人間もアクセスできません。
逆にrobots.txtに会員専用コンテンツのURLを記述すると、そのURLが公開情報となるため、予期しない訪問者や悪意のあるボットがその存在を知ることになります。このため、セキュリティ上の理由から、会員専用コンテンツのURLはrobots.txtに記述すべきではありません。
以上のように、AIクローラーブロックは長期的な視点から見るとその利益は曖昧であり、むしろデメリットが大きいかもしれません。個人や企業はこの問題について深く考察し、適切な戦略を立てるべきでしょう。