GoogleOtherとかGPTbotとかデータ収集目的のクローラが増えてきたので、ブロックしても大丈夫か試してみた
OpenAIのChatGPTやGoogleのGeminiなど生成AIのサービスが沢山でてきましたね😊
合わせて、データ収集が目的のgptBotやGoogleOtherのクロール数が増えています😭
今の所、データを抜かれるだけで、特にメリットはあるのかな・・・というわけで、調査を開始したので、その辺の状況について、事実に基づいて語ってみたいと思います✌️
アクセルログから集計したBotのクロール件数がこちら👀
bingbot 131,476
gptbot 70,823
GoogleOther 55,634
facebook 36,097
Googlebot 22,412
bytedance 15,886
波はあるのですが、本来一番きて欲しいのはGooglebotなのに・・・😭
SEO目的のサイトを運営しているのに優先度の低いクローラでサーバ負荷がかかるのはどうなの❓ってことで、
GoogleOther クローラーをブロックしてもいいのか❓どう対処すべきなのか、調査してみました。
データ収集目的のクローラーとは
通常、Webサイトをクロールするクローラーは、検索エンジンに表示されることを目的にWebサイトの情報を取得しにくるのに対し、データ収集目的のクローラーとは、検索エンジンに活用される事は一切なく、Webサイトに記載された内容(データ)を何かしらの目的で利用するために訪れるクローラです。
近年では、OpenAI社のChatGPTに代表されるようにWebサイトのデータを抜かれて学習用データとして利用されるなどの利用目的が考えられます👀
Googleクローラー「GoogleOther」とは
GoogleOther は、その名の通りGoogleが提供するクローラーです👀
サイトから公開されているコンテンツをさまざまなプロダクトチームが取得するために使用される汎用的なクローラーとのこと。
わかりやすいケースは、Geminiなどで活用するデータとして利用されているケースが多いと思われます。
そもそも、上記の内容もGooglebot で行われていたようですが、透明性が低くなったことにより、GoogleOther を導入したという経緯があります✌️
クローラーを目的別に分けてくれたので、どのクローラーに来て欲しいかより細かく制御できるようになりました✌️
GooglebotとGoogleOtherとの違い
わかりやすく例えるなら、あなたのサイトがWikipediaだとすると
①Googlebotにクロールされると、Google検索でヒットし、PVが増える(いわゆるSEO)
②GoogleOtherにクロールされると、Geminiなどの質問の回答にデータが利用される。PVは増えない
のような違いになると思われます👀
①は、昔から行われているSEO対策で、PVが増えるのでメリットがあります。
②については、Geminiなど今後のGoogleのAI戦略の方向性によりるので、
早いうちからデータを参照させておくことで何かしらのメリットが得られる可能性があるのかもしれませんが、現時点では、クローラーの回数分サーバ負荷が増える。PVに影響はない😭
のような違いになるんじゃないかと思います
大手メディアが次々にGPTBotをブロックしている
上記の懸念から、多くの大手メディアがOpenAIのGPTbotなどのクローラーをブロックしているという話があります。
オリジナルのコンテンツを勝手に利用されたくない場合は、検索に影響しないクローラーをブロックする方が良いのかもしれません。ね
GPTBotのアクセスを拒否する方法
robots.txtに記述することでアクセスが拒否されます。
挙動は正確で、クロールが来なくなります✌️
User-agent: GPTBot
Disallow: /
GoogleOtherのアクセスを拒否する方法
robots.txtに記述することでアクセスが拒否されます。
挙動は正確で、クロールが来なくなります✌️
User-agent: GoogleOther
Disallow: /
robots.txt でクロールをブロックしたり noindex でインデックスを拒否したりしても、検索に限っていえば影響は出ないようです✌️
GoogleOtherをブロックした結果
GoogleOtherのbotをブロックした結果、クロール数は0になりました😊
さすがGoogleさんルールはきっちり守ってくれます。
そして、予想通り、 Googlebotのアクセス数が増えました✌️
bingbot 131,476 -> 121,878
gptbot 70,823 -> 11
GoogleOther 55,634 -> 0
facebook 36,097 -> 50,534
Googlebot 22,412 -> 130,964
bytedance 15,886 -> 198,42
Googleは、サイトに負荷をかけすぎないために、クロールバジェットというものがあるようです。今回、GoogleOtherをブロックしたことによって、本来クロールして欲しいGooglebotのアクセス数が多くなったことで、Googleの考えるサイトへのクロールバジェットは、Googleの全てのbotの合算値だで判断されているということが推測できますね。
まとめ
この記事を読んでくれた人の中には、ブロックするか、ブロックしたらどんなデメリットがあるのか❓
そんな不安に思っている人も多いと思います。
大切に構築したWebサービス、検索以外の目的でデータやコンテンツを利用されたくないので、クロールをブロックして、拒否する方が良いと思います✌️
実際にブロックしちゃったので、今後もウォッチして、何かWebサイトのトラフィックにデメリットが発生することがある場合は、レポートしていきます😊
追記:GoogleOtherをブロックして以降、GoogleBotのクロール数が激増しました。やはり、GoogleOtherのクロール数が多いと本来のGoogleBotの数が減るという影響がありそうですね。