生成AIに作品が学習される小説投稿サイト一覧とされない小説投稿サイト一覧
すでに僕たちの生活に浸透しつつある生成AIですが、こうしたAIは基本的にWeb上にあるコンテンツを手当たり次第学習データとして使用することで作られています。
その代わり、多大なコストをかけて作り上げられたAIを無料で利用できるなどAI開発者なりの配慮はあるものの、やはり勝手に学習データとして自分の作品が使われてしまうことについて、クリエイターとしては思うところのある方もいるかと思います。
そんな中、ChatGPTを提供しているOpenAIやGeminiを提供しているGoogleはこのデータ収集をブロックする方法を公開しています。
早い話がサイト上の /robots.txt というURLに以下の記述があれば作品が学習データとして使われることはありません。
# ChatGPT
User-agent: GPTBot
Disallow: /
# Gemini
Use-agent: Google-Extended
Disallow: /
参考:
https://platform.openai.com/docs/gptbot
https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers?hl=ja
そこで、今回は各小説投稿サイトがこのブロックを行っているかどうかについて調べてみました。
注意点
- あくまで /robots.txt の有無で判別しているため、OpenAIが公開しているIPに対するIP制限やUser-agentへの制限などについては考慮していません。
- robots.txt でブロックすることができるのはあくまでもOpenAIやGoogleのクローラーであるため、他の行儀が悪いクローラーについては防ぐことができません。
- 現状あるコンテンツが学習データとして使用されたかどうかを判別する技術が存在しないため、そもそも本当にOpenAIやGoogleが学習データとして使っていないのか知る術はありません。
- 記事をメンテナンスすることはないので最新の情報は自分でチェックしていただきたいです。
学習されない小説投稿サイト
ノベルアップ+
https://novelup.plus/robots.txt
※GPTBotのみ対応
AI生成作品の投稿に関するガイドラインがあったりなど、他の投稿サイトと比べるとAIに対して向き合おうとする姿勢を感じますね。
学習される可能性のある小説投稿サイト
ほぼ全部!
小説家になろう
https://syosetu.com/robots.txt
カクヨム
https://kakuyomu.jp/robots.txt
アルファポリス
https://www.alphapolis.co.jp/robots.txt
エブリスタ
NOVEL DAYS
https://novel.daysneo.com/robots.txt
ハーメルン
https://syosetu.org/robots.txt
ノベルバ
https://novelba.com/robots.txt
Nolaノベル
https://story.nola-novel.com/robots.txt
note
pixiv
https://www.pixiv.net/robots.txt
ツギクル
https://www.tugikuru.jp/robots.txt
ノベルピア
この記事が気に入ったらサポートをしてみませんか?