生成AIによる無断学習をどんどん禁止すべき理由

2024年12月1日 19:28

このエントリは、生成AIによる無断学習をどんどん禁止する Advent Calendar 2024、12月1日分です。

3000字未満の縛りがあります笑。ヘッダー画像は経営デザインシートで描いた創作の未来像。

生成AIによる無断学習をどんどん禁止する＜対象＞

　「生成AIによる無断学習をどんどん禁止」すべき対象の中心は、コンテンツ系の生成AIである。

　コンテンツ系生成AIは、学習したコンテンツの種類と同じ種類のコンテンツを出力する。例えば、イラストを学習してイラスト風の何かを生成したり、新聞記事を学習して新聞記事風の何かを生成したり、イラストと写真を学習して実写風のイラストを出力する生成AIは、私の区分では、コンテンツ系である。

　生成AIが、内部のデータの持ち方として、情報解析した結果を保持しているのか、学習したコンテンツを多次元で圧縮して保持しているのかにかかわらず、学習と出力の関係として、出力のジャンルが学習コンテンツとおなじジャンルであればコンテンツ系である。

　小説を学習して言葉の共起や特徴的な頻度などの情報解析の結果を出力したり、画像を学習したことによる情報解析処理により医療画像から病変を抽出するなどの生成AIの利用は、コンテンツ系ではない（情報解析の出力は学習したコンテンツ市場で競合しない）。
　コンテンツ系でなくても、プライバシーその他の理由で無断学習を禁止すべき理由は多々あるが、本稿はコンテンツ系に焦点を当てる。

生成AIによる無断学習をどんどん禁止する＜理由＞

[理由01] ソーシャル・ライセンスがない

　コンテンツ系の生成AIやそのユーザーは、社会的に受容されておらず、炎上も数多い。例えば、生成AIコンテンツの利用、公開や生成AIの仕組みの無理解についての謝罪文が多数公開されている。
　コンテンツ系生成AIの出力物の利用は「ソーシャル・ライセンス・トゥ・オペレート」(社会的営業許可)があるとはいえず、そのようなグレーな仕組みに自分の創作物を使われたくないという創作者の意思は尊重されるべきである。

[理由02] 透明性が確保されていない（公正な取引ができない）

　生成AIを利用した事実の表示が義務付けられておらず、創作物の受発注や売買に際して、公正な取引を行うための透明性が確保されていない。ストックサイトなど、素性の判らない粗悪品によって市場環境が悪化しており、生成AI明記が守られておらず、真正な手書品の売買が困難になった。

[理由03] 技術検証はできた（ずいぶん無断学習した）

　OpenAI、Claude.ai、Geminiなどは、インターネットでアクセスできるあらゆる情報を無断で学習し、大量の学習がどのような技術的な結果をもたらすかを検証するために充分な量をすでに学習した。

[理由04] LLMの提供価値に応じた学習の対価市場の形成

　生成AI（LLM）が提供する価値のうち、新しい事実（新聞記事）や新しい絵柄（イラスト）や、コンテンツの知名度に経済価値がある部分は、LLMという技術ではなく、学習対象のコンテンツがもたらす価値であり、生成AIが利用される理由である。
　プラットフォーマーの力が不公正に強すぎて実現していないが、コンテンツ系生成AIが利用者に提供している価値に応じて、生成AIへの学習についての対価市場の形成が必要である。学習の対価市場が育成されるには無断学習を禁止しなければならない。

[理由05] 手仕事の価値と大量処理の価値

　人間中心の社会は、人間の手仕事（口や足などの身体を含む）の作品を楽しむ社会である。特に日本では手仕事が愛され、国際競争力も高い。コンテンツが輸出産業であるのは、手仕事を大切にする日本文化の伝統である。一方、体系的な構築力が必要なソフトウエアやWebサービスは、外貨を稼げていない。
　並行して、デジタル化・インターネットは大量の並列処理を可能とすることで人類に新たな恩恵をもたらしている。弊害もあるが、高齢化社会との関係でも、ジェンダーバイアスを解消し家事負担を均質化していくにも、様々な自動化の利便性を享受していきたい。
　田村善之教授は、著作権法30条の4は、著作権法が、インターネットによる大量処理を可能としているという変化の足を引っ張らないという趣旨があると説示する。同時に、大量処理が可能であるならば「検索されるのはよいけど学習されるのは嫌だという権利者」の要望も実現できる可能性を示唆している（田村(2024b): 田村善之「AI と著作権法 : 応用編」（2024.11.9, 生成AI時代の情報法と著作権法 | 筑波大学エクステンションプログラム））。
　やり方によっては、著作権法の解釈としても、無断学習をどんどん禁止していくことは矛盾しない。

生成AIによる無断学習をどんどん禁止する＜方法＞

　インターネットを使いながら、クローラーが大量処理できる形で、無断学習を禁止する意思を表明し、禁止を約束させ、守らせたい。

[標準化01] 学習禁止のルール

　クローリングとスニペットは許可するが、生成AIの学習は禁止する、というルールが良い。

　robots.txt で、次のような標準をつくる。User-agentとして生成AIを一括指定したい。さらに、Searchのためのクローラーには許可しつつ、Gen-AIのエージェントによるアクセスをディレクトリーごとに禁止したり、この例ではpublic/images/ ディレクトリ内のすべてのjpgファイルの学習を禁止する。

robots.txt
User-agent: *          #すべてのクローラー
Disallow: /          #全体はクローリング不許可
Allow: /public/          #/public/以下はクローリング許可

User-agent: Gen-AI *          #Gen-AI関係の全てのクローラー
Disallow: /public/images/*.jpg  #/public/images/内のすべてのjpgファイルは学習不可

　このように、対象とするクローラー（エージェント）、対象のディレクトリー、対象のファイルタイプを特定し、許可又は不許可を明示する、程度の簡易な記述で、かつ、現状のクローラーの処理はなんら変更しなくて良いような標準化が考えられる。

[標準化02] 標準にする圧力

　まず、学習禁止の標準とする案を定め、公開する。そして、プラットフォーマーや生成AI事業者に、学習禁止標準の受入の可否を回答させる（透明性要件）。
　ネズミが猫に鈴をつけようというような、夢のような提案ではあるが、私たちは、次のような多面的な圧力をかけていくことができる。

圧力1 [契約] イラストレーターが、イラスト作成に向けた個別に契約をする際に、学習禁止に同意してもらう。

圧力2 [不使用] このrobots.txtに同意しないプラットフォーマーや生成AI事業者のサービスを使用しない

圧力3 [競争法] 業界で一斉に同一の回答となるような場合、競争法に反する新たなカルテルとして追求する（米FTCに期待）

圧力4 [法制化] 透明性要件として法域ごとの当局からも問合せてもらう

圧力5 [市場] 創作物の学習についての公正な取引市場を育成する（生成回数に応じた対価や、使用の契約期間ごとの対価）

理想像に向けてコツコツ手仕事をしていきましょう。以上です。

生成AIによる無断学習をどんどん禁止する Advent Calendar 2024、明日は Lamronさん「機械翻訳含めて「無断学習」は全面禁止で良い」です。お楽しみに！