![見出し画像](https://assets.st-note.com/production/uploads/images/133314014/rectangle_large_type_2_11b0554447deb43fca4dd6a3c0350442.jpeg?width=1200)
生成AIで何をやったらNG?文化庁のAIと著作権に関する考え方を調べてみた
文化庁より「AIと著作権に関する考え方について(素案)」が閲覧できるようになっています。2024年2月29日にこの素案にたいしてパブリックコメントが追記されました。AIを使用し、推進する立場として、日本の法律、文化庁の見解を深めていくことが必要だと思い、今回追記された内容を含め、「AIと著作権に関する考え方について(素案)」の中で重要だと思える部分をピックアップして解説します。
日本の著作権と「AIと著作権に関する考え方について(素案)」
日本では、デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定の整備を含む「著作権法の一部を改正する法律」が、2018年5月18日に可決・成立し、2019年1月1日に施行されてから現在に至っています。
しかしながら、生成AIについては、該当法律における判例及び裁判例などないことや、各関係者の懸念があるため、「AIと著作権に関する考え方について(素案)」をまとめたという経緯があります。
この考え方は、生成AI と著作権に関する考え方を整理し、周知すべく取りまとめられたもので、法的な拘束力を有するものではなく、また現時点で存在する特定の生成AI やこれに関する技術について、確定的な法的評価を行うものではないということが強調されています。
「AIと著作権に関する考え方について(素案)」については、生成AIについて大きく2つの種類に分けて記述されています。
開発・学習段階
生成・利用段階
(ウ)開発・学習段階における著作物の利用行為
○ 生成AI との関係において著作物が利用される場面を概観すると、大きく「開発・学習段階」と「生成・利用段階」に分けられる。
本記事では開発・学習段階においての著作権の考え方を説明いたします。
生成AIの開発・学習について
文化庁の見解においては、開発・学習における著作物の使用において、目的別では、大きく3つの種類に大別しています。
①非享受目的の場合
②非享受目的と享受目的とが併存する場合
③あいまいな場合
上記の分類より、享受という言葉がキーワードになってきます。
享受という言葉は、なかなか聞き慣れず難しいですね。
どういうことが享受目的にあたるのでしょうか?AIと著作権に関する考え方について(素案)では、以下のように書かれていました。
学習データに含まれる著作物の創作的表現の全部又は一部を出力させること
①非享受目的の場合
情報解析を目的とする場合は、非享受目的と捉えられるのでOKです。
情報解析というのは、簡単に言ってしまえばAIの学習です。
(ア)「情報解析の用に供する場合」の位置づけについて
○法第30 条の4柱書では、「次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には」と規定し、その上で、第2号において「情報解析(…………)の用に供する場合」を挙げている。
○そのため、AI 学習のために行われるものを含め、情報解析の用に供する場合は、法第30 条の4に規定する「当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合」に該当すると考えられる。
②非享受目的と享受目的と併存する場合
学習させる目的があっても、意図的に享受目的が含まれている場合は、NGとなる可能性があります。
例えば、AIの学習に「ジブリ」の絵に強く偏りを持たせた学習をさせて、過学習状態にさせると「ジブリ」っぽい絵ができることが想定されますので、そのように学習させることはNGとなる可能性があります。
上記ア(ウ)に示したような生成AI の開発・学習段階における著作物の利用行為における、享受目的が併存すると評価される場合について、具体的には以下のような場合が想定される。
➢
〔上記複製③・④に関して〕既存の学習済みモデルに対する追加的な学習(そのために行う学習データの収集・加工を含む)のうち、意図的に、学習データに含まれる著作物の創作的表現の全部又は一部を出力させることを目的とした追加的な学習を行うため、著作物の複製等を行う場合。
(例)AI 開発事業者又はAI サービス提供事業者が、AI 学習に際して、いわゆる「過学習」(overfitting)を意図的に行う場合
なお、過学習とは以下のようなことを指します。
過学習(オーバーフィッティング)とは、機械学習においてモデルが訓練データに対して過度に適合してしまう現象を指します。この状態では、モデルは訓練データに含まれるランダムノイズや無関係なパターンまで学習してしまい、新しい、未知のデータに対する一般化能力が低下します。つまり、モデルが訓練データには非常に高い精度を示すものの、テストデータや実世界のデータに対してはその性能が大幅に落ちるという問題が発生します。
過学習を避けるためには、以下のような手法が一般的に用いられます。データの拡張: 訓練データを人工的に増やすことで、モデルがより多様なデータパターンを学習し、過学習を防ぐことができます。
正則化: モデルの複雑さにペナルティを加えることで、モデルが訓練データに過度に適合することを防ぎます。L1正則化やL2正則化が一般的です。
ドロップアウト: ニューラルネットワークの訓練中にランダムにノードを無効にすることで、過学習を防ぎます。
早期停止: 検証データセットに対する性能が改善しなくなった時点で訓練を停止することで、過学習を防ぎます。
過学習は、モデルがあまりにも訓練データに特化してしまうことを防ぐために重要な概念であり、機械学習モデルの汎用性と実用性を確保する上で欠かせない対策です。
③あいまいな場合
学習データが少量の場合は、結果に偏りが生じて著作物の複製に近いものが出される場合があることや、また作風についてはその作風自体がアイデアと判断されるのか(アイデアは著作権の保護対象にならない)、創作的表現と判断されるのかによってケースバイケースで判断されるようです。
少量の学習データを用いて、学習データに含まれる著作物の創作的表現の影響を強く受けた生成物が出力されるような追加的な学習を行うため、著作物の複製等を行う場合
特定のクリエイターの作品である少量の著作物のみを学習データとして追加的な学習を行うことで、当該作品群の影響を強く受けた生成物を生成することを可能とする行為が行われており、このような行為によって特定のクリエイターの、いわゆる「作風」を容易に模倣できてしまうといった点に対する懸念も示されている。
この点に関して、いわゆる「作風」は、これをアイデアにとどまるものと考えると、上記2.(1)アのとおり、「作風」が共通すること自体は著作権侵害となるものではない。 他方で、アイデアと創作的表現との区別は、具体的事案に応じてケースバイケースで判断されるものであるところ、生成AI の開発・学習段階においては、このような特定のクリエイターの作品である少量の著作物のみからなる作品群は、表現に至らないアイデアのレベルにおいて、当該クリエイターのいわゆる「作風」を共通して有しているにとどまらず、創作的表現が共通する作品群となっている場合もあると考えられる。このような場合に、意図的に、当該創作的表現の全部又は一部を生成AI によって出力させることを目的とした追加的な学習を行うため、当該作品群の複製等を行うような場合は、享受目的が併存すると考えられる。
著作権者の利益を不当に害することとなる場合について
目的とは別に、著作権者の利益を不当に害する場合についてを、4つに場合分けして述べております。これらについては、単純にOKともNGでもなく、慎重に考える必要があります。
こちらの内容については、AIと著作権に関する考え方について(素案) (令和6年2月29日時点版)の中の、P23~29に書かれている内容を短くまとめたものです。
https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/hoseido/r05_07/pdf/94011401_02.pdf
アイデア等が類似するにとどまるものが大量に生成されることについて
アイデアやスタイルが似ている作品が大量に生成されたとしても、これらが既存の著作物の創作的表現と直接重複しなければ、著作権侵害とはみなされないことが一般的です。
というのも、アイデアは著作権法では保護されないからです。しかし、アイデアと創作表現の境界は明確ではないので気を付ける必要があります。
また、特定の条件下では、著作権者の利益を不当に害する可能性があり、その場合は著作権侵害や不法行為責任が問われることがあります。
このような問題はケースバイケースで検討される必要があります。
情報解析に活用できる形で整理したデータベースの著作物の例について
整理されたデータベースには著作権が存在し、その著作権はデータベースを構成する創作的な選択や配置に対して与えられます。データベースからの情報複製には著作権者の許諾が必要であり、無断での複製は著作権侵害に該当する可能性が高いです。
ウェブサイトに掲載された記事やデータから、創作的表現が認められる情報のまとまりを情報解析目的で無断で複製する行為は、著作権侵害に該当する場合があります。特に、情報解析に活用できる形で整理されたデータを提供するAPIが有償で提供されている場合、当該APIを経由せずに同様の情報を無断で複製することは、NGとなる可能性があります。
学習のための複製等を防止する技術的な措置が施されている場合等の考え方
著作権者が単にAIによる学習の停止を求めることで直接的に学習を禁止させることは難しいですが、技術的な措置を講じることにより、間接的にAIによる著作物の学習を制限することは可能です。また、これらの技術的な措置は、将来的に著作物の販売市場を保護するために重要な役割を果たすことができるため、権利者による積極的な対策が望ましいと言えます。
海賊版等の権利侵害複製物をAI 学習のため複製することについて
海賊版を使ったら明らかに権利侵害だろうと私は考えていましたが、そんな簡単なわけでもないのですね。冷静に考えれば、データ収集の時点でそれが海賊版のデータなのかどうかを判断することは確かに難しそうです。
記載内容を短くまとめると、海賊版や権利侵害複製物をAI学習のデータとして使用することは、著作権侵害のリスクを高める行為であり、著作権者の権利を尊重し、合法的なデータを使用することが重要です。AI開発事業者やサービス提供事業者は、学習データの収集と利用において権利侵害を助長しないよう、適切な配慮と措置を講じる必要があるということです。
まとめ
日本の生成AIと著作権に関する文化庁の見解を詳細に読み込んだことで、日本が創造性の高い作品を生み出していくためには、著作権の尊重と新しい技術の推進のバランスが重要であると再認識しました。
著作権法は創作意欲を守り、文化的所産の公正な利用を目指していますが、一方で生成AIなどの新技術の発展を過剰に制限してしまうと、技術の発展と創造性の花開きを阻害しかねません。
文化庁の提案は、著作物の利用が創作的表現に及ぼす影響、特に学習データとしての使用を巡る複雑な問題を浮き彫りにします。著作権を侵害しないようにしつつ、技術革新を促進するためには、著作権の基本を理解し、適切な配慮を行うことが求められます。
海賊版データの使用が権利侵害につながるリスクも指摘され、合法的なデータの使用の重要性を強調しています。
私自身も創作者として著作権を侵害されるリスクがあれば、生成AIを活用する側でも侵害に巻き込まれかねません。そのため、誰もにとって両者の立場から著作権について理解を深める意義を感じることができました。
いいね!やフォローで、ぜひ応援よろしくお願いします!
励みになります!
また、X(旧Twitter)でAIについての雑談を不定期に行っておりますのでフォローをお願いいたします。