生成AIの問題点一覧と意見を送る際の例題文など
目次
クリエイターの皆様 生成AIについて各所に意見を送る際
実際に何が問題なのか?
どう文章に落とし込むか迷う事があると思いますので
問題点を一覧にし 例文を添えることで
組み合わせたものに 少し手を加えるだけで意見書が作れるようにしようと思いこのnoteを作りました参考にお使いください
意見を送る際にコピーしお使いください 文章を一部変更するなどご自由にお使いください
Twitter上などで問題提起のために一部を引用し利用してもおkです
引用した旨を書く必要はございません お好きにお使いください
長いものに関しては一部を利用するなど 好きに組み合わせてご利用ください
※私は絵描きなので画像生成AIを例題として文章を書いていますが
一部を書き換えることで音楽や文章 写真などの場合でも応用が効くと思います
問題点一覧+例文
①無断学習 著作権法30条の4
例文① 短く端的に「約175文字」
著作権法30条の4により著作権者に原則として許諾を得ることなく著作物をAI開発のために利用してもいいことになってしまっているため
生成AIにより クリエイターが不当に利益を害されているため 著作権30条の4の改定を求めます
著作権の本来の目的 著作物の不当なコピー 利用から守り 著作権者の利益を守りインセティブを高めるためのものであることを留意してください
※留意という言葉は適切ではないかもしれません
思い出して 考慮 前提 など言葉を変えてみてください
例文② 細かい説明を交えた長いバーション「約700文字」
著作権法30条の4により著作権者に原則として許諾を得ることなく著作物をAI開発のための情報解析にかけてもいいということになっています
こちらは例外として許諾が必要なケース 無許諾での学習が行えない場合があり
著作物に表現された思想又は感情の享受を目的とした利用
必要と認められる限度を超える場合や著作権者の利益を不当に害することとなる場合
こちらに該当する場合著作権者の許諾が必要であり30条の4の適法外となります
生成AIでこれを考えた時 著作物の享受を目的とした利用に該当すると思われます
また著作権者の利益を不当に害すること に関しましても
AI開発に用いられた情報媒体と同様の市場で取り扱われるものを生成するため
これは市場の競合をしていますので 利益を不当に害していると考える事が出来ると思います
例題として画像生成AIはイラストを情報解析にかけ イラストを生成します
イラスト→イラストの関係ですね
音楽の場合であれば当然 音楽→音楽となりますね
このような生成AIは著作物に表現された思想又は感情の享受を目的とした情報解析にあたると思われますし
市場に競合するものであるため30条の4の適法外であり学習段階で違法であり
この学習モデルを配布公開することは違法だと思われます
今現在の生成AIのデータセット 学習モデルは著作権者に許諾を得ていないものですので 須らく違法であるべきものだと思います
現行法から見ても違法な物にあたるのであれば今ある生成AIを違法な物として扱い 使えないようにするべきだと思います
データセット 学習モデルの透明性を高め 著作権者に許諾得た物以外を使えないように制限するなど
正しい規制を求めます
※補足 著作権法47条の5
著作権法30条の4が情報解析に対する法としては有名ですが
こちらも関係しているため
一部を引用します
上に書かれているように軽微利用の場合こちらの方が適用されると考えられます
こちらは享受を目的とする場合であったとしても適法となると考えられると思います
文化庁に書かれている例題には(引用します)
と書かれておりどこまでを軽微として見るかが難しい話となってきます
画像生成AIの場合47条の5をどこまで軽微と見るか こちらについては議論がし尽されているわけではないため 私からはそこまで詳しく説明することが出来ませんが この法の存在は知っておいたほうがいいと思います
②データセットの問題点 学習モデル
例文①LAION-5B 「約450文字」
現在主流となっている画像生成AIは Stable Diffusionをベースに作られたものが多くそれにはLAION-5Bというデータセットを元にトレーニングをした学習モデルが使われており
こちらをベースに他者が追加学習を行うなどする事でモデルが派生しています
こちらのデータセットは58億枚という膨大な画像が含まれており
著作物 医療記録、家族写真、戦争の写真 児童ポルノ 日本の紙幣 はたまた免許証 パスポートまで入っています
当然ですがこちらは無許諾で集められています
集団訴訟などが起きています そのような問題を抱えた物であり
こちらを利用した画像生成AIを使う事は権利的に問題があるという事は明確で
これを推進することは多数の権利侵害を推奨する 間違った行為だと言えると思います
これが30条の4に当てはめた時合法になってしまうというのであれば
それは合法で済ませてよい話ではなく 現行法に問題があり改定するべきでしょう
国際社会に出しても問題のない
権利侵害を行っていないデータセット 学習モデルを使う必要があると思います
例文②Novel AI リークモデル 「約675文字」
画像生成AIサービスとしてNovel AIというものがあります
こちらはDanbooruという有名な無断転載サイト のイラストを学習元として使用しているようで
イラストに特化した学習モデルとなっております
去年2022 10月17日Novel AIにハッキングがあり学習モデルが流出しました
これはNAIリークと呼ばれインターネット上で配布されてしまっています
これの何が問題なのか?と言えばまずハッキングにより流出したものですのでこの学習モデルを使う事はAnlatan社の利益を不当に害しますよね
ハッキングによる流出モデルですのでこれそのものを配布する事ダウンロードすること自体が違法だと思いますが
ただこのリークモデルは現在普通に使われてしまっている事とこちらをベースに追加学習を行ったモデルが多数存在します
もはや追加学習などによりどれがリークモデルを含むものかわからなくなってしまっています
日本の法であれば30条の4に照らし合わせた際
このリークモデルに追加学習を行う行為は違法になると思われます
これは学習モデルを保持している会社などの利益を不当に害する情報解析になりますので
30条の4の適法外になりますね
まずダウンロードすること自体が違法だと思いますが改変を行う場合の例題として書かせていただきました
こちらをベースにした生成物が多数はびこっています
これは違法ではないのでしょうか?
30条の4に当てはめて考えた場合
開発学習段階 生成段階と分けて考える必要がありますが
こちら開発学習段階に違法性があるため 生成段階を考えるまでもなく
全て違法であると言えると思います
※追記 Novel AIからの正式な声明
2023年6月23日
Twitter上にてNovel AIから正式にリークモデルについての説明がありました
内容の直接的な引用はしませんが要約しますと
リークモデルの使用に対する警告
リークモデルを公開?している場合の法的措置の警告ですね
上記本文中にて解説しましたが 今現在のイラストに特化したモデルは相当数がこのNovel AIのリークモデルに追加学習 マージを行った物がほとんどですので
この声明により正式に違法性が高くなった と考えることが出来ると思います
しかし生成物だけを見たとき 果たしてそれがリークモデル またはマージモデルによって生成された物か確定的な判断は出来ませんので
実際のところどうなるのかはわかりません
学習モデルには特有の癖があり絵描きであればある程度見分けは付くため
リークモデル またはそれにマージされたものを見分けること自体は可能ですが今後どうなっていくのかは正直なところまだよくわかっていません
例文③ 児童ポルノを学習した学習モデル「約615文字」
日本国では児童ポルノは単独所持であっても違法です
ただ昨今では児童ポルノを情報解析にかけ作られた
AI生成物としての児童ポルノが出てきました
これをどう取り扱うか?日本の今現在の法ではおそらく対処できないでしょう
まず単独所持は違法ですがスクレイピングなどにより学習する際保存を伴わず学習モデルを作られた場合
所持はしていないのでその学習モデルは違法ではないのでしょう
ただこれにはもう一つの見かたも出来
学習モデルには元の画像媒体を保存している という考えであれば
学習モデル自体が児童ポルノを不可逆圧縮した画像データセットであり
それを所持することも違法 と見る事も出来ますね
それ以外の観点で言うなら実在か非実在性かという事が問われますね
実在に被害に遭った児童がいるのかという観点ですが
画像生成AIによる生成物は学習方法により生成物の類似度が変わるため
実在児童に非常に類似したものもあれば そうでないものもあります
ただこれは既存の非実在性の児童ポルノと違い 実際の写真さながら
人間による目視では写真としか思えない実在児童に見えるものですので
扱いを変えなければいけないのではないかと思っています
このAI生成物により実在児童が性被害に遭っている写真が紛れ込んだ場合
それを見つけることが困難になるのであれば
児童の性的搾取 児童を虐待している証拠が機能しなくなる可能性があり
犯罪捜査を阻害する可能性が考えられますね
そのような観点からも規制が必要だと思われます
例文④ ディープフェイク「約685文字」
生成AIによる問題点としてディープフェイクの問題があると思います
虚偽の災害の画像であったり
著名人に不利益を被るような印象操作
フェイクポルノ
画像媒体による詐欺
音声による詐欺(RVCを用いたものなど)
セクストーションなど問題はとても多いと思います
最後に上げたセクストーションですが
こちら米国にて死者がすでに出ております
17歳の少年がセクストーションによる脅迫被害を受け自殺しています
FBIがすでに警告を出しているような事態であり 生成AIによる詐欺 脅迫
などの被害を考慮しないというのは考えづらい事だと思います
日本ではこの生成AIによる問題点の周知があまりなされていないように感じます
これを防ぐための規制が必要だと考えますが 日本政府は現行法で対処できると宣言しており一市民としては日本政府の危機管理能力に懐疑的にならざる負えません
被害が出てから対処するのでは遅いと考えています
被害が出る前に対処するためにまずそれが行えないように規制をするべきではないでしょうか?
誰でも気軽にディープフェイクが作れる社会は歪でしょう
まず画像生成AIやRVCなど詐欺に使えてしまったり社会的に悪用しようと思えばいくらでも使えるものはライセンス 免許を必要にし
違反行為があれば免許をはく奪するなど
何かしらの制限を設ける必要があると思います
またAI生成物には表記義務を設けるなど それが明確に生成AIによって作られたものだと分かるようにするべきだと思っています
画像媒体や音声が犯罪証拠として成立しずらくなってしまいこのままでは犯罪行為を助長してしまう恐れがあります
国民を守るため適切な法規制を求めます
例文⑤ フェイクポルノ 肖像権との関係性「約1635文字」
画像生成AIにより誰でも気軽にフェイク画像を作る事が出来るようになりました
ディープフェイクとも言いますが 今回はフェイクポルノに焦点を合わせた問題提起をしたいと思います
画像生成AIにより特定個人のフェイクポルノを作った場合どのような問題があるのか?
まず誰がどう見ても あの人だ!と分かるレベルの物であればこれは肖像権の侵害に当たると思われます
フェイクポルノであればこれは名誉棄損にあたるでしょう
ただ画像生成AIによるフェイク画像は一枚の画像から生成するのではなく
膨大な画像を情報解析にかけつくられた学習モデルを介して生成されますので(個人を集中学習したLoRAを使う場合であっても同様 i2iも含む)
完全に同一の物ではないんです ですので本人に見えるものであったとしても
それが確実にそうだ!と言えるものではないため 偶然似ただけであってフェイク画像ではないと言われる可能性があります
大変言い逃れがしやすい構造となっており本人の名前さえ出さなければフェイク画像を作ったとしても罪に問われづらい構造となっております
AIグラビアというものがありますがこちらは非実在性の人物として扱われ公開 販売などされています
集英社から発売された グラビア写真集「生まれたて。」が有名なものになると思われますが
こちら6月7日に発売を終了しています
こちら発売後に実在の女優さんに酷似していると指摘があり炎上しています
使用した学習モデルが公開されておりませんので真偽のほどはわかりませんが
このように学習モデルを開示せず 名前を使わず非実在性という事で
もしとても似た女性が私のフェイクポルノを公開販売しないでほしい!と指摘した時果たしてそれは肖像権侵害 名誉棄損と言えるのであろうか?というのは無視できない問題だと思われます
それとこれはその人が有名かどうかでも扱いが変わります
まず肖像権は知的財産には分類されますが明確な法による保護はされておりません
一般的な場合肖像権(人格権)
著名人の場合パブリシティ権(財産権)となります
これは簡単に言ってしまえばネームバリューと言い換えることが出来ると思いますね
著名人の場合そのネームバリューから財産権が付与されるわけです
不公平に感じるかもしれませんが もし有名でない一市民としてのフェイク画像と著名人のフェイク画像では扱いが変わる可能性が高いです
誰でも知ってる人著名人のフェイク画像を作った場合故意にネームバリューの恩恵を得ようとした可能性が認められると思いますが
有名でない場合偶然それが起きたと判断される可能性はあがるでしょう
では次に公開 販売しないケースを考えて見ましょう
まず肖像権なので30条の4に当てはめて考える事が正しいのかは少々疑問ではありますが
今回は公開 販売しない私的利用のケースを話しますのでそこまで深く考える必要はないでしょう
SNS上にアップロードされた女性の写真をダウンロードし
画像生成AIによりフェイクポルノに加工し個人が私的利用するケース
これは私的利用に該当するためおそらく違法性は一切ないと判断されると思います
ただ法で問題ないとしてこの行為は女性からすればとても不快なものですよね
SNS上に写真を上げただけで精巧なフェイクポルノを作られ私的利用であればそれを止めるすべを持っていない
そしてそれを私的利用に留めておいてもらえればまだよいですが
セクストーションに使われるリスクがあります
これはとても怖いでしょう 世の女性はSNS上に写真をアップロードする行為
カメラ 動画に撮られることがリスクになってしまいます
これを出来てしまった技術で片付けるべき問題ではないと私は思っています
このような物を生成できる画像生成AI 例えるならプロンプトに対するセーフティ NSFWコンテンツが生成できるソフトウェアは規制し
一般個人が使えるべきではないと思っています
私的利用の範囲だとしてもそのような用途で学習モデルを作る行為も規制するべきだと思っています
著作権法の存在意義 矛盾点について「約1710文字」
日本政府は海賊版対策に力を入れ 法改正など対策を講じて来ました
画像生成AIの学習データセットはスクレイピングにより画像データを収集しています
こちらには本来であれば有料で販売されていたイラスト画像が多数含まれております
こちらをベースに作られた学習モデルはいうなれば海賊版を元に成り立っておりこれを活用しようという日本政府の方針は随分と矛盾した主張だと思います
言ってしまえば海賊版を元に画像生成AIの学習モデルを作り
海賊版から模造品を作りそれを海外市場に向けて商品を作ろうという方策です
これでは何のために海賊版をなくそうと対策をしていたのかがわかりません
まず画像生成AIとは世界中の肖像権 著作権を侵害したデータセットを情報解析にかけることで作られています
30条の4に当てはめて考えた時これは果たして合法でしょうか?
まず著作物ではなく肖像権 人物の写真 個人情報が含まれていますね
これは切っても切り離せないものです
またそれ以外にもCLIPによる事前学習を元に成り立っているものであり 学習モデルだけの問題ではありませんので
この問題を放置し生成物を通常の著作権侵害と同じように判断する
という結論を出してしまったり
AI生成物にどのようなケースであれば著作権が発生するか協議するのはおかしいでしょう
まず開発学習段階の問題が何一つ解決しておりません
ここをクリアして初めてその議論をする段階に到達するものと考えます
著作権とは本来著作権者の知的財産を保護するためのものであり
不当なコピー 利用により権利者の利益が不当に害されることがないよう保護し クリエイターのインセンティブを促し
文化の発展を促進するためのものであったはずです
著作権法30条の4には情報解析に用いる際 無許諾では使う事が出来ない例外が設けられており
著作物に表現された思想又は感情の享受を目的とした利用
必要と認められる限度を超える場合や著作権者の利益を不当に害することとなる場合
著作権者の許諾が必要となり無許諾での利用が出来ません
私はこの例外となるケース 但し書きがクリエイターの知的財産を守るためのものであると考えていますが
今のLAION-5Bを元にした学習モデルであったりそれに追加学習をしたものを利用 活用しようという日本政府の今の姿勢は
クリエイターを守る気があるとは思えず この30条の4の但し書きは機能していないと思っています
これではなんのための著作権なのかがわからなくなってしまいます
著作権法の存在意義である
著作権者の知的財産を守り 正しく利益が分配されることによりインセンティブを促し文化の発展を促進するための機能が損なわれてしまうでしょう
AI開発と題してしまえば著作権を無効にし第三者が著作物を無許諾で利用できてしまう
これでは著作権者に正しく利益が分配されないため
一次創作者ほど損をし それを利用する第三者が利益を不当に奪うような構造になってしまっています
これでは新しく芽が出ることはなく一次創作者がいなくなり文化は発展せず終わりを迎えるでしょう
まずこの画像生成AIというもの海外では盗作ツールと呼ばれています
日本の法で合法だとしても海外ではそうではないでしょう
学習モデルには世界中の著作物が含まれています
これを使い海外に向かって胸を張って作品を作れるでしょうか?
少なくとも私は世界中のクリエイターを踏みにじりこの画像生成AIを使うという行為をすることは出来ません
海外に目を向けてほしいと思っています
これはチャンスではありません
もし生成AIを推進したいのであれば まず正しい規制
悪用などが出来ないように機能制限を設ける
AIで作られた物にはそうだと分かるようにメタデータを付与するなどにより
ディープフェイクにより社会が混乱しないように
違法なデータが含まれていないか 学習モデルの透明性の確保など
根本的なところから始めるべきです
クリエイターの知的財産の正しい保護を求めます
それと社会に混乱をもたらす生成AIの利用に対し正しい法規制を求めます
生成AIによるメリットを享受するためにも
まずそれによるデメリットを抑えるための法規制から始めてほしいと切に願っています
データセット 学習モデルが公衆送信にあたる著作権侵害である可能性「約1490文字」
画像生成AIは膨大な画像データを必要とするため
その学習モデルを作るためには膨大な画像データが入ったデータセットが必要です
ここで疑問に思う事は情報解析のためのデータセットをインターネット上で公開することこれは公衆送信に該当しますので
その中に著作権者に許諾を得ていないものが含まれる場合
これは明確に著作権侵害に当たると思われます
こちらはサーバー上に保存せずURLなどを介し 直接的な公開を避けているケースがありますが
これは海賊版対策の一環として令和2年の著作権法改正により
リーチサイト対策としてリンクを張っているサイトも違法になっていますので
URLによりワンクッションを置いた場合でもこれは違法な可能性が高いですね
ただここで疑問に思わなければいけないのは
30条の4によりAI開発の情報解析のためであれば著作権者の許諾を得ることがなく利用できるという点
この情報解析のためという名目であればどんな違法なデータであっても収集することが可能になってしまっているのは少々おかしい事のように感じます
まず学習モデルを作った際 現状学習に使ったデータセットを開示する必要がありません
どのようにトレーニングを行ったかも開示の必要がありませんので
エポック数を増やし過学習した学習モデルを作る事が出来ます
30条の4の例外として
著作物に表現された思想又は感情の享受を目的とした利用
は著作権者の許諾が必要なケースとはなりますが
現状それを考慮して情報解析が行われているのか外部から判断することが出来ませんので
本来有料で公開されているイラストを情報解析のためという理由で収集し
過学習し複製が出力できるようにする
この学習モデル データセットを私的利用の範囲で使う場合
恐らく誰にも気づかれることなく本来違法な物でも所持できてしまいますね?このような脱法が出来る30条の4は法として不完全であると言えると思います
違法な物としての例題の代表としては児童ポルノが該当すると思います
単独所持すら違法なはずですが この情報解析のため という理由によるロンダリングにより所持することが出来てしまうと思われます
次に学習モデルの場合のケースです
こちらに関しては公開した場合 オリジナルの画像は入っておりませんが
不可逆圧縮した画像から得れたデータの集合体です
まず先ほど説明しましたが データセットの開示も必要なければ学習回数を増やし過学習をしたものも公開することが可能です
この学習モデルを公開することは 元の著作物を出力できるものである可能性があり この中に含まれている著作物の公衆送信にあたる可能性があります
まず拡散モデルの生成AIは低確率ではありますが情報解析にかけた画像データの複製を出力する事があります
これは大規模な物か小規模な物 学習回数により過学習が起きているか?プロンプトはどうかと複合的なものを含みますが
偶発的に起こる事です
よって学習モデルとはそもそも著作物を内部に含んだデータセットに近いものと言えると思います
よってこれを公開することは著作物を無断で公衆送信することによる著作権侵害に当たる可能性があると考えます
これは新しい海賊版の形と言えるのかもしれません
直接的に生成が出来ないようにすることで海賊版ではないものに擬態し
特定のプロンプトにより海賊版を生成する学習モデルの公開
これが出来てしまう以上
データセットの透明性 学習モデルの検閲は必要でしょう
誰でも情報解析のためであれば違法なデータであれ収集できてしまう事
学習モデルと称し著作物を複製配布できてしまう事
これを取り締まるための法規制は必要なものであると思います
例文なし その他問題点+備考
単語を検索して各自で勉強を推奨します
そこまで理解度が深くないため本文中にて
説明していないものが多いです
間違ったことを書いている可能性があります
①GDPR 欧州連合(EU)AI Act
簡単に言ってしまえば個人情報を保護する法律ですね
EU域内の個人データをEU域外への移転する場合の条件なども含まれ
ChatGPTがEUで認められない理由として個人情報保護の観点から
明確な本人同意が得られておらず情報収集が行われているのでは?
という理由などにより禁止になったりしたわけです
ChatGPT 画像生成AIなどは世界中の情報を無許諾で集められたビッグデータを使用していますから 当然のこのGDPRの観点から
EUの個人情報を含むデータを使用していますので個人情報保護法に違反しているのではないか?と言われているわけですね
AIのトレーニングに個人情報を使う事を本人に同意を取っていない
ということが問題になっています
収集段階での問題 AIの訓練に使う段階での問題ですね
GDPR違反はとても重い罰金があり
軽度であれば 最高1,000万ユーロ あるいは前年度の会計における年間売上高の2%
重度の場合は 最高2,000万ユーロ あるいは前年度の会計における年間売上高の4%のいずれか高い方の額が罰金として科される
と非常に高額となっています
その他AI Actについてなどはこちら
資料としてとてもわかりやすいので総務省の資料のURLを置いておきます
情報としては少し古いものかもしれません 今ではもう少し踏み込んだ段階での話がされているとは思います
https://www.soumu.go.jp/main_content/000826707.pdf
追加情報としては2023年 6月14日
欧州議会にて 生成AIを含む AI規制案の修正を賛成多数で採択されています
AIで生成されたコンテンツの開示を義務付ける
これがとても重要で今まで学習データを隠すことでGDPR違反などを回避していた場合などでも
開示が義務付けられることによりデータセットを不正利用する事が出来なくなるということになりますね(まだしばらく先の話)
あくまでも欧州に限った話にはなりますね 欧州内でサービスを提供する場合と欧州内の個人情報を域外で利用する場合になります
②フェアユース
最近はよく聞く言葉だと思います
米国での著作物利用の際のルールとしての言葉の意味と
それ以外の場面で公正な利用である という意味合いで使われることがありますね
フェアユース=米国での著作物利用の際の言葉ではなく それ以外の場面でも用いられることがあるため
米国のフェアユースというのが 米国での著作物利用の際の話をする場合適しているかもしれません
最近よく話題に出る際はこの米国でのフェアユースを指すことが多いので
米国でのフェアユースについて話をしようと思います
フェアユースとは
著作権者から許可を得なくても、著作物を再利用できることを示した法原理となります
これを説明するのは非常に難しくてですね
まず日本と同じように私的利用の範囲であれば認められますし
研究であったり 教育の場で使う場合などにおいては権利を抑制し許諾を得なくても使えるという共通点があります
米国の場合ですとこちら判例による判断が多くてですね
絶対にここから先はダメ みたいな基準がないのでこのケースはダメ!!と言えるものがありません
基本的には営利目的での複製などはアウト寄りだと言えるでしょう
リバースエンジニアリングなどによる著作物の再利用の場合などは
それが営利目的で それによる製品が 市場競合をしているか?
など複合的な要因で判断されると思われます
Napster事件であったり
アンディ・ウォーホル事件など
著作物の利用に関してはこちらを調べて見るのが理解を深めるには適していると思われます
生成AIに限った話としては生成AIの生成物の複製性が問題視されており
これをフェアユースと見るかは懐疑的なようです
まだ何とも言えないところではありますが
これがもしフェアユースと認められない場合 大きな転換点となるでしょう
③生成AIによる市場への影響(私見)
こちらに関しては完全な私個人の私見となりますので
個人の意見として参考にしてください
まずこの話をする前提として著作物の無許諾での学習が合法となってしまった場合の話をします
上記例文中の無断学習における例題が適していた場合そもそも市場と競合する生成AIが利用できないものなため今回の話としては
市場と競合する生成AIが法で許されてしまったケースの話をします
著作物を情報解析を介し無許諾で学習
類似品を作る事が許されてしまった場合
これは明確に薄利多売の商品となり 市場に対するダンピングが行われます
まずそもそもな話で言うならば自己生産が可能なため
消費者が自分で望むものを作る事により 需要 が減ってしまいます
これによって何が起こるのか?
それは過剰な供給と需要の減少です 生成AIが代用して行うことが出来る作業は商売として成り立たなくなってしまうわけです
画像生成AIを例題に上げさせていただきますが
まず商品としての性能は100点とはならず 細かい破綻などが見られ
プロのクリエイターの作品と比べた場合劣るとは思います
しかし廉価版として生成AIによりプロクリエイターの作品の類似品を作る事により
100点じゃなくてもいい 80点で満足できる層がその商品を購入することにより
オリジナルを作った一次創作者の利益を結果奪う形になってしまうわけです
それ以外の観点から見ても選択肢の増加 これはすでに見られている事ですが市場に対しあまりに多くの商品が掲載されることにより
手作りの作品が埋もれ発見できなくなってしまう
まず作品をアピール宣伝する段階から過剰な供給により商品を販売する機会を失ってしまうわけですね
このような事が過去なかったわけではありませんが
今回は性質が複製に近い物 法律の抜け穴を突くような脱法に近い形での方式なため
過去の例題を参考にすることは間違っているのかなと思います
こちらについては特許の話にはなってしまいますが
先発医薬品 後発医薬品の話を例題に出したほうがわかりやすいかもしれません
まず新薬と言う先方医薬品には20~25年の特許期間が設けられ独占的に販売できる権利が与えられています
これにより研究費を回収する事 他のメーカーがコピー商品を作る事を禁止することにより新薬を作った会社の利益を守っているわけですね
ジェネリック医薬品 後発医薬品はその特許が切れた後 研究費を含まない価格での商品となりますので廉価版として安く提供できるわけです
これをイラストに置き換えて考えて見ましょう
イラストの場合は著作権ですので特許権(発明の保護)とは少々異なりますが
イラストを公開するなり 情報解析にかけられ廉価版としての類似品を生成されることは
一次創作者の利益を守るための著作権が機能しておらず
これでは生成AIを開発する企業 利用者のみが得をし
一次創作者に正しい利益の分配が行われず 最初に物を作る人が困窮し
いなくなってしまうでしょう
これを解決するためには 二つの考え方があり
①情報解析にかける段階から 利用者に許諾を必要とし 公開作品の類似品を作る事を出来ないようにする事(オプトイン)
②AI生成開発者 利用者が対価を支払うことにより 情報解析の元の著作権者に利益を分配する事
が挙げられます
しかし②に関しては現実的とは言えず
現状であれば①が無難な選択肢となりますね
①の場合当然の事ではありますが 市場が競合しないケースで
公共の福祉のためという名目であれば例外とし社会貢献のために利用する事は許されるべきだとは思われます
画像生成AIを例題にしましたが これはどの職業に対しても言える事であり
この問題を解決せず推し進めることは一次創作者の喪失
大量の失業者を生むことに繋がります
生成AIに労働者を置き換えられる大企業のみが生き残り格差社会を生むでしょう
生成AIにより皆が平等に社会が豊かになるというのは幻想です
著作権の本来の意味 著作権者のインセンティブを促すため
その著作権者の知的財産を保護し 正しく利益が分配されるように法整備を進め
正しいルールを設けることで初めてそのメリットを享受することが出来るでしょう
少しだけ補足をしますAI推進寄りの人がよく言われている意見として
既存物を組み合わせる パクる 真似るという行為が人間の本質だという話がありますが
まず基本 自分でそれを組み立てる能力を育てることなく自動組み立て装置だけを与えたとしても
それにより文化が発展することはないでしょう
真似るだけでは駄目なんです 改善をしなければいけない
だから基礎を学び 構造を学び 法則を学ぶ
そのうえで個人が思想を交え組み立て改善する 進化する事で新しいものは生まれてきました
生成AIにより基礎を学ぶことなく直接成果物を作る事は思考の停止を意味すると思います
クリエイターは誰しもが初めからプロであったわけではありません
駆け出しの時もあるでしょう 十分な稼ぎが得られず苦しい生活をしているときもあります
生成AIによりその駆け出し プロになるまでの間の金銭的内需を奪うことにより後続が育つことを阻害してしまうのであれば
これは日本のクリエイター文化を衰退させてしまうものであると思われますので
それを阻害してしまうような利用は出来ないようにするべきだと思われます
以上生成AIによる市場への影響に対する私見でした
画像生成AI そもそも拡散モデルって何ですか?と言う方に向けての説明
まず私は生成AI制作者ではないため間違ったことを言っている可能性はありますその点を留意しお読みください
まず画像生成AIとはGAN 拡散モデルが主流であり
今現在流行っているものは拡散モデルが主流です
そのため拡散モデルについて説明しようと思います
AI学習=情報解析 まず学習という単語を使いますがこれは人間が学習する意味合いとは=ではありません
これは情報解析の事であり情報抽出することを指します
この単語のみを取り上げ人間の学習と同義扱いする人がいますがこれは誤りであり情報抽出する作業の事だと理解してください
拡散モデルの情報解析を説明する前に
CLIPモデル
※注意 CLIPモデルについての説明は、非常に簡単にしているため厳密に言えば下に書かれているほど単純な物ではありません
本当に詳しく勉強したい方は各自でもっと調べて見ることをおすすめします
CLIPモデルというものがあり
これ自体はゼロショット 簡単に言えばタグ付けされていない画像を情報解析にかける際
その画像にラベル付け タグを自動で付けるために使うものです
これによりスクレイピングにより集めた膨大な画像を管理分類分けをする精度を高めています
(猫が飛び上がった画像を情報解析にかけた際 自動でjump.catとラベル付けするイメージ)
こちらは画像とセットで学習することで作っており(CLIP学習)
学習モデルを作る際
CLIP学習の際に使われた 同じ画像がある場合復元精度が上がるため複製が出やすくなるのではないか?と指摘されています
こちらも無断学習を元に作られています
また拡散モデルで特徴的なプロンプトによる生成にも使われており
画像生成AIでプロンプトを入力してtext to imageを行うことが出来るのはこのCLIPデータのおかげです
情報解析時は画像をtext(ラベル付け)に変更し 生成時はtextからプロンプト(ラベル付けされたデータ)を検索し それを元にCLIPデータと参照し類似度を測る事で目的の画像を生成します
拡散モデルの学習モデル作成
拡散モデルの説明に戻りますが
情報解析の際画像データを加工し学習に使えるようにします
学習時 ガウシアンノイズ イメージとしては砂嵐のようなものでしょうか?
を時間に対して徐々にかけていき最終的にはただのノイズ画像にします
この際マルコフ過程というものを用いてデータを得ていますが
難しいのでそこまで理解しなくて大丈夫です
完全なノイズ画像となったものを今度は逆にノイズを除去していき
元画像に復元しようとします
これが拡散モデルのトレーニングになります
得られたデータは特徴量 ベクトルなどと呼ばれています
学習モデルはこのデータの集合体で重みなどの言葉を使いますが
そのデータを調整することで完成しているものです
このデータは画像データではないため 元の画像データがそのまま中に入っているわけではありませんが
過学習が起きている場合 オーバーフィッティングが起き生成時に複製を出す事があります
過学習が起きていなければいいのか?という問題については難しい問題で
完全な複製に近いものが過学習と呼ばれているだけであり
ある一定量の元データに戻せるだけのデータは保持していると思われます
この事からこれはデータ圧縮であり損失をともなう不可逆圧縮(非可逆圧縮)ではないか?と指摘されています
過学習について
過学習は言葉の通り過度に学習したとも言えますし
オーバーフィッティングしたとも言えますが難しいので詳しい説明を省きまして
簡単に説明すると
拡散モデルのトレーニングは訓練データを一巡したら終わりではなく
一回回すことをエポック1とし
二回三回と繰り返し行い調整します
そのため学習モデルにはエポック数が書いてあることがあります
何回訓練データを一巡したかの数値が書いてあるわけですね
これは学習モデルを作る際丁度いいバランスをとるために行われていることであり 少なすぎてもダメだし 多すぎると過学習が起きるというものです
こちら今現在学習モデルそのものを作る際 どのようなデータセットを用いたか?エポック数が多くなりすぎて過学習が起きていないか?
重みを調節した結果オーバーフィッティングが起きていないか?
などのチェックをする必要がないため
その学習モデルが過学習を起こしたものかどうか外から判断することが出来ません
またブラックボックスとなっているため学習モデルを作った人でさえ明確には分かっていないと思われます
次にプロンプトについての説明をします
先ほど説明しましたがCLIPデータを用いてプロンプトによってラベル付けされた画像を検索し
そのデータから復元 合成することで生成物を作ります
そのため入力されたプロンプト次第で引用される元画像数(この表現は正確には正しくありませんが)が変わるため
対象となる画像が多い場合 多くが混ざるため元画像に近いものが出づらくなりますが
入力したプロンプトに該当する元画像が少ない場合
少ない画像を復元合成するため 元画像に近いものが出やすくなり
複製が出る確率があがります
例えばgirlというタグであれば対象画像が多いため多くが混ざるため複製が出る確率は低いでしょう
ではプロンプトを伸ばしたらどうなるでしょうか?
girl,white hair,school uniform の場合女の子で白い髪で学校の制服
に該当するラベル付けされたものを引用するため合成される数が少なくなるので元画像に近いものが出やすくなります
例えば学習時に特定作家の固有名詞であったり
そもそもそのラベル付けされた画像データが少ないものであれば
それをプロンプトで呼び出した際当然元画像が少ないため
元画像の複製に近い物 類似性が高いものが出やすくなります
これは過学習が起きているか?という問題以前に拡散モデルの仕様上そういうものになっています
また画像データが少ないものは過学習が起きていない物であれば上手く再現できない事も多く崩れたものが生成される可能性も上がります
これを踏まえて考えた時日本政府がプロンプトに試行錯誤をした場合
AI生成物に著作権を与えるべきか?というものは
プロンプトで細かい指定をするほど対象画像数が減る恐れがあるため
著作権侵害になる複製が出る確率が高いプロンプトほど
著作権が与えられる確率が上がるという矛盾した話にもなるため
大分おかしい話であると言えると思います
i2i(image to image)について
画像から画像(image to image)を生成することからこの名前がついています
原理として詳しく説明されているページが見つからないため間違っていたら申し訳ないのですが
画像を画像生成AIの生成時にセットし
Denoising strengthと言うもので 0~1まで(0.01から1まで設定できる)
画像を参照し t2i(text to image)と合わせて画像を改変します
改変とは言いましたが正確には画像の上にノイズを乗せ それを元に生成します
Denoising strengthとはノイズ除去強度という意味合いのようで
0=ノイズなし(正確には0でも改変されるため少しは乗っている?)
1=ノイズ全開 元画像をほぼ無視し全く違うものになります
といった感じです
Twitter上などで見たことがあると思いますがこのi2iというもの
元画像に限りなく近いが少し違うものを生成することが出来ます
これは数値が低い物0.05~0.1などの場合で
0.2 0.3と数値が高くなるほど元画像から離れていきます
0.5ともなれば元画像の面影は辛うじて残っているが構図が似ているが別物に見えるぐらいの差が出ます
またtext to image プロンプトによる影響も受けるため
どう改変するかをタグによって操作することが出来ます
これにより元画像に類似した別画像を作る事が出来ます
服を着た女性から 裸の女性を作る際は
textでその指示をすることで行います
詳しいやり方を説明すると悪用されそうなので もっと細かい部分についてはここでは伏せておきます
こちらについて法的な観点から見たとき
i2iは情報解析と見られるのか?それとも生成時による利用であり30条の4の対象ではないのではないか?
という問題が出てきます
私個人の意見としてはこれは学習 情報解析のための著作物の利用ではなく
生成段階による利用だと思われますので
明確な著作者人格権の侵害 同一性保持権の侵害だと思っています
著作物の無断改変にあたると思っています
30条の4とは学習段階AI開発段階のための法であり
生成段階には適用しません 生成段階は既存の著作権法が使われるはずなため
これは違法に当たると思っています
ただこれはDenoising strengthの数値を高く設定した場合元画像を特定することが困難なため
されたとしてもわからない可能性がありますね
生成AIがゼロから作っているって主張はどういうこと?
生成AIが0から作っている
この主張を目にしたことがある人がいると思われます
これはベクトル 特徴量とは
情報解析(ガウスノイズによる情報抽出過程)
要するにリバースエンジニアリング(分解 解析)により得られたデータであり
凄い分かりやすく言えば設計図を元に作っているのだから
元画像は使っておらず 0から作っているという主張ですね
生成AIに概念を理解させるという言葉がありますが
画像生成AIはAI/MLというものであり人工知能ではありません
MLとは機械学習の事です
計算科学分野であり人工知能とは全く違うもので
深層学習を伴いますが 生成AIは思考はしておりません
計算 分析を行うものですね
そのため生成AIを人工知能と呼び 画像生成AIが学習データから思考して絵を描くという表現は間違っています
どちらかと言えば統計であり パターンによる再現です
そのため描くというよりは合成と表現する方が正しいでしょう
0から作っていると表現するなら学習データがなくても出来なくてはいけないはずのでこの表現は大分間違っていると私は考えています
以上で拡散モデルについての説明を終わります
まとめ
生成AIに対しての問題点は数多くここに書かれている事以外にも多くの問題があります
全てを網羅すると文章の量が多くなりすぎてしまいますのでこれぐらいに留めておこうと思います
内容に細かい変更を行う事はあると思います
正しく問題点を理解し 日本の創作文化が途絶えてしまわないよう
権利を主張していくことは間違っていないと私は思います
頑張っていきましょう!