無断学習の根っこはわりと深い【AIイラスト】
AIイラストについて回る"無断学習"の問題
無断学習というけど実はけっこう根が深い問題、というのを自分のメモがわりにまとめてみました。本来の手順とは異なるイメージ優先の表現をしています。興味がある方はご自分で調べてみてください
あとLORAやi2iやControlnet等の制御技術は簡単にするため無視します
AIモデルは「作成」「公開」の二段階がある
AIモデルとは、私たちが普段DALL~とかFLUX~とかAIの名前として使っているアレです。これが生成AIの本体で画風とかを司どっており、内部には学習されたノイズからの画像生成方法(後述)が格納されています。画像生成AIはこのデータが全てです。自分でネットで画像を漁ってきたり、出力を変化させていく自律性は持ち合わせていません(2024年12月の現時点では)
AIの製作者(作成側)を押さえる必要がある
図1を見てわかるとおり、学習が行われるのはAI作成段階のほうです。つまり行っているのはAIモデルの作者です。一度モデルが公開されると後は不特定多数に拡散してしまうので、そうなる前に手を打つのが現実的な対策でしょう
以下は本題に戻り、無断学習問題の根の深さをクローズアップしていきます
LAION等の出来あいのデータ集がある
AI関連でLAIONという名前を聞いたことがあるかもしれません。これは非営利団体が公開している出来合いのデータセットで、これまたコモン・クロールという非営利団体がネットでかき集めたデータをもとに作られたデータセットです
中身は画像のURLとその画像の説明文です。画像自体は含まれていません
LAIONは多くのAIに活用されています。AI用のデータセットをゼロから作るのは大変なため需要があり、Stable Diffusionなどの有名なAIモデルでも使われています。この中に作品が含まれていた場合は学習されてしまいます。こうした出来合いのデータ集を提供する組織が存在していることも覚えておきましょう
ただ、これらの組織はデータ収集に関してポリシーを作成しており、LAIONの場合はrobots.txtを尊重するとしています。可能であるならそれに従った対応をすることで、当該組織からの無断学習であれば回避できます。自分で管理できない外部サイトであれば、運営側に対応をお願いしてみましょう
学習段階で元データがわからなくなる
現在主流の拡散モデルにおいては
元画像→ノイズまみれの画像、と変化させていき
ノイズまみれの画像→元画像、と復元する方法を学習します
あわせてどの画像がどういったテキストと対応するのかも学習しておきます。こうして学習させたモデルに新たに生成したノイズを与え、解釈内容をプロンプトで制御することで、テキストから絵を生成できるわけです
完成したAIモデルの中には学習結果、すなわちノイズの取り除き方をデータ化したものだけが残ります。ここが厄介な点で、公開後のAIを解析しても元画像が出てきません
学習に使った作品はモデル製作側にしかわからないのです。無断学習の有無を確認するにはAIに用いたデータセットか、それに類する情報を開示してもらう必要があります
それを踏まえると個人的には、公開後のAIを用いたとだけでユーザーを糾弾するのは、あまり筋が通っていない気がします。ユーザー側も中身に何が含まれているかわからないからです
出力内容に無断学習の疑いを抱いたのなら、そのユーザーの使ったモデル名を聞き、モデルの作者のほうにコンタクトを取る方が筋が通っている、と私は思います
ただし、出力結果そのものが誰かの作品に酷似している場合、現行の法制度で対応可能です。いわゆるトレパクと同じ扱いで、現行法ではこれに関して手描きもAIも区別していません。出力物そのものに関する責任は、出力した者(AIの利用者)の責任となります
ところで拡散モデルの仕組みを聞いて、元画像が復元できるのでは?と思ったかもしれません。理論上は学習元の類似画像が出力される可能性はあります。そうした実験もあります(画像重複による過学習に関する実験である点に留意)
これは元となるデータセットと突き合わせて確認が必要なため、無断学習の有無の判定には使えません
さらに実際にはシード値によるノイズ形状+プロンプト+(step数などの各種設定)がぴったり嚙み合わないと類似画像が出ないため、現実的には元画像は出てこないと言って差し支えないでしょう
チキンレースで無断学習がやめられない
そもそも何故、ネットから画像をかき集める有様になったのか。倫理的に問題があることは素人目にも明らかです。理由は色々ありますが、その中の一つにAI開発が半ばチキンレース化していることがあります
かつては研究用の高品質・少数のデータセットだった
※正確な記録ではありません。物語程度の認識で読んでください
元々は研究用途のデータセットを使ってAIが作られていました。これは研究用だけあって高精度なタグ付けがされ、権利関係にも配慮されたものでしたが、手間がかかるためデータの数を増やしづらいという問題がありました
インターネット上のデータを持ってくるという発想は存在していましたが、玉石混合のネット世界には多数の「間違ったデータ」が存在しています
たとえばスニーカーの写真を集めるとき、日本の草履の写真に外国人が"スニーカー"という説明文をつけると、それが紛れ込むわけです。こうした間違いを除去する方法が見当たらないため、当時は誰もネット上から集めようとはしませんでした
誰かが数でゴリ押すことを考え付いた
しかしどこかの誰かが「間違ったデータがあってもお構いなしに数をかき集めれば全体としては問題ないんじゃね?」と考え付きます。間違ったデータを除去するのではなく、数の暴力で覆い隠してしまおうという発想の転換です
AIは基本的にデータの数=性能なので、この手法なら既存の研究用データセットを凌駕する数で学習可能です。そして実際に上手く行ってしまったわけです
チキンレース化
こうなると他も追随してきて、倫理面でやりすぎない範囲でギリギリまでブレーキをかけるのを遅らせるチキンレースじみた状態となっているわけです
法規制が遅いのも、強い規制をかければその時点で国内AIテック企業が全滅するという不安があるのかもしれません(これは何の根拠もない妄想です)
まとめの箇条書き
AIモデルの構想を練る段階から関わる問題である
AIモデルの作成段階の話である
無断学習AIモデルの配布を止めない限り利用者は増え続ける
AIモデルを解析しても無断学習の有無がわからない
業界構造的に簡単には止めづらい面がある
このようにAIモデルの根幹から関わる根が深い問題です。モデル利用者を見つけて注意喚起するのは啓蒙活動としては評価できますが、根本的な解決になり得ません。世界人口80億人の誰もが生成AIユーザーになり得るのですから無茶な話です
それと啓蒙活動なら啓蒙活動なりの言葉遣いというものがあると思います
私見:法規制と公正なマーケットが必要
ここからは私の意見です
このような現状では、どこかのAIテック企業を狙い撃ちしても相手が反発するだけで無意味です。乱暴でも時間がかかってもいいので、法規制という形で全員一緒に、無理やりにブレーキをかけさせるしかないと思います
チキンレースというよりは軍拡競争における軍縮条約の発想ですね。どこかが一人負けすると不満がでるので、時期を決めて「せーの」で一斉に始めるという発想です
法規制の有無にかかわらず、AI学習によってクリエイターが正当な対価を得ることのできるマーケットを作り出す必要もあると思います
これはSDGsの発想と同じです。公正なマーケットでデータを集めたAIであれば利用者も安心して使用でき、AI提供側のブランドイメージ向上にも繋がります。転じて正当なマーケットを介さないAIは怪しい代物として排除されていくでしょう
そして学習データを"売り物"として対価を払うことが当然という世の中になれば、取引行為というくくりになるため関連法の強力な保護を受けることができます。"売らない"という選択肢も尊重されるようになるわけです
現状はその気になれば誰でも無料で持ち出せているからこそ「これはあげません」という主張に意味がないわけです
マーケットの作成を実行しようとしたのがAdobe fireflyです。発想そのものは評価されるべきだと思います
おわりに
SNSで画像生成AIで遊んでいるだけのユーザーは、STGでいう基地から幾らでも沸いてくる雑魚敵のようなものに過ぎません。中枢を叩かないと意味がありません
不思議なことに、こうしたAI製作者やAI企業に関しては思った以上に風当たりが弱いように見えます