AI学習からイラストを保護する「emamori」の効果を検証する

2024年1月17日 10:51

本記事は、無断のAI学習からイラストを保護するサービス「emamori」の保護効果を検証するものです。

emamoriについてはこちらの正式リリースに関するプレスリリースをご参照いただけますと幸いです。

https://prtimes.jp/main/html/rd/p/000000003.000127618.html

emamoriではイラストに特殊な電子透かし・ノイズ（人間の目で見ても目立たないもの）を挿入することで、正確なAI学習を妨げ、AIイラストによる模倣を一定阻止することを図ります。この保護技術には、Mistを使用しております。

昨年末に大幅なアップデートを伴うMist v2が公開されました。v2では、処理時間の短縮、ノイズの減少、そしてLoRAに対する効力などが論文で実証されています。

LoRAについて

はじめに、LoRAについて簡単に説明させていただきます。（既にご存知の方は、このセクションはスキップいただければと思います。）

Stable Diffusionのような画像生成AIは、既に多くの画像の学習が完了しているため「事前学習済みモデル」と呼ばれています。（具体的には、50億枚の画像を含むデータセット「LAION-5B」を学習済みです。）

当該Stable Diffusionのモデルは仕組みが公開されているため、誰でも自由に改変を加えることができます。

そのため、既に学習が終わっているとはいえ、既存の学習ではカバーされていないような画像を自分で好きに持ってきて、追加的に学習させることも可能です。これを「ファイン・チューニング」（日本語では「追加学習」）と呼び、ファイン・チューニングにも様々な手法がありますが、LoRA（Low-Rank Adaptationの略）もそのうちの一つです。

LoRAはより短時間で、より少ない計算パワーでのファイン・チューニングを可能にさせるため、個人でも簡単に使用することができます。

例えば、とあるクリエイターAさんのイラストを数十枚もってきて、LoRAによる追加学習を実施すれば、ほんの数十分で完了し、LoRAファイルが出来上がります。クリエイターAさんの独特の画風や、クリエイターAさんが創作した特定のキャラクターに類似したイラストを出力できるようになります。その手軽さから、LoRAは現在最も普及しているファイン・チューニングの手法の一つであると思います。

Mist v2で期待される効果

検証を開始する前にまずは、Mist v2のLoRAに対する効力が、どのように現れるとされているかを、Mistのドキュメントから確認しておきたいと思います。

キャラクターや風景の模倣自体は一定できているように見えますが、全体的にノイズが目立ち、絵が崩れてしまっていることが分かります。（キャラクターの顔や体が多少歪んでいるようにも見えますが、プロンプトの影響の可能性もあり、ここでは無視いたします。）

emamoriの検証では、同じような結果が得られたら、Mistの論文で謳われているとおりの保護効果があったと結論づけたいと思います。

検証の準備

学習素材は「東北ずん子　版権商用利用の手引き」に基づき、東北ずん子公式が配布している、01_LoRA学習用データ_A氏提供版_背景白から16枚使用します。参考までにうち2枚を下記に貼らせていただきます。

また、元の生イラストをMist v2で保護します（なお、保護効果をさらに高めるために、emamoriで独自の後処理も挟んでいます。）

保護していない生イラスト16枚、Mist v2で保護した生イラスト16枚で、それぞれLoRAを制作します。（LoRAが2個出来上がります）

その他詳細：
Google Collab Proで、Kohya LoRA Dreambooth v15.0.0（キャプション方式）を使用してLoRAを作成。学習時のタグは公式が用意してくれているものをそのまま使用。学習時のベースモデルおよび生成時のチェックポイントは、Stable Diffusion 1.5ベースのアニメ系モデルを使用。

検証結果

まずは、保護無しの生イラストで作ったLoRAで「zunko」というプロンプトでAIイラストを出力します。

学習時のタグと全く同じプロンプトでも生成しておきます。

zunko, 1girl, solo, skirt, pantyhose, green skirt, very long hair, hairband, shoes, pleated skirt, school uniform, green sailor collar, bag, shirt, white shirt, white background, brown footwear, short sleeves, loafers, bangs, full body, black pantyhose, sailor collar, school bag, simple background, ribbon, walking, open mouth, neck ribbon, serafuku, looking at viewer, :o, blush, standing, pink ribbon, puffy sleeves, puffy short sleeves, standing on one leg, frills

次に、Mist v2で保護したイラストで作ったLoRAでAIイラストを生成します。

ノイズが大幅に入りました。また、髪の色、目の色、緑のヘアバンドなどの情報はとらえられていますが、ずん子っぽさでいうと、再現性が多少落ちたかもしれません。

もう少し生成してみます。

学習時と同じタグも試します。

全体的に、冒頭で記述しました「Mist v2で期待される効果」に近しい結果が得られたのではないかと思います。

（注意点として、私の環境ではうまくいきましたが、Stable Diffusionのバージョン、Checkpointの種類、LoRA学習時や生成時のパラメータも大量にあることから、全ての組み合わせにおいて成功することを保証するものではないことは念頭に置いてもらえればと思います。）

検証は以上になります。

なお、詳細は省きますが、Mist以外の、ファイン・チューニングを阻止する技術ツールでも同様の検証を行いましたが、効果が確認できなかったため、Mist v2が謳う「LoRA耐性業界初」というのもおそらく本当であることが分かりました。（emamoriではMistに限らず、優れた技術が台頭すれば、積極的に採用していきたいと考えております。）

最後に余談ですが、特殊なケースでしか起きなかったものの、AIイラストがものすごく壊れた例も載せておきます。（残念ながら、恒常的な効果としては得られなかったため、emamoriの保護効果としてご紹介いただく際は対象外でお願いできればと思います。）

Angryなどのタグを入れていないのに、業火の中、怒ったような顔つきでこちらを睨みつけるずん子。いきなり出てきて怖かったです。無断学習はやめましょう。

本記事は以上になります。最後までお読みいただきありがとうございました。

今回のような長めの情報はnoteで更新していきたく、noteのいいねやフォローをいただけると嬉しく思います。

また、通常の情報発信はXでさせていただきますので、こちらもフォローいただけると大変幸いです。https://twitter.com/emamori_ai

引き続き、どうぞよろしくお願いいたします。

この記事が気に入ったらサポートをしてみませんか？