『AUTOMATIC1111版Stable Diffusion WEB UIにおける地域名の影響力検証と肖像権リスク考察』

2023年5月18日 19:05

1.前文

　今回は1プロンプトだけを様々な国名や地域名に置き換えることでどの程度の影響力が出るのか。顔つきはどう変わるのか、また大幅な変化はあるのか等を検証します。

　これは好みの顔を生み出す際に一考にしていただきたいのと、肖像権を意図せず侵害することはありうるのか、という側面からも画像を見比べていただきたいと思っています。
　Stable Diffusionのフォトリアルモデルにおいて、肖像権の侵害リスクはどうなのか。
　これを見れば、感覚的にそのラインが少しだけ紐解けるでしょう。

　なお先行検証としてAI画社さんの大変面白いTweetがあります。
　こちらはSD2.1768モデルでの検証ですが、国名や言語を元にChatGPTを使用してランダムに生成した名前をプロンプトに入力すると顔立ちが変化するというものです。

　勿論プロンプト変化で顔立ちが変わるのは当然なのですが、少し見た限りでも名前が使われている地域と関連性がある顔立ちへ引っ張られていることが見て取れます。

Name test. Use same prompt(in alt) and same seed, just change the name in prompt. Names are generated by ChatGPT, from different languages and countries. pic.twitter.com/BJ74wqhwzE
— AI画社(AI Image Studio) (@chinkanseki) April 26, 2023

　SD2.xモデルはSD1.xモデルよりCLIPの自然言語処理能力が高いので、今回検証に用いるSD1.5baseのchilled_remix_v2とは感度が違うとは思いますが、それでも大変興味深い検証ですので、是非一度拡大して、並べてみることをお勧めいたします。

2.欧州地域プロンプトによる女性の顔変化

　今回、検証に用いるchilled_remix_v2は極東アジア顔が極めて顕性なモデルで、欧州系の顔立ちは潜性的です。その為、欧州等の顔立ちが得意なモデルだと髪色等に露骨な変化がある可能性があることにご注意ください。

　今回用意した検証用プロンプトは下記です。この△△△にX/Y/Z plotのPromptS/Rで表示の単語を入れて出力します。

(Hires),(ultra-detailed),(high quality portrait), A (breathtakingly beautiful △△△ woman:1.2) in chic attire stands, Her (enticing) smile captivating all who behold her,(symmetrical clear eyes:1.2),

検証用プロンプト

　今回は欧州10カ国の首都名・国名・国形容詞化プロンプトをそれぞれ入力し、国名などでの差があるのか。首都名と国名での違いはあるのかを確かめてみましょう。

　ここで面白いのは、構図が変わってても、別の国や地域名で同じ構図が現れていて、全体を通してみれば、大幅に構図全般が変わっている訳ではない点がまず面白いですね。

　そしてRomaの服装への影響力が凄いのと、Sweden・Swedishは髪色が明るくなっていますね。またGreeceやGreekは地中海的風景や地中海の肌になっている画像が見受けられます。

　それでも全体的なベースの顔は類似性があります。ベースの顔を少しだけプロンプトに寄せたという印象です。
　黒髪指定ないのに、黒髪メインで少しブルネットが混じっているというのも、ベースが極東アジアモデルだからでしょう。
　また全体的に髪がウェーブしているのが見受けられます。

3.アジア地域プロンプトによる女性の顔変化と五大都市圏・五大州の比較

　続いてはアジア10カ国の国名と国形容詞。そして日本の五大都市圏、五大州をまとめて比較してみましょう。

　こう見ると先ほどの画像はやはり明らかに欧州顔に変化していたことが分かります。中でも面白いのは服装などに影響力が強いところでしょう。
　やはりアジア系の顕性モデルの為、そこは強いのだと感じました。

　そしてインドとパキスタン。宗教の違いはあれど人種的や文化的な近さが表されています。またモンゴロイド系国家だと髪がストレートなのに対し、コーカソイド系のインド・パキスタンは髪がウェーブしているというのも興味深いです。カザフスタンはモンゴロイド系とロシアなどスラブ系出力の中間的で中央アジアの因子が感じられます。

　日本の五大都市圏は服装や背景以外の変化は少ないですね。
　そして五大州（アジア・ヨーロッパ・アフリカ・オセアニア・アメリカ）の差は面白いですね。

　1つ目はアフリカを入れると露骨に変化すること。これはアフリカ人の顔が白人顔等で上書き学習されないような断絶があるように感じます。人種問題は複雑なのでその配慮があるのでしょう。

　2つ目はヨーロッパとアジアでこう見ると露骨な差がありますね。オセアニアは良く分かりませんね。

　最後はアメリカ。この左上の女性の肩幅、露骨に広いですよね。USAのマッチョイズムがここにまで侵食しています。また顔立ちもUSA要素を感じます。USAでもAmericaでもなく、Americasなのにアメリカの浸食が圧倒的です。
　そもそもUSAは多民族国家の代表格なのに、妙にUSA顔を感じるのもまた面白いところですね。

4.結論と肖像権のリスク

　ここまで各画像をご覧いただき、どう感じましたか？
　極東アジアメインに調整したモデルだと、こういう国名などの要素は顔立ちを少しだけ変化させるアクセントとして有用だと私は思いました。
　そして同時に想像より変化量は少ない。

　つまりBritish womanと指定したからといって、British womanで学習された潜在空間の中からそのままその顔を拾い上げる訳ではなく、あくまでそのラベルの持つ要素に線形的な近づきを行っているというのが見て取れました。もちろん、(British woman:1.6)などの場合は影響力が強い訳ですが、それは歩み寄り方のレベルの差です。
　British womanという箱からその顔を引き上げるような行為をしているわけではないのです。
　その点を考えれば、肖像権を意図せず侵害するリスクはこういうプロンプトにおいては低いです。

　またこのchilled_remix_v2はマージモデルであり、情報の平均化が行われています。加えてややイラスト寄りモデルも含まれているので、イラスト系の顔と融合した結果、非実在的な顔が出るように設計されています。
　ただし、逆を言えば平均化されていないマージではない学習モデルを用い、特定の人名や細かい指定を入れると、学習された顔そのままが出る可能性はなくはないわけです。

　それを避けるためには、

　①マージモデルを用いる。
　②別の方が作成されたLORAを僅かでも入れる。
　③ある程度自然言語的なプロンプトで構築する。
　いずれかを行ったほうが良いと思われます。
　

　上記さえ気にしていれば、肖像権を意図せず侵害するリスクは天文学的なレベルでしょう。Midjourneyのような人名ラベリングをしてそれをプロンプトに入れない限りは、かなり低確率です。
　イラストモデルの線や塗りが画一的だったり、SD1.5の顔が同じような顔になってしまいやすい原因はこれで、ただ逆に肖像権侵害はしにくい仕様になっています。

5.最後に

　世間では音声学習AIの問題が叫ばれ始めています。
　政府としては著作権法は当面改正は考えておらず、現行で対応するという方針ですが、肖像権周りに関しては改正は入る可能性が高いです。ディープフェイクの問題はもう10年以上叫ばれていますが、今回は生成の容易さもあり、国としても動かざるを得なくなると見ています。

　また各サイトでは実写系児童の性的コンテンツを禁止する動きが加速しています。これを本物じゃないのだから児童ポルノではないという声があり、それに関しては定義的に正しいものの、

　例え1枚でも本物が混入していたら。
　1枚でも本物からi2i等での児童ポルノがあったら。

　そう考えると企業側としては全面禁止も無理はない動きだと思います。そもそも二次元ですら低年齢に見えるエロには厳しい時代ですから。

　画像生成AI界隈は色々な意味で大変ですが、また新たな可能性がどんどん生まれています（一番大変なのはそれを追うことかも知れませんが）。
　一般化の波も来ており、少しずつ前進していることを感じています。
　キャズムを超えた次のステージに届くまで、面白く良き生成ライフを送れることを願っています。

　今回使用した画像はサイズの都合上、見づらいので、出力原版を下記に添付いたします。