Reference Only

2023年5月21日 16:36

われらはみだしっ子

少し前から、「学習せずに一枚の画像から絵柄・キャラクターを模倣」なんて、Controlnet の reference only を紹介する声が聴こえてきますけど、
反応を見てても「言うほどには・・・」という声もよく見かけます。

実は「へぇっ、そんな事ができるんだ」と私も試してみたのですが
適当に絵をつっこんだだけでは、下図のようにしかなりません。

ちなみにこのキャラは1975年～81年に「花とゆめ」で連載されていた故三原順先生の「はみだしっ子」シリーズ、サーザ・グレアム・ダルトン。

「何だか凄いって聞いたけど、いまひとつだなぁ」
私もそう思って手をつけていませんでした。
これならば、模倣するよりむしろ現代風にリメイクしてみる方が、AI絵を作って遊ぶには面白いのではないか・・・

同じControlnetでも元絵無視。

Reference Only も他に色々と試してはいたけど・・・

どう捻っても絵柄やキャラクターを転送しているようには見えない。
要するに私は変わった物ばかり入れたがるから？

LoRA学習をしながら

先日、すずきつづみさんの衣装をLORAに学習させるのに苦労していて
(袖というよりアームカバー。ジャケット本体とは離れているのですが、どうしても長袖ジャケットを半脱ぎして肩出ししてる状態になる)
Controlnetでバリエーション作ったり、線がガビガビになりかけているのをアップスケールで直したりしていたのですが、たまたま間違えてリファレンスオンリーをセットして生成する・・・

プロンプトは「a girl sitting」だけ。「あれ？LoRA組み込んでないのにつづみさんが出てきてるじゃないですか。」
あぁ、そうか。LoRA学習なしで参照画像と同じキャラクターが出せるってこういう事か。

追加学習なしで、と言うと何でもその場でコピーしてくれるような印象を受けますが、流行のキャラクターを再現する要素自体が元々のモデルに入っているからこそできる事。

だから昔のマンガやオリジナル画像、マイナー人気な物などをAnything系モデルで参照しても似ているか？と言われれば微妙な絵ばかり出てくる。
私は実写系モデルはChillout、イラスト系はAnyLoRAを当り前のように使い分けているけど、これらは言わばどちらも特化モデルです。
極端に言えば、アニメ特化モデルで実写画像出そうとしたり、写真特化モデルでアニメ絵出そうとするのと同じ事をやってたという事。

そういった特異性を抜いて汎用的に利用するならStable Diffusion 1.5系や2.0系などをベースに使う方がいいのかもしれません。
上のような絵なら70年代、80年代の少女漫画を学習させまくったモデルを使えば意に沿った物が作れるのでしょうか。

求められているイラスト

ネットでは二次元絵ばかりが持て囃されますが、現実の仕事では"いらすとや"さんのようなちょっとしたカットも需要が多かったりします。
アニメ絵がどこでも通用する訳ではありません。

昔、広告会社で雑誌のコピーライター兼イラストレーター(といっても白黒カット絵)をやってた時期もあったのですが、毎日朝8:30～夜11:00、残業代も出ず取り合えず数をこなさなければいけない過酷な職場。
なのに「わたせせいぞうのようなオシャレなカット、今日中に描いてくれ」とか無茶な要求ばかり飛んでくる。だったらわたせせいぞうに注文しろよ。イラストレーターもプログラマーも職場においては「タダでこき使える便利な奴」です。

そういうのを体験していますから、画像生成系が出てきた時自分のタッチを学習させて大量生産という側面も面白いかなと思ってました。

「画像生成」というだけで「やめろ！」と難癖つけてくる人がいるのですが、お前ら今後はアップスケーラーもインペイント機能も使うなよと本気で言いたい。まぁ言ってる事、理解できないでしょうが。

出来上がった物に対して、あぁだこうだと評価するのは知識がなくとも誰でもできますが、この技術がどこへ繋がるか、どう活かせるか、そのためにどうすれば良いのか、そこまで読み解くのはなかなか難しい物です。

美味しんぼ初期の海原雄山曰く、「食ってみないと雲雀だと気づかない愚か者が食の専門家を騙るな」
ましてや、理由つけて他人を殴るのは正義でも何でもありません。

話を戻します

よく解説動画などでサンプルとして使っているイラストのキャラクター・タッチ、女性写真の顔自体が、綺麗ではあるけれどありふれたタッチ、顔ばかりなんですよね。だからそんな動画を観て、「お、似てる、すげー」となっても、実際に自分の身の周りにある物を放り込んでみると「あれれ？おっかしいぞー」になってしまう。

そもそも、ひそかに思っていた事ですが、写実風の画像にしても、AI画像投稿サイトなどに沢山美女の画像が投稿されているけど、正直みんな同じ顔してなくね？これって、ただのKorean Doll Likenessだよね？とか。

この人物、本当に生きていて喋ったり動いたりしてそう、という生活感・緊張感まで表現できている人は本当限られていると思う。
むしろDAZ Studioなどで作られたCGの方がそういった空気を感じさせる人物画像作る人は多かった。

再度、Reference Only 検証

理屈がわかったのなら、もう一度Reference Only 試してみよう
ささらさん、LoRAは作ってあるけど、それ使わずにやってみます。

公式絵を参考画像にリファレンスオンリー
絵柄やキャラを転送って・・・どこが？という印象があったけど、その辺を理解してやってみると何となく納得。
髪型や服の色はプロンプトで指定してやらないと駄目なのね。

雰囲気的にはこんな所ですか。
手足がいびつなのは、置いておき
LoRAを作る際もそうでしたが、困るのは頭のお団子です。
サイド・ポニーテールとかバンだとかTaggerは反応するけど、それにそってプロンプト入れるとコレジャナイ感が。
つづみさんのジャケットといい、言葉にできない物は中々難しい。

ではステージ衣装の方も試しに・・・

どうなんでしょうね。
下2枚は Upper Bodyに変更したからちょっと無理が出てきてるのかな。
プロンプトもう少しいじってやれば変わりそうな気もしますが。

まぁLoRAを作る時に一枚しか画像なくても増やせそうな気はします。