見出し画像

漫画家うめ先生の画風LoRAに挑戦する!

自称LoRAの魔術師の小泉勝志郎です。LoRAの魔術師と自分では思っているけど、誰もそう言ってくれないので自分で言うようにしているんですよ。

私は元々イラストを描くことをまったくしてこなかった人間なのです。ただ、「渚の妖精ぎばさちゃん」というご当地萌えキャラの運営をしているので、AI画像生成が出てきた当初から「自分のキャラをAIでどう再現するか」というのがテーマとしてあったんですね。

LoRAが一般的になる前のTextual InversionやDreamBoothがではじめの頃、まだ使いやすいツールがあまりない頃に自分でプログラムを書いて頑張っていたりしたのですよ!その後、LoRAが一般的になり、学習の負担も大幅に軽くなったので、自分のキャラ以外でもほぼ毎日のように何らかのLoRAを作っています。

画風LoRAの作り方
うめ先生の画風LoRAを作らせてもらえることに!

自分流のLoRA作成法が出来てきたのでちゃんと画風LoRAに挑戦してみようと思ってこんなTweetをしました。

そうしたら、なんとうめ先生(原作の小沢先生)が反応してくれたのですよ!

うめ先生から!感激

うめ先生と言えば、非常にハック能力の高い漫画家の方で、まだ電子書籍の黎明期にKindle Direct Publishingにもいち早く挑戦され、そして現在は生成AIについても講演されたり、インタビュー記事も出ていらっしゃいます。

そんなうめ先生からとこれは非常にありがたいことです!そんなありがたいことなのに、今回LoRAを作るのに半年も間が空いちゃって非常に申し訳ありません。AIの世界って一日で様子が変わることがざらなくらいなのに。

絵についての要望は「スティーブズ以降くらいの絵」とのことでした。

スティーブズ以降での画風で!

うめ先生は作品ごとに大きく画風も変えてらっしゃいます。育児漫画「ニブンノイクジ」ではかなりデフォルメされた画風。

ニブンノイクジではデフォルメされた画風

最新作「南緯六〇度線の約束」ではアクションも多く劇画風味も感じる画風です。

あっと驚く展開がある第1巻

同じ作品で画風LoRAを作る方が良いだろうということで、今回は「スティーブズ」の画像から画風LoRAを作ることにしました。

「スティーブズ」はApple創業者であるスティーブ・ジョブズとスティーブ・ウォズニアックの物語で、ジョブズの現実歪曲空間がまるで能力バトルのように展開する漫画ならではの面白さが盛り込まれた傑作伝記漫画で、私も大好きな漫画です。

ところで、注意事項として書いておきますが、うめ先生の漫画製作において今回の画風LoRAは用いられておりません。今回のLoRAは作成に用いた各種データとともにうめ先生にお渡ししますが、私からは特に公開はしない予定です。

また、今回うめ先生だけではなくちぇんさんからも画風LoRAについての話が来ました。ちぇんさんのLoRAについてはキャラクターLoRAのときに画風LoRAとの違いを深堀りする際に登場する予定です。

画風LoRAのコツその1

画風LoRAの素材に向いていない画像も!

LoRAでよく作られるものにキャラクターLoRAがあります。キャラクターLoRAの場合は、当然そのキャラクターが描かれた画像。それに対して、画風LoRAはなるべく多くの種類の画像がある方が良いです。

画風の場合、「この画風ではツリ目をこう描く。太った人をこう描く」等を再現できる必要があります。そのためにはツリ目ならその画風でのツリ目の画像が、太った人なら太った人がその画風で描かれていないと当然再現できないわけです。なるべく多く再現できるようにするには、画像の種類も多い方が良いということです。

そんな中、実は画風LoRAの際を作る際に、入れない画像というものがあります。それが「際立った特徴を持つキャラクター」です。

「スティーブズ」の場合、具体的に言うと主人公の一人であるスティーブ・ウォズニアックが画風LoRAの素材には向いていないのです。

主人公の1人なのに素材から外れたウォズ

特にこのデフォルメされた歯が画風LoRAに向いていないんですよ!何か際立った要素を付ける方が覚えてもらいやすくなるので良いのですが、画風LoRAの素材となるとは話は変わります。

この特徴を持つキャラは作中にはウォズニアックとその父親のみ。この歯は画風ではなくあくまでキャラクターの特徴なんですよ。それがこの特徴的な歯が他の絵にも影響を与えてしまうことになるのです。次に書くタグ付けをうまくやれば回避できなくもないですが、今回はウォズニアックの画像は外すことに。主人公の一人なのに!

実は世に出回っている画風LoRAにはこのあたりをうまくできてないがために特定キャラの特徴であるものが画風として出てきてしまっているものも結構見かけたりもするんですよね。

画風LoRAでのタグ付け

LoRAを作る際には「その画像がどういう画像なのか?」を画像生成のプロンプトの形で表したキャプションというものを付けます。この際の特徴を表す単語やフレーズをタグと言い、キャラクターLoRAと画風LoRAではキャプションでのタグの付け方に違いがあるんです!

詳細はキャラクターLoRAの際に取り上げますが、キャラクターLoRAではキャラクターの特徴にあたる要素はタグ付けしないのが基本です。緑色の髪のデルタもん(deltamon)を学習させる際に「deltamon, green hair」で学習させると、「deltamon」だけでは髪色の再現が弱くなります。

それに対して、画風LoRAの際は顔立ちや服装も含めてしっかりタグ付けする方が良いです。画風の場合、「この画風ではツリ目をこう描く。太った人をこう描く」等を再現できる必要があるんですよ。

そして、今回に限らずこの連載の中で繰り返し述べていこうと思っている大事なことが以下の3つ。

  1. 画像の共通部分はタグの共通部分に学習される

  2. 画像の異なる部分はタグの異なる部分に学習される

  3. 画像が異なっているのにタグが共通している箇所は特徴が混ざって学習される

1番目は多くの記事で触れられていますが、2番目はほとんど言っている人を見かけないですね。それだと信憑性を疑う人も出るでしょうが、2番目を使ってトリック的なこともできるんですよ!別の回でそれを証明する形で詳細に触れます。

私のタグ付け方法

画像にどうやってタグ付けをするか?その絵を見てもどうやってタグ付けしてよいかわからないという方もいらっしゃるかもしれませんが、WD Taggerというツールを使うと、画像がどういうタグで表現できるか出力してくれます。まずはこういうツールを使うのが良いでしょう。

私もTaggerは使っているんですが、基本的にその画像と同じような画像を実際にプロンプトで画像を生成して確認と調整をするようにしています。そのため、実際に自分で打っている割合の方が高いです。

たとえば、スティーブズ4巻の表紙。

ビル・ゲイツがかっこいい!

を学習させる際のキャプションはこのようにしています。

ume style, 1boy, glasses, smug, closed mouth, skinny, sitting on red chair, leaning side, one hand on mouth, crossed legs, blonde, blue eyes, bangs, layered hair, short hair, black business jacket, white shirt, purple tie, pants, brown shoes, from front

「ume style」が今回の画風を呼び出すトリガーワードです。これは実際にLoRAのベースモデルでそのプロンプトを実行して確認して調整していきます。

4巻の表紙に寄せたつもりの画像

画風の違いはあれど格好やポーズはかなり一致していますよね。このプロンプトでの再現が悪いと、画風のトリガーワードはポーズの違いや色合いの違いまで学習してしまうので、画風の再現が悪くなるし、変な癖がついたりしてしまいます。

また、プロンプトとして実行する際はタグを強調したり、ネガティブプロンプトを書いたりするとは思いますが、キャプションには強調やネガティブプロンプトを除いたものを書いています。

画像の加工について

今回学習に用いる画像は一部加工をしています。こちらはスティーブズ1巻の表紙。ジョブズとウォズニアックです。このように文字が入っています。特に身体にかぶるように薄く入っている文字も。

スティーブズ1巻。名作です!

このスティーブズの表紙画像のみを学習させたLoRAで作成した画像です。

girlだけで生成しても文字が出てきてしまう!

LoRA素材に文字が入っていると生成画像にも文字が入る

文字はネガティブプロンプトに「text」を入れれば消せるからまあ良いかと思ったら次は体に薄くかぶった文字が模様のような形で反映されてしまうじゃないですか!

画像に大きくかぶるロゴをそのままにすると画像に模様のように出てしまったり

学習枚数が多ければこの影響も減らせるのですが、スティーブズは全6巻なので、表紙画像は6枚なんですよね。そこで、画像を加工して学習させています。

1巻表紙画像から文字とウォズニアックを削除

文字の削除、特に体に薄くかかった文字とロゴを消すように。また、学習に用いないことにしたウォズニアック、ついでリンゴも消しています。

画風LoRAのベースモデルはどう決める?

LoRAはどのモデルをベースにするかに大きく左右されます。現在イラスト系の画像生成モデルで大きな勢力を形成しているのがAnimagineとPonyとillustrious。Animagineは登場がこの記事執筆時点の1年前ともっとも古く、illustriousはこの中では新しくLoRA作成の人気も高まっています。

画風LoRAにとってベースモデルの選択は他の種類のLoRA以上に重要です。ベースモデルごとにそもそもの画風が異なります。そのため、あるモデルで作ったLoRAを別のモデルに持っていくと再現度は下がってしまいます。画風LoRAは基本的にLoRAを作ったベースモデルで使うものと考えて構わないと思っています。

うめ先生LoRA ver.1(illustrious表紙のみ)

今回のベースモデル決定は後で詳しく述べるとして、まずは現在SDXL系列ではシェアの大きいアニメモデルはillustrious。そこでまずはillustriousをベースモデルにしてスティーブズの表紙画像のみを学習させたLoRAを作ってみました。画像は先ほどの加工を施します。

最初に作るLoRAなので「うめ先生LoRA ver.1」とします。素材は単行本の表紙から文字を消す&登場人物一人のみにするという加工をしたもの。

うめ先生LoRA ver.1の素材の一部

1枚の画像を縦長状態と正方形に切って分割しているものにしていることについては以前書いた次の記事を参考にしてください。

こうやって作ったうめ先生LoRA ver.1で作った「boy」の画像です。

この画像はうめ先生(小沢先生)からもうちの子っぽいと言ってもらえました

ビル・ゲイツの表紙の影響が強いですね。結構雰囲気が出ているんじゃないでしょうか?

ただ、表紙画像は基本的にジョブズかゲイツかApple初期メンバーなので、ほぼ若い男性に限定されているので、ちょっと表現の幅が狭いのです。何と言っても表紙には女性が全く出てきませんからね!

スティーブズに出てくるコモドール社の社長ジャック・トラミエル。Amigaやコモドール64と言った80年代ホビーパソコンで活躍したコモドール社です。劇中こんな感じで出てきます。

コモドールの創始者ジャック・トラミエル

これをillustriousに表紙のみ学習させたLoRAに再現させようとしてみると……。

表紙だけからのLoRAではジョブズの影響が強い

スティーブ・ジョブズの影響が強い見た目に。

うめ先生LoRA ver.2(illustrious表紙+本編)

表紙だけでは画像が当然のごとく足りないので。漫画本編から画像を持って来て再度LoRAを作成してみました。素材はこのように表紙カラー画像と漫画本編の画像を混在させています。

うめ先生LoRA ver.2の素材の一部

うめ先生LoRA ver.2で作ってみたのがこれらの画像です。

表紙画像に漫画本編のコマも加えたLoRA ver.2での画像

この状態でうめ先生に確認していただきました。

>表紙画像だけを学習させてboy
これは確かに、すごくウチっぽいですね

というお言葉をいただき、最初は喜んでいたんですが、よく考えると漫画部分を足したものより表紙のみを学習した方が出来が良いと思ったということだよなぁと!

画風LoRAのコツその2

適切なベースモデルの決定へ

改めてタグ付けを見直す方向にしたのですが、漫画本編を混ぜた方はなんとなく発色が悪い、それ以前に変な画像が混ざるんですよね。

この画像、なんと上着だけモノクロになっているんですよ。

漫画本編も素材に加えたら衣服がモノクロ風味に!

実はillustriousはmonochromeの効きが悪いんですよ!これはmonochromeを入れて生成した画像なんですが、まだ色がついてしまっています。白黒化にはgrey scaleもありますが、これもあまり効きが良くないのですよね。そのため、モノクロ部分がカラーに浸食してきてしまっていたのです。

素のillustriouでのmonochrome

そこで今回はmonochromeの効きが良いAnimagineを使うことにしました。2025年1月にAnimagine4がリリースされましたが、このLoRAを作ったのは2024年12月なのでAnimagine3.1の方を使っています。

illustriousの方が全体的にプロンプトの効きは良いというメリットはありますが、今回のカラーとモノクロ混在の学習方式の場合は、1年前のモデルですがAnimagineの方が良いということですね。

元のモデルの弱点を学習させる

先ほどのLoRA生成画像の中にこんなおじさんが混ざっています。

illustriousベースのうめ先生LoRAで作ったハゲおじさん

実はこの画像、この2枚が混ざった感じですよね。

ジャック・トラミエルとIBMの人(名前不明)

どちらもold manでタグ付けしているんですが、左のジャック・トラミエルは丸顔にぎょろっとした目で、右のジョブズがDRAMをぶんどりに行くIBMの人は多例による眼瞼下垂のある目に面長の顔。これらがちゃんと区別されるようタグ付けをします。

丸顔:round face
面長:oblong face
丸い目:round eyes
加齢による眼瞼下垂:sagging eyelids

以下のようなプロンプトにしています。

ジャック・トラミエル
ume style, old man, smirk, open mouth, facing down, looking at viewer, bald head, forehead, sideburns, black hair, round eyes, scowling eyebrows, thick eyebrows, plump, white kimono, upper body, monochrome

IBMの人
ume style, old man, oblong face, sagging eyelids, facial wrinlles, smirk, teeth, cigar, V-shaped eyebrows, slicked back hair, sideburns, skinny, from front, business jacket, striped jacket, sitting on sofa, spread legs, spreading hand gesture, grey tie, monochrome

ちなみにAnimagineは加齢の表現があまり良くなく、加齢による眼瞼下垂(sagging eyelids)も効かないわけではないのですがいまいちわかりづらいです。

素のAnimagineでのsagging eyelids(眼瞼下垂)

今回の学習画像にはおじさんがたくさんいるので、加齢による眼瞼下垂(sagging eyelids)も良い感じになりそうです。

コピー機LoRA学習法での画風LoRAとの違い

コピー機LoRA学習法という手法を用いて絵が1枚だけから画風を学習するという手法もあります。ただ、その場合は素材が1枚になるのがネックです。若い男子の姿をその画風でどう表現するかと「加齢による眼瞼下垂(sagging eyelids)」のような老け要素をその画風でどう表現するかを同時に学習させることはできなくなります。

まったくやり方がないわけではありませんが、コピー機学習法を用いた画風LoRAは、あくまで1枚の絵からわかる範囲のみが学習されるので、画風LoRAの用途によって使い分けるのが良いです。

うめ先生LoRA ver.3(Animagine表紙+本編)

LoRA ver.3学習内容

今回は全部で53枚の画像を用意しました。表紙6巻分とカラーページの1部から11枚、漫画本編から42枚。

LoRA ver.3素材画像の一部

私はStabilityMatrixからkohya_ss guiを用いて学習しています。このぐらいの学習規模になると私の3080マシンでは学習に約3時間かかります!まあ、画像の加工とタグ付けは何日もかかっているので、3時間程度たいしたことないといえば大したことないのですが、タグの間違いを見つけたりすると「また3時間かよ」と思ったりします!

収束率が0.065くらいと悪いように見えますが、画風LoRAのように多様な画像があるタイプは収束の数値が大きくなりがちです。私は収束の数値はほとんど気にしていません。

また、各種パラメータが気になる人もいると思うので代表的なものを書いておきます。
optimizer_type = "AdamW"
resolution = "1024,1024"
network_dim = 8
learning_rate = 0.0001
fp8_base = true
epoch = 10
train_batch_size = 1

30x0系でSDXLのLoRA学習をするために「fp8_base = true」に。あとは学習をかなり過学習寄りになるようにしています。
そのため、train_batch_sizeも1です。繰り返し回数も10回なので、ステップ数は53枚分の5300です。

LoRA ver.3での生成

今回作成したLoRAで実際に画像を作成してみましょう!

ジョブズの再現はかなり良い感じではないでしょうか?

ジョブズっぽい人

1boy, ume style, stubble, black hair, medium hair, forehead, hazel eyes, upper body, black t-shirt, torn, plain shirt, from front, smug, closed mouth, facing up, looking down, standing, left hand up, masterpiece, best quality

モノクロ漫画風の金髪メガネっ子も良い気がします。

ジョブズの妹パティ風の眼鏡っ子

1girl, ume style, round eyes, parted bangs, center part, thin eyebrows, white hair, glasses, t-shirt, freckles, straight hair, smile, teenage, looking at viewer, solo, monochrome, masterpiece, best quality

AI画像生成って、やたらと美男美女になりがちなんですが、漫画って美男美女だけで構成されるわけじゃないですよね。AIイラストで普通のおばさんイラストをなかなか出しづらかったりします。今回多様な人物を学習させたおかげで、あまりイケメンじゃない男性やおばさんの画像を作成できるようになりました。

IBMのおじさんとロン・ウェイン(初期Appleメンバー)が合わさったようなあまりイケメンじゃない人。

イケメンじゃない人も描ける

boy, ume style, half-closed eyes, tsurime, shouting, slicked back hair, thin eyebrows, pointing viewer, index finger, black hair, forehead, thick lips, business jacket, medium hair, upper body, looking at viewer, masterpiece, best quality

r元々Animagineが苦手としていた加齢による眼瞼下垂もできるように!顔の皺(facial wrinkles)も効いてますね。AIイラストであまり見かけないおばさんらしいおばさんです。

AIが苦手なおばさんも描ける

mature female, ume style, (facial wrinkles:1.2), blonde, hazel eyes, round eyes, sagging eyelids, smile, forehead, black business jacket, slicked back hair, plump, updo, upper body, looking at viewer, masterpiece, best quality


最新作の再現に挑戦

2024年12月現在でのうめ先生の最新作「南緯六〇度線の約束」の2巻の表紙です。

タチアナさんが表紙の2巻

表紙に描かれているのは金髪美女のタチアナさん。金髪のタチアナさんというと、「007 ロシアより愛をこめて」のボンドカールであるタチアナ・ロマノヴァを思い起こします。

というわけでタチアナさんの再現を狙ってみました。プロンプトのみのポン出しで勝負です!

タチアナさんぽくしようとしたけどそんなに似なかった……

mature female, ume style, blonde, hazel eyes, braid pigtail, parted bangs, round eyes, eyelashes, messy hair, sidelocks, coat, serious expression, curvy, large breasts, (holding gun:1.2), looking at viewer, wind, flame background, upper body, from side, masterpiece, best quality

作ったときはいい感じの雰囲気だと思ったんですが、並べてみるとそんなに似てないですね……。でも、このタチアナさんも美人だから良いです。

クオリティタグについて

AI絵の画質を向上させる「masterpiece, best quality」等のクオリティタグ。実はクオリティタグは「質が良いとされる方向に寄せる」働きをするので、クオリティタグをつけると自作LoRAの再現度が下がったりします。

今回小さいコマを拡大した箇所、そして私の加工のまずい箇所があるので、時々線がガタガタになっちゃうこともありクオリティタグをつけています。

クオリティタグなし

<lora:ume_anim_v3:1>mature female, ume style, blonde, hazel eyes, braid pigtail, parted bangs, round eyes, eyelashes, (messy hair:0.6), sidelocks, coat, serious expression, curvy, large breasts, (holding gun:1.2), looking at viewer, wind, flame background, upper body, from side

目のあたりはよりうめ先生的になっている気もするのですが(気のせいかも)、銃や手の描画があまり良くないです。なので、今回の出力サンプルにはクオリティタグを付けています。

再現度が高くなるのは素材画像がおおいところ!というわけで、原作には出てこない、若き日のジョブズが日本の神社でiPhoneを使う姿です!

若き日のジョブズがiPhoneを!


最後に

画風LoRAについての記事は少なく、さらにちゃんとプロの漫画家の方から許諾を得ての作成となると今回のケースが初めてなのではないかと思います。

これから他にもLoRA作成上のテクニックをいろいろお伝えできれば。

また、今回LoRAを作成させていただいたうめ先生、本当にありがとうございました!

いいなと思ったら応援しよう!