AnimagineXL+チョイ手描きでAIマンガを描いた感想文

やねうら ✕ ペーパーシアター

2024年7月7日 05:13

SDXLでAnimagine使ってマンガを描こう編の続きです。

学生時代にキャラ絵のファンアートなんかを物理ペン画＋コピック等々で着色イラストする程度のお絵描き経験がありましたが、落書き以上のマンガの制作経験はありませんでした。

そういった素人が思うがままSDXLドラえもんと先人の皆さまのお知恵を借りて一本練習用のものを描きあげてみたので感想をつらつらと述べていきます。

起承転結もなければオチもないというほのぼのストーリーになりました。

やりたかったこと

イラストに台詞を貼り付けました風なものや4コマだったりウェブトゥーン系のものではなく、まずは純然コミック風を軸に据えつつ、謎にラノベっぽさをアドオンしたものをやりたいなと妄想し、まずはその方向性を目指しました。

絵から起こすスタイル (img2img) にしたかった

このあたりは以前の記事で触れてます。

狙った方向性

絵の品質を上げるところはAnimagineがやってくれますので、マンガの方向性のベースラインについて。

普段はサブカル成分を主にスマホマンガアプリで接種しています。
コミカルテイストでおにゃのこが可愛いマンガが好きなので、意識したものはそういった属性です。
大概絡みのシーンだったりでデフォルメがあるものが多いため、そのテイストも盛り込んで描きたいと考えました。

全般的にはやはりアニメ調に寄っていて、あと全体のトーンとしては線が太くなくちょっと淡い色味で統一したい、というのがザックリとした方向性でした。

とりあえず20ページぐらい描くのを目指す

ボリューム感が無謀な気はしたのですが、当たって砕け散ればよいだろう。

ということで、そんぐらいあると一通り色々構図も試せてちょうどよいかな？
という感覚ベースで決めました。

しかも今回は基本中の基本であるネームもほぼ詰めず、すべてを行き当たりばったりで制作していきました。

モデルの良さを活かしつつ特徴も少し出したい

Animagineで生成するおにゃのこは目の描き方や髪のボリューム感に特徴がある気がします。

特に髪は盛り気味だった（それはそれでいい）のですが、今回主人公JKに関してはスッキリ気味の髪型＋目線をパッチリ気味に途中で変えたくなりました。

このように、行き当たりばったりで制作を始めた関係で、何ページか進行していく内に主人公JKが突如キャラ変してしまい、前半部とのギャップが許容範囲を超えたため、結果前半部も後から描きなおすハメになりました。

振り返ればどう考えても手戻りが発生するような手法ばかり取りましたが、

素人は一通りやり終わったあとにしか失敗したことに気づけない

のでこの辺はご愛敬といった感じです。

あれこれ試すよりヘタでも描いてあとはSDXLドラえもんどうにかしてくれの精神で突き進みます。

キャラ特性は破綻させないようにしたい

しかしながらLoRAなどの小難しいことが分からないのび太ですので、トレス時点で主に髪型や服装で起きる齟齬を手修正するというアプローチになりました。

best quality, non-detailed line, monochrome, (in the bath), 1girl, side ponytail, asymmetrical bangs, smile, looking both hands, hands Negative prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 301906144, Size: 768x1024, Model hash: 1449e5b0b9, Model: animagine-xl-3.0, Denoising strength: 0.6, Version: f0.0.17v1.8.0rc-latest-276-g29be1da7

ここの絵の場合は途中でおバストのムッチリ感が足りてないな～となり、
途中で medium breasts を足したりしてます。

best quality, non-detailed line, monochrome, (in the bath), 1girl, side ponytail, asymmetrical bangs, smile, looking both hands, hands, short ahoge, medium breasts Negative prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1250607204, Size: 768x1024, Model hash: 1449e5b0b9, Model: animagine-xl-3.0, Denoising strength: 0.55, Version: f0.0.17v1.8.0rc-latest-276-g29be1da7

主人公JKは髪型がアシンメトリーなので反転作戦が使えないパターンでした。ここは無駄に縛りプレイとしてトライしてみたのですが、方向性が分散しなくて基礎練には案外ちょうどよかったのかなという所感です。

このあたりはやっていくうちに絵を描いてた頃の手癖が蘇ってきたのか、思いの外途中からブラッシュアップする際の試行回数が減り、Denoising strengthの値も徐々に低いものを使う傾向になっていきました。

過剰表現（陰影と深い描き込み）を多用しない

ディティールの描きこみ品質が高いのがAI絵のアドバンテージですが、グレースケールマンガでは全部が全部それだと目が疲れる印象がありました。

端的に言うと意図的に品質をデグレードさせているところも結構あります。

あれこれ描きながら試し、解像度を抑えて引き気味の構図を多く使いました。キャラ絵ではアップショット以外は主に解像度768あたりが多いです。

それと何かとAnimagineはやたらと惚れ顔を生成する率が高いので blush はネガティブプロンプトに常に入れていた気がします。

他にもいざマンガに起こすとなるとプロンプトで表現しづらい構図も結構あり、この構図は描けるのか？というのをトライアンドエラーしながらの進行となりました。

難儀したところ

絵柄が暴れる君

前回も触れた点ですが、やはり努力はしましたが基礎絵スキルの低さの影響もありキャラ絵はモデルの傾向に引っ張られる絵が多くなりました。絵柄は安定していると言い難いです。まさしく低レベラーが最強魔剣を装備しても無双はできないといった感じです。

モデル一個でこの有様ですので、複数を使いこなすことなんか出来るのか皆目イメージが湧きませんが、ナントカナ〜レの精神でこれからも精進していきたいと思います。

マンガ的表現手法に関する根本的スキル不足

いわゆる効果音や感情表現部分です。
このあたりはAI生成のレイヤーではアウトプットが難しいため、結果として一枚絵に別レイヤーで手描きで加えるという方法を取っており完全に初心者感丸出しで練度が低いと見て感じます。

絵以外の構図の完成系をイメージするスキルが培われていないので、
キャラより効果音を描く方が時間がかかったりするケースも。

御託を並べましたが結局のところキャラ絵ゴリ押しで仕上げてる感は否めません。

この方向性を仕上げていく中で全体的な品質と読み応えを上げていくための課題として大きい部分と感じています。

もはやこれは数をこなすことでしか改善出来る気がしませんが、このあたりはフリー素材なんかもありそうなのと、やがて生成AI側でそういう表現もできるようになったらすんごい世界観になってくるだろうなぁ。
と妄想しています。

…妄想してばかりじゃなくAIを活用していくなら何らか貢献コントリビュートしないとですね。

背景でドンピシャなものを描けなかった＆白背景が多くなった

前回記事でも苦戦していたこの箇所ですが、やはり納得いくレベルにもっていくのが困難な状況でした。
雰囲気だけでも寄せられるようにその後制作で足搔いた結果として

1. promptを減らすことも考える。例えば今回だと最初から脳死で常に monochrome プロンプトを与えていたのですが、それをやめた結果よい絵が出てくるケースが多々ありました。
2. コマのサイズは関係なく解像度を上げて、コマにする部分に切り取る
3. 画像はペイントソフトでグレースケール化し必要に応じて輪郭強調、コントラストを調整する

といった内容に軌道修正した結果、初期の頃よりはよい結果になりました。

が、Animagineのモデルの学習状況的な問題なのか、苦手なシチュエーションはそれなりにあるようです。前回記事でも触れた下記のあたりです。

これらのものは当たり構図を引ける率が下がる(というかまるで出ない)印象です。恐らくモデルを学習させる際の文化的な違いが出ている気がします。

このような天井なしの闇鍋ガチャを回し続けているとモチベーションが下がるので、ある程度試して「ああこれはダメやな」となったら、早々に方針転換して下書きを起こすかフリー素材や写真加工を用いてベース生成するという割り切りでサクサク進める必要がでてくると感じています。

とにかく制作速度が遅い

プロンプトベース制作ではないので、どうしても一枚一枚の生成速度が遅く、結果的に制作進行も遅いです。

これまでに挙げた課題の改善もこなしつつ、ベロシティを上げる方法論を確立していかないといけないなーと感じています。

やってみての気づきや雑感

Tipsというほどではないですが、やる前にはこうなると思っていなかったところなどを。

（img2img限定）ニコイチ大作戦ができる

グレースケールなimg2imgベース制作は絵を詰めていくなかで構図がほぼ固定化されます。

何枚かを生成していき、パーツが気に入らない場合うまくいっているパーツの絵とペイントソフトでスワップするのが容易というメリットがありました。

こっちはお顔が残念。あ、でも手がいい感じやないか。
そうや、首から下でニコイチしたれ！

顔ができた！と思ったら恒例の指破綻でｼｮﾎﾞｰﾝ(´・ω・`)なケースですが、inpaintはせずに上手くいっている選別中のその他の絵とニコイチしたりするなどです。これは利用場面が結構あった印象です。

髪光沢して欲しいところを割とうまいこと解釈してもらえる

髪の着色がベタカラーになりがちで、全体的にイマイチなところがありました。やっている最中に途中から光沢にして欲しいところをペイントソフト側の楕円ラインで着色してやると、思いの外うまいことやってくれました。

アップスケールで最終仕上げまで持って行ける

一枚いちまいの絵の完成度を詰めると時間がかなりかかってしまい、進行が遅くなりすぎる問題を抱えていました。

ベース絵が低解像度で出している状態だったので、まだ改良の余地がある状態であっても一旦コマとして埋め、最終的なレビューで解像度1024～1280あたりまでアップスケールし、絵の品質のバラつきを是正するという方法を取ってみました。

思った構図が出なくても案外なんとかなる

promptに時間をかけたくない方式で進んだので、次に描くコマの絵は本当におおよそレベルで出来ていればそれでOKで進めました。下記とかはほぼ最初の構図が残っていませんが、こういうやり方でも案外進むということが分かりました。

best quality, vector outline, monochrome, 1girl, asymmetrical bangs, short hair, white background, long shot, short ahoge, upper body, having sketchbook with both hands, sailor suit, head tilt, open mouth, smile, Negative prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, blush Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1845253370, Size: 1024x768, Model hash: 1449e5b0b9, Model: animagine-xl-3.0, Version: f0.0.17v1.8.0rc-latest-276-g29be1da7

best quality, vector outline, monochrome, 1girl, asymmetrical bangs, short hair, white background, long shot, short ahoge, upper body, having Certificate with both hands, sailor suit, head tilt, open mouth, smile, Negative prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, blush Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 927417722, Size: 1024x768, Model hash: 1449e5b0b9, Model: animagine-xl-3.0, Denoising strength: 0.6, Version: f0.0.17v1.8.0rc-latest-276-g29be1da7

モデル側にやらせるべきところとやらせないところを明確にする
（賞状の中身は絶対に描いてくれないので、そういう情報は渡さない）

制作環境、パラメーター等

自分なりに調べはするのですが、鳥頭で細かいことが覚えられませんので、SDXL環境はほぼほぼネイティブのまま使用しています。

今回はEmbeddingなども使わず、モデルを入れた後はControlNetのlineartを追加した程度で終了しました。

手の内を見られて困ることを一切やっていませんので、調整したパラメーターやプロンプト (PNG info) はMarkdownでGithubに置いています。

制作環境に居らず進められない時は、構図にしそうなプロンプトだけ出先で考えリモートでSDXLで生成をするなどしていました。

今回は内容からpromptの練り込みはせず、汎用表現＋解釈が伝わるか不明な独自表現を与え、それっぽいものが出来たならひとまずOKとしました。

このあたりは自然言語を使ったりRAGを使ったりの世界観がそう遠くない未来に目に浮かぶので、連携機能が拡充していけばいずれ苦慮しなくなる世界観なのかなと想定をしています。

今回の生成AI＋手描きを使用したマンガ制作方法は、工程の大部分が絵のインプットと解釈のアウトプットに対しての修正とリトライに多くの時間を要するので、推論を出先でもできるようにするのには興味があります。

最近はNPU入りのノートPCでStable Diffusionが動くようなので（現時点でまともな生成速度で動くかは微妙そうですが）そういうのがちょっと欲しくなってきそうです。

これから描きたいもの

ということで、本来マンガを描くために学ぶであろう基礎的なところをすっとばして「やりたい気持ち」だけでどこまでできるのか？
のモードで当たって砕け散ってみた結果となります。

今回やってみて制作はとっっても楽しかったです。

今後も色々とやりたい妄想だけは多くて、下記のようなテーマに今後トライしたいなーと考えています。

恋愛もの
今回は男キャラを描かなかったので無難にこの辺かなと考えています。

ファンタジー
異世界転生系も好きですがMMO世代なのでそういう系統を妄想中。
chibiでデフォルメ一辺倒な感じを妄想してます。

魔法少女もの
これもやりたいジャンルのひとつですね…。
私の場合音楽にインスパイアされることが多いので、この感じです。

おとなむけ
エロは活力ですので以下略。TPOをわきまえずにやるとBANされそうですので…pixivでR18とかにしとけばいいんでしょうか。それ自体もよく分からないので制作もしながら調べようと思っております。

少女漫画風
個人的に一番描きたいのですが、この属性は例のマンガ的表現力がマックス必要な領域なのでもう少しレベルが上がってからにしようと考えています。

子ども向け絵本
もしカラーをやる場合はこの領域なんかもよいんではないかと妄想しています。

以上は趣味の範囲ですが、ほかにもいろいろと仕事なんかでもユースケースがあり得そうだと考えています。

コラムや啓発に挿し込むマンガ／イラスト

本職はテック企業でマネージャー的なことをしている中間管理職です。
社内説明会やら外部のセミナーで登壇してパワポで啓発したり事例やらをドヤるのにも旧態依然さを感じており、こういった知見は字や図起こしよりマンガで伝えるほうがスッと入ってくるので、最近部分的に採用しだしています。

他にもちょっとしたライトニングトークのネタスライドに挿し込んだりなど、公私の面で表現力が上がった気がして楽しいです。

何はともあれジェネレーティブAIが出てきたお陰で永らく失われた制作意欲クリエイティブマインドが復活してきたので、今後もゆるっとアウトプットしていけたらいいなと思っております。

ではでは。

（後日追記）
次の制作に入るのでデータ整理し、このマンガを19ページ描き上げるまでにSDXLで生成した画像数は以下の通りでした。※描きなおしぶん含む

txt2img：1,016
img2img：2,300
うちコマで使用した画像（若干誤差あるかも）：82　※1

ということで生成における成功ヒット率は約2.5%でした。
今後何かしらのメトリクスになるかもしれないので適宜メモっていきます。

※1…実際にはここから手修正しているものもある