お絵かき素人のAI生成画をトレス・模写 100日チャレンジを終えて

2024年2月5日 02:51

　10月19日から始めた、画像を下絵にトレース100日訓練というチャンレジをやっていたのですが、なんとか無事に2月5日に終えることができました。正月休みで飛んだり、たまに忙しくてできなかった日もあったりしましたが、基本的に自分が画像生成AIで生成したAI画像を模写するという方式で、毎日1時間から2時間程度を使って、100日を終えることができました。
　こういうのって、勢いそのままに反省記を付けておかないと、二度と書かなくなってしまうと思うので、なんとなく終えた勢いでまとめてみます。

　まずは、いつも、いいねやRTしてくださっていた皆様に感謝を。

12月6日に公開した前編にあたるものはこちら

■目指すのは2.5次元的な絵を狙って作れること

　私自身は子供の頃は落書きは描いていたものの、大人になって絵を描くことはなくなっていました。他にやることがたくさんあったし、技能的に絵を覚えることに時間を割くことはできなかったということもあるし、その後の仕事でも絵を描く必要性はなかったからというのがあると思います。それでも絵を描けなくても、漠然と自分の思うような絵を出してみたいという欲求は持っていたのだろうと思います。

　自分で自由な絵を描いて、それを生成AIを通じて、自分が目指したい絵を出せるようにするということを目標にしていました。その上で、絵を描くということと、生成AIの共生するような将来の可能性みたいなものも感じられないだろうか、という気持ちもどこかにありました。もちろん、ほとんど絵を描かない私自身が、絵を描けるようになるといいなあというような気分もありました。
　目指していたのは2.5次元的な絵で、リアル過ぎないし、アニメ過ぎもしないという中間地点。限界がある中でも、独自の画風を生み出すことができないかと思っていました。

#画像を下絵にトレース100日訓練 49日目 #AIイラスト
Krita+LCM模写 20分＞着彩・修正35分>レタッチ5分やはりいい加減な顔でいい顔が出てしまうので、手が出せない。ただ、大きめの口には全くならなかったので、一度生み出した画像の不透明度を落とし、模写をScribbleで合成させる形で引きずった。 pic.twitter.com/nBMtf1u8rK
— Alone1M (@Alone1Moon) December 7, 2023

　中古で入手していた板タブを無駄に持っていたのですが、ほとんど使ってもいないので描き方もよくわかりませんし、感触も手になじまず、最初は単純トレスでしたが描くのは四苦八苦しました。これらのは前回に書いたもので説明しています。この記事で扱うのは、50日前後からの後半戦の話です。

■Novel AI v3登場による参考画の単純さの克服

　Krita+LCMでの環境が固定して、グリッド表示をさせて、それを参照しながら描くということに慣れてくると、単純な立ち絵ぐらいであれば、トンチキ絵程度のデタラメな模写であれば、あっさりと描けるようになってきました。50日ぐらいからはこの描き方に慣れてきて、かなり簡単にまとめれるようになってきました。

　一方で気が付き始めたのが、Stable Diffusion 1.5で生成されるポーズは単純なものが多いということでした。シンプルな立ち絵であったり、ちょっと足を曲げたりといった程度のものが多く、もう少し複雑な物を描いてみたいという気持ちが強まっていきました。過去に万単位で画像を生成しているのですが、自分のトレーニング用と考えると、なんとポーズが平凡なものが多いことか。これが画像生成AIの一つの限界なのだろうと思います。
　SDXLでも、Fooocusを使う限りは、それほど複雑なポーズは出てきません。
　そもそも、腕が重なるとか、腕と体が重なるというようなポーズは、その境界線を適切に生成AIが認識できないため、苦手です。

#画像を下絵にトレース100日訓練 50日目 #AIイラスト
Krita+LCM模写20分＞着彩・修正30分>レタッチ5分顔のアップの元絵で試してみた。出た画像はいい感じだが、かなり元絵の顔は早い段階で確定されてしまう。しかし、模写だと服を着てしまうが、肌色を塗ると適切に塗り分けができる。A1111では難しい pic.twitter.com/HNjlUQxlF2
— Alone1M (@Alone1Moon) December 8, 2023

　また、MidjouneyやNijijouneyも同じようなものでした。ほっとくと突っ立っている画像ばかりが出てくる。きちんとコントロールして参考用の画像から作らないといけないのかと思ったりしていました。
　一番ポーズへの可変性を持っているのは、Dalle3かなと思っています。ただ、こいつはこいつで、思った通りの画像を出すように指示するのが結構難しく、調整して生成していると細かいところの融通が効かないので、やり直しが多く、時間がかかる。

　そこに登場したのが、NovelAI v3（NAI）でした。
　NovelAIは、とにかくアニメ的なポーズを生成するのが得意で、SDXL系のものでも一つ頭抜けているように思います。
　そこで複雑なポーズを何枚もさせて、それを模写するというのに切り替えていきました。NAIは、強力i2iの機能も搭載しているため、Krita+LCMで生成した画像を、NAIでまとめていくという方法も模索しました。

#画像を下絵にトレース100日訓練 67日目 #AIイラスト #MadeWithAI
下書き感を減らすために、Krita+LCMの出力結果をSDでLineArtに掛け(モノクロLora使用)、線を整理した状態でNovelAIに弱i2i。その状態で、再び、Kritaで着彩して、NovelAiでi2i。その後レタッチで調整。時間測らずだが結構かかってる。 pic.twitter.com/AoUmL1Jlyi
— Alone1M (@Alone1Moon) December 27, 2023

今回のはステップが多いので、各回で複数枚出して、合わせるという作業が必須だった。2枚目が模写で、3枚目がKrita+LCM、4枚目がSD、5枚目がNAIのi2i.。6枚目は着彩してi2iしたもの。デザインが揺れるので、それを揺らさないように選ぶ必要がある。NAIでCNが使えたらなあ。 pic.twitter.com/K1mkFtSmY5
— Alone1M (@Alone1Moon) December 27, 2023

■薄い色味の絵をどうやって克服するか

　一方、NAIは任せれば任せるほど、どうしてもNAIの絵になってしまう。強度を低めだとあまりきれいな絵にならないし、強度を高めると元のKrita+LCM加工の絵からまるで違うものになってしまうという悩みにぶつかりました。
　もう一つが、薄い絵からは、薄い絵しかできないという悩みでした。Krita+LCMの使い方で、水彩絵の具っぽい筆を使って着色していたのですが、その影響もあって、どうしても最初の段階では薄い色になってしまいます。Photoshopを使って若干色味を濃くしても、その色味のままNAIでは生成されてしまいます。もう少し濃い色味にしたい、できれば模写時の雑線を消してしまいたいという気持ちがあったので、何かいい方法はないものだろうかと思っていたのです。

#画像を下絵にトレース100日訓練 70日目 #AIイラスト #MadeWithAI
再開。サイズを768x768でKrita+LCM>NovelAI>PS レタッチ。約50分。元絵からSDでTag検出してプロンプトとして使用したので、それほどズレはなかった。NAIではやはり何枚もパターンを出して、それから良さそうなのを組み合わせた。 pic.twitter.com/aXyDYeIfSq
— Alone1M (@Alone1Moon) January 4, 2024

　新しい方法を見つけたのが、81日目でした。一つはKrita+LCMでの作成時に、もう少しリアルなモデルを使い、最初からリアルよりの雰囲気に寄せたものを作成しておいて、Stable DiffusionのControlNetを使って、再生成するという方法でした。

#画像を下絵にトレース100日訓練 81日目 #AIイラスト #MadeWithAI
モデルを変えてみた。普段使っているアニメ系の独自マージモデルに、とーふのかけらさんのリアル系のVoidnoiseCore R1733を30%混ぜてみたところ、LCM環境でも劇的な効果が出た。色がかなりはっきり出てくれて、新しい感じになった。 pic.twitter.com/CMxdUyg2B1
— Alone1M (@Alone1Moon) January 16, 2024

元はNAI。モデルが強力でほとんど描かなくても②から③が出てきた。これまで使ったモデルに比べ、色味も濃く出るのが特徴的。これをさらに同じモデルでSD1.5のCNでサイズと描き込みを拡大。その後、色味をレタッチ等の補正。ステップ数が少ないので45分ぐらい。 pic.twitter.com/L8B43GxkqO
— Alone1M (@Alone1Moon) January 16, 2024

　いつもアニメ系の独自マージモデルを使っているのですが、そこにとーふのかけらさんのリアル系「VoidnoiseCore R1733」を0.3でマージしたモデルを試してみたのです。
　そうするとかなりKrita+LCMでも明暗が、アニメ系でありながら、リアル系に影響を受けて明暗感を作り出す画像が生み出されたのです。これをさらに同じマージモデルでA1111で、Stable Diffusion ControlNet Tile 0.5, Lineart 0.5の比率で生成すると、リアルとアニメの中間的な画像が生成されました。しかも最初の雑線をほぼ消してくれているのです。私の中では、かなり画期的な方法の発見でした。
　また、Krita+LCMに入力するプロンプトを、A1111のTaggerを使って、参照画を分析してしまい、生成されたプロンプトをそのまま入れるようにもしました。これは、狙った画像をAIが的確に捉えやすくなる傾向ができるため、模写や着彩時の結果を良くする効果があります。

■Krita+LCMで顔をすぐに勝手に描かれてしまう

#画像を下絵にトレース100日訓練 82日目 #AIイラスト #MadeWithAI
昨日と同じ方法で、かなりモデルに依存した書き方。Krita+LCMの模写でかなり完成してしまう。リアル系の要素は元の特徴点の構成が違うのか早い段階から画像が出て来る印象。ただし、常に正しい物が出るわけではない。やはり40分ぐらい pic.twitter.com/oNaqMM1uUc
— Alone1M (@Alone1Moon) January 16, 2024

　ただ、Krita+LCMに本格的に切り替えてから、別の悩みも感じるようになりました。リアルタイムAIの能力が強力すぎて、こちらが模写をしっかりとする前に、すでに絵が完成してしまうというのが、起きるようになったのです。顔では顕著に起こります。特に、リアルとアニメの独自マージモデルでは顕著で、リアル系は造形力が高いのかもしれません。
　そうすると、結構、模写の初期の段階から、ほぼ形状しか取っていないのに、リアルな顔、しかも出来が良いものが描写されるというのが当たり前に出るようになります。

LCMの顔の強さを物語る例。右側の形状の当たりしか取っていない状態で、すでに左側のところまで顔も髪型も描き込まれてしまう。やはりリアル系は、主張が強いのかもしれない。 pic.twitter.com/0JjT93Hnlv
— Alone1M (@Alone1Moon) January 16, 2024

　これをどこまで許すのかというのが、模写時の葛藤にもなりました。

　一方で、細かいメカや指といった細かいディティール形状といったものは、生成AIは苦手で、丁寧に描いても、それがその通りにきちんと出ることはないという感じです。Krita+LCMでもSeed値を変えてガチャを回すしかありません。
　それでも、模写をどんなに描き込んでもその通り出てくれません。むしろ、そういう揺れが起きるものだという前提で、ガチャを回して、その中で気に入った形状が出たときにその部位だけをレタッチして、合成したほうが早いということに気がつくようになりました。

#画像を下絵にトレース100日訓練 76日目 #AIイラスト #MadeWithAI
司島積雲さんの雪を激走する学生の姿をみて、同じようなのを模写したくなったので、ChatGPTに作ってもらった。それを模写したが生成部分で予想通り手こずった。自転車のカゴとそこから見えるスカートを認識させるのが難しかった。90分 pic.twitter.com/C9ZMq60shb
— Alone1M (@Alone1Moon) January 10, 2024

　そのため、省力化、高品質化というもののために自然とそうなったのが、模写の出来が微妙であっても、LCMで生成された画像の出来がいい場合は、その方を優先するというやり方です。もう、それなりに良いものが出てしまったら、その状態を維持するために、その部分に加筆しないというやり方を取るようになりました。
　そのため、顔の模写力は上がりませんし、指の模写力もあがりません。なので、単純に画力を上げたいという人には向いていない方法かもしれません。
　もちろん、Krita+LCMの強度を通常は 0.3 でやっているから起きることで、この数値を落とせば、模写通りの絵が出てくれます。しかし、私の場合は、そこまで模写力を引き上げたいのかというと、それも違うような気がして来ました。生成AIをうまく使って、自分が思う絵を出すことが目的であり、模写そのものをすごくうまくなることが目的ではないだろうと。
　その方針に切り替えて、最初の線画は15分、着彩に15分と、30分で、Krita+LCMでの作業は終えられる様になりました。

画像を下絵にトレース100日訓練 86日目 #AIイラスト #MadeWithAI
画像を鮮やかにする方法を発見。768x768で出力した結果を、Kirta+LCMでUpscaleして2倍に。その画像で、新規にKirta+LCMで生成すると、画像がクリアになる。計算速度は当然重く、更新に10秒ぐらいかかるが、より精密な画面になった。 pic.twitter.com/wRwr3Efq49
— Alone1M (@Alone1Moon) January 20, 2024

■安定的に着彩とディティールの弱さをどう克服するか

　そして、どうやって、着彩の色の弱さを克服し、ディティールを増すのかというのが、大きなテーマになってきました。
　一つ気がついたのは、高解像度化です。
　解像度を2倍にして、それに合わせて情報を描き込んでくれるMagnificAIをお試しでやってみました。月30ドルもかかるので継続はしんどいですが。なんか、いい感じで描き込んでくれるのですが、アニメキャラっぽいのはやはり苦手なようで、これがベストと言う感じにも思えませんでした。
　A1111用としてはTiled Diffusionが一般的だと思うのですが、設定の組み方が甘いのか、なかなかいい感じに出ませんでした。

#画像を下絵にトレース100日訓練 78日目 #AIイラスト #MadeWithAI
メカ少女行けるかなと思ったら、ハマった。最初の模写自体は比較的簡単だったのだけど、そこからディティールアップを成功させる事ができなかった。なので、CNやFooocusやNAIを色々試行錯誤をしたが、結局かなりNAIお任せに。約2時間 pic.twitter.com/Vzb2AZOQsw
— Alone1M (@Alone1Moon) January 12, 2024

　Krita+LCMで作成した画像を、単純にスケールを2倍にして生成するという方法も試してみました。これが割といい感じで、情報密度が増してくれました。それでも、着彩の薄さが残ってしまいました。
　ならばと、そもそも768x1024という解像度が高めでKrita+LCMで作った画像を、同じプロンプトで、Stable Diffusionで解像度をHiresで2倍にしてみればどうかと。ContorlNetは、Tile0.5、Lineart 0.25～0.5で設定しています。これが効果がありました。非常にリアルな質感を生成することに成功できました。ただし、かなりディティールにはコントロールできない揺れが生まれます。

どこまでディティールアップできるか試してみた。リアル系モデルで、CNを使い、Upscale２倍で1536ｘ2048で生成。
#AIメカ部 #AIアンドロイド部 #AI眼鏡部 #AIArt https://t.co/3Y5IslTNPz pic.twitter.com/3FRJVA7Ypx
— Alone1M (@Alone1Moon) January 26, 2024

　結局、この方法論を追求していくことになりました。顔のリアルさが少しきつすぎるので、リアルモデルのマージを0.15にしたモデルも試しており、現在、一番使っているのが、このモデルです。

#画像を下絵にトレース100日訓練 94日目 #AIイラスト #MadeWithAI
下書きから色塗りKrita+LCMの下絵までは30分で終わるがはやり、そこからの解像度アップのためのSDとその調整に時間がかかる。目が期待よりもぱっちり出てしまうので、その辺をどうやってコントロールすればよいかが、まだ見えてない。 pic.twitter.com/OmFaKvMMmS
— Alone1M (@Alone1Moon) January 30, 2024

　生成サイズが大きく、VRAMも限界まで使うので、生成時間はかかります。複数枚出して、最後はレタッチに持ち込むやり方をするため、作業の待ち時間が増えました。なので、最初のKrita+LCMに30分、その後のA1111とレタッチ作業に30分+αという時間構成が増えることになりました。
　
　もう一つがLightroomの使用です。Photoshopのプランにありながら、ほぼ利用していなかったのが、司島積雲さんが、Lightroomで調整されているのを知り試してみました。これは使えると。特に、色を鮮やかにしてくれるHDRや、Depthを生成して背景をぼかしてくれる機能など、絵にメリハリを与えてくれる機能はとても使えます。

#画像を下絵にトレース100日訓練 95日目 #AIイラスト #MadeWithAI
Krita+LCMの着彩段階だと背景が白で寂しかったので、Lightroomに一度掛ける際に周辺を黒くする効果を入れたところ、SD1.5で高解像度化するときにいい感じで模様が生成された。顔の派手さが残ったがまあいいかとした。50分。 pic.twitter.com/V6EEIKuHeL
— Alone1M (@Alone1Moon) January 31, 2024

　そうして、自分なりにアニメぽいけど、実写ぽさもあるような絵に100日間の間にたどり着くことが出来ました。

#画像を下絵にトレース100日訓練 99日目 #AIイラスト #MadeWithAI
先週土曜日休んだので今日2回目。前と同じ手法で簡単な画像を、サクサク終わって40分ぐらい。ネクタイリボンが、デザインが変わったり、スカートの赤模様が飛んだり、シャツを黒にしたいけどならないは、全部生成AIの仕様と諦める pic.twitter.com/jrgBBDT3Jw
— Alone1M (@Alone1Moon) February 3, 2024

　100日間チャレンジを終えてみて、今の手順は自分なりの到達点だなと思っています。

■おわりに次はフォトバッシュやりたい

#画像を下絵にトレース100日訓練 100日目 #AIイラスト #MadeWithAI
10月19日からスタートしての最終日。100日目は複数キャラで出したいと思っていたので、Midjouneyでたくさんキャラが出る構図を元に作成。この人数だと、指や模様が揺れまくるので、調整に流石に色々時間かかって1時間50分。 pic.twitter.com/44NYGN9Z5s
— Alone1M (@Alone1Moon) February 4, 2024

　出来上がった絵は自分が描いたかと言われると、かなりの部分は生成AIによると思います。それでも、自分が入力情報をコントロールすることによって、生成AIが持つ広大な特徴点空間の海から自分の出したいものを生み出しているのは間違いありません。一方で、生成AIが苦手な表現というものも多く、突き詰めるとその限界の壁との争いになってくると思っています。

　生成AIにだいぶ下駄を履かせてもらうという前提ですが、参考にできる画像があれば、トンチキ絵だろうが模写して、何らかの絵にまとめ上げることができるようになりました。最初は、トレスしか出来ないと思っていたのが、模写までできるようになりました。
　始める前には、板タブの使い方さえわかっていなかった人間が、生成AIを使うことで、自分の思う画像を出力できるようになっただけでも、相当なものではないかと思います。
　まだまだ、画像生成AIをめぐる環境は、いろいろと騒がしいですが、個人的には、この方向には様々なアプローチが眠っており、まだ人類が見たことないような新しい表現が、開花する可能性を感じています。それが理解されるまでに、どれぐらいの時間がかかるのかは予想が付きませんが、その形式は「生成AI派」とでも呼ばれる新しいカテゴリーになると思っています。

　さて、100日が終わりましたが、次は何をしようかと思っているのですが、フォトバッシュ的な技法を試してみたいなと思っています。
　VRMとMidjouney v6を組み合わせて、キャラクター表現の幅を生み出せないかというのを試し始めていますが、次はもっとこれを突き詰めてみたいと思っています。
　ただ、この模写の方法ももっとやってみたくて、気が向いたらやりそうな気がします。どちらにしても、やりたいことが多すぎて、時間が足りません。

谷 valley#AIArt #AIイラスト #AI眼鏡部 #AI背景部 pic.twitter.com/2VUxRqfz0R
— Alone1M (@Alone1Moon) January 31, 2024