見出し画像

【SDXL】Ponyで巨大ロボを作成してみた


はじめに

AI画像生成の中で、クリエイティビティの高いところに位置しているのが、追加学習データ作成かなと思っております。
画作りももちろん発想や知識が必要ですが、完全なゼロからAIの世界にキャラなどを生み出すためのデータ作成は職人技の技量が必要と感じます。
私はしょっぱいPCなので100個ぐらいしかLora作成できていないぺーぺーですが、その分あまり存在しないレアキャラを作成しておりました。

で、SD1.5→SDXL(Pony)になりマトモにキャラLora作りが出来るようになったので、意外とレアな存在である「巨大ロボ」を作成してみようと思いました。

何のロボを作るか?

ガンダムみたいなみんな知っているキャラだと私のレアキャラ制作ポリシーに反するのと、私が好きなメカであることで
「ナイツ&マジック」に出てくる「斑鳩(イカルガ)」にしました。
https://amzn.asia/d/1Hgg3Dc

チャレンジブルなのは「多腕」であること。
人体だとまずネガティブで多腕化を抑止しますが、多腕である前提ってどうしろというのか…

作成の流れ

我流で最適化されているLora作成方法の流れで作成しました。

①ベースモデル策定
②学習画像収集
③Taggerでタグ付け
④kohyaでLora化
⑤Forgeで生成確認&プロンプト調整


①ベースモデル策定

プラモの箱絵みたいにリアルなやつを作りたかったんでこれを使ってみました。

Ponyのリアル系ベースモデルにはなんとなく「写真」というより「絵」って感じがしまくって敬遠してたんですが、結構良さげだったので。

②学習画像収集

私がやったことがなかったことのチャレンジとして、今回は実写とアニメを両方使用しました。
プラモデルとアニメの活躍シーンを合わせて200枚前後選別しました。
(この辺の枚数策定の知見は私も知りたい)

③Taggerでタグ付け

最近私のお気に入りのTagger「eva02-large-tagger-v3」でタグ付けしました。

④kohyaでLora化

恐らくみんな使ってるLora作成ツールKohya_ssで作成しました。
ベースモデルは純粋なPonyで、パラメータは人体キャラ作成と同様にしました(基本的にプリセットを利用していますが私の方針でEpocを下げています)。

⑤Forgeで生成確認&プロンプト調整

Taggerは優秀ですが、あくまでも対象の画像から得た情報しか無いので、多面的なアングルから生成された複数のタグを統合して、可能な限り再現性の高いプロンプトを構築します。


結果


所感
・絵が暗い
・クローズアップはいいけど引きになると破綻しまくる
・多腕ダメダメ

・暗さについて…
これは照明系プロンプトやVAE差し替えしても治らなかったです。
結果としては、「ベースモデルのデフォの暗さ」でした(恐らく)。
だからこのモデルを使用する=この暗さなんですよね…

・破綻について…
これは過学習かもと思って150枚、70枚の学習ステップ削減バージョンも作ったんですが、ますます破綻(学習不足)が浮かび上がったため、結局最初の200枚バージョンに戻しました。
学習素材の解像度不足かなぁ…

・多腕について…
これはマジでどうすれば動きや稼働範囲を学習できるのか謎です。
でもネガティブをスッキリさせたら出ることは出る。ううむ。

とりあえずベースモデルをイラスト系に変えてみました。

メタクソ明るい。ベースモデルが明るさに関わっているのは確定的に明らか(VAEがBAKEされてるからでしょう)

多腕も動いていますが、多腕制御に対するプロンプトをまだ理解していないので勝手に動いてます。

まとめ

・Ponyでもロボは作れる
・私自身の画像破綻抑止の方法の理解が甘いのがよく分かった
・多腕…謎

Ponyで変わったものを作るのにチャレンジしたい方は宜しければ参考にして作ってみて下さい。


いいなと思ったら応援しよう!