LoRA学習にベースモデルが与える影響を軽く調べてみた。
キャラ画像3枚+顔アップ2枚で作成した『グランブルーファンタジー』のヴィカラちゃんLORA。(「グランブルーファンタジー」はCygamesからリリースされているスマホゲームです)
optimizerはProdigy。
素材が少ないので、バリエーション増やすために正則30枚ぐらい入れたけど、無くてもよかったかもしれない。
ベースモデルには初期にリリースされたACertaintyと、最新モデルの複数マージモデルを使用。
出力モデルは、ベースモデルと同じマージモデルを使用。
以下出力サンプルです。
1:ACertainty+正則画像
2:最近のモデルいっぱい混ぜたヤツ+正則画像
3:最近のモデルいっぱい混ぜたヤツ-正則無し
けっこうな数のイラストを出力したところ、ベースモデルの影響はかなり感じられました。
サンプルが少ないので断言はできませんが、今回に限って言えば「出力に使うモデルと学習に使うモデルが同じ方が、素材画像の再現度は高かった」という結果になりました。
今までLoRAを作るときは、深く考えずに「定評のあるACertaintyでいいや。今までもうまくいってたし」って感じで使っていましたが、「おもにどのモデルで出力するか」も考慮してベースモデルを決めると、より良いイラストを生成しやすくなりそうです。
補則:あとで読み直したら誤解しそうな部分があったので補則
再現度を上げたいなら「ベースモデル=使うモデル」と読めますが、必ずしもそうではないです。
相性次第では同じモデルを使うと出力のクオリティが下がることもあります。
「ベースモデルを変えると、出力へも影響がでる」ということなので、「いろいろ試す」のが大事かなと。
確実なやり方としてはベースモデルに「定番モデル」「よく使うモデル」の両方を用意して試すのがいいかなぁと。
それでも物足りなければ、さらにいろいろ試すとか。
LORAの仕組み上「ベースモデルと学習素材の差分を学ぶ」らしいので、そこに留意しながらベースモデルを選ぶと楽しめると思います。
(ベースモデル=使うモデルだと、ベースモデルの絵柄をLoRAが”学ばない”からLoRAによる絵柄影響が少ない…と考えています(あくまで個人的な解釈ですが)。