Lora Dreambooth のキャプションとは何かの説明

キャプションは何をしているのか?

参考(普通のDreamboothの例を紹介している)
Make better Dreambooth style models by using captions

とある女性を
instance = xyz
とした時、

学習時
1枚目「ワンピースを着た黒い髪の笑顔の女性」
2枚目「着物を着た黒い髪の若い女性」
3枚目「制服を着た黒い髪の若い女性」
などとキャプションを付属させる。

とすると、学習画像とその画像に含まれる「服」「髪色」「若い女性」などが関連付けられる。

すると、呼び出し時に「服」「髪色」「若い女性」を変化させる事ができる。関連付けられた部分を自由に変化させやすくなる。

ただし、「顔」についてはパーツ細かすぎるので「目はぱっちりで顎が少し角張っていて。。。」と言った具合には関連付けができない。

なのでキャラクターの顔を維持しつつ髪型や服装を自由に変える事が可能になる。

キャプションを使わないとそれらの要素もまとめてxyzとして学習されるので、呼び出し時に「服」「髪色」「若い女性」を変化させ難くなる。

学習画像が全く同じ画像ではないのであくまでも変化させ難くなる程度。過剰学習の方が影響が大きい。

逆にこの場合、コスプレを学習させる場合に有利になりえる。

Lora学習ではそこまでの効果はない

普通のDreamboothなら変化率は変わるかもしれないが、Lora学習ではそこまで変化のしやすさに違いはない気がしている。Loraは学習範囲が限定的なことが原因かもしれない。

画像で見てみる(Lora適用での比較)

キャプションの有無以外、学習設定は同じ。

オリジナル↓

キャプションあり↓

キャプションなし(服の色を維持できていない? たまたま?)↓

オリジナル↓

キャプションあり↓

キャプションなし(この作例だとキャプションなしの方がオリジナルに近い?)↓

って事で、Lora学習ではあっても無くても同じような気がします。皆さんもいろいろ試して見てください。

ワークシート

なのでキャプションに入れる要素は画像生成事に変化させたい箇所ということになる。

「服色」= 赤色
「服装」= ワンピース
「髪色」= 黒
「髪型」= ショートヘアー
「性別」= 女性
「年齢的要素」= 20代前半
「目の色」= 黒
「表情」= 笑顔
「背景説明」= 都会のビル
「ポーズ、何してる?」= バックを肩から下げている
「アクセサリーをしてる場合はその説明」=イヤリング、黒いバック、腕時計

例文

イヤリング、黒いバッグ、腕時計を身に着けた20代前半の黒いショートヘアーの黒目の女性が赤いワンピースを着て笑顔を浮かべ、都会のビルの前で立っている。

以上


この記事が気に入ったらサポートをしてみませんか?