見出し画像

SDXLでOpenposeを使うときに見る記事


前書き

久しぶりにSDXLでOpenposeを使うとポーズの再現精度がやたらと低いことに気づいた。
試しにぐぐってみると同じ問題を認識している人を発見!
でも、有効な改善策を提示している人はいなさそう。
いろいろ試した結果、CFGやControl Weightなどパラメータの問題ではなさそうなので、複数の種類があるControlNet Modelを比較してマシなやつを探すことにした。

検証

比較するのはCivitaiにあったこちらの8種類。
hugging faceでイリヤ氏が上げているModel + αがあるので、
メジャーどころはカバーできているはず。

リンクはこちら

ポーズ画像はこんな感じ。
Preprocessor > openpose_full
Control Weight > 1

というわけで、さっそく比較画像。
パラメータはCFG 7 / Step 20 / seed固定 / AAMXLのモデルを使用。
プロンプトはポーズの再現性を見たいので1girlのみ。

やっぱKohyaのopenpose v2精度悪いなぁ。。。
右手以外ほぼ全滅だし、左上の画像は構図からしてミスってる。
こういう外れ値を含む結果は回数回す必要があるから使えないんだよなぁ。

真面目に一個一個評価するなら、

bdsqlsz >  Kohyaよりマシな使えなさ
Kohya openpose > 使えない
Kohya openpose v2 > 使えない
TencentARC > おそらく特定の設定、使い方があると予想。評価対象外
thibaud > かなり良い。でも謎のキューピー人形感
thibaud-Lora > 良い。右下が怖い。名前的にこれも特別な使い方をする用
xinsir > 良い。右下が外れ値なのが残念。絵柄良し
xinsir-twins > 良い。一個上と絵柄違い

ポーズのみで評価するなら、こんな感じ。
thibaud > xinsir = xinsir-twins >>>(越えられない壁)>>> bdsqlsz > Kohya
(TencentARC, thibaud-Loraは除く)

絵柄を考慮すればxinsirも全然あり。外れ値含むけど3/4はいい感じだしね。
bdsqlszとKohyaだけは使うのをやめましょう。時間の無駄です。
thibaudは絵柄さえコントロールできれば完璧だから、要追加検証ですな!

まとめ(ここだけ見ろ!)

thibaudかxinsirを使いましょう。

thibaud:リンクはこちら
xinsir:リンクはこちら


いいなと思ったら応援しよう!