finetuneモデル『AfterReal_alpha』のメンバー先行公開と、今後のfinetune等方向性の告知
今回はSD1系のfinetuneモデル『AfterReal_alpha』をメンバー先行で公開いたします。とはいえ、活動報告兼demo版に近いので、一般公開するかは未定。
正直、安定性は非常に低いです。
指の破綻率は学習元のepicrealism_pureEvolutionV5より悪化していて、目や顔立ちの安定性もまだまだです。(より最新のepicrealism_naturalSinは謎のノイズが発生するので、epicrealism_pureEvolutionV5を利用)
ただかなり高画質重視データセットで学習したお陰で、SD1系にも関わらずHires.fixを使用せず、512×768でも当たりを引くと、かなり綺麗な画像が出ます。
Hires.fixでLatent 2.1倍だとSD1系の軽さの割りに画質のポテンシャルを感じられるモデルとなっています。
ただADetailerとの相性はあまり良くないです。顔だけ画質が下がる傾向があります。
学習はjapanese girlとjapanese womanを主軸とし、BLIP2とWDタグの組み合わせキャプションで学習させています。
日本人顔以外は学習させていないのですが、european girlなども顕著な変化をしています。
プロンプトとしてはクオリティアップ系を使用しないでも問題ないタイプの流れを組んでいます。
japanese womanやjapanese girlから初めて、シンプルなプロンプト推奨です。BLIP2も使用していますが文章はあまり得意な感じがしません。単語のほうが安定しやすいです。
今後としては
データセットの枚数拡張をしつつ、顔学習安定方法の模索、服装強化などを少しずつ行う予定です。
また
①今回のfinetuneの検証から、低画質の画像で情報量を増やし、高画質画像で最終微調整することで、画質が低い画像でも有効活用できる可能性が見えてきました。
SDXLでも応用は出来そうです。(768768ベースで服装などは学習して、10281028ベースで最終微調整すれば、多少学習コストは下がる可能性がある。ただ、結局epoch単位での検証やらで時間は食うので、今手を出す余裕はない)
②今回は768*768ベースのbucket。学習率:5-6eでcosineを使用し、Textencoder学習はなしでしたが、Textencoder学習を行った場合やconstantなどでの変化も検証しつつ、精度をあげられないか検証予定。
③今後データセットの枚数を増やしても、あまり顔の学習などが安定しない場合は、キャプション等も検証予定。
④現行APIのみのStable Diffusion v1.6が一般公開されれば、そちらでも並行学習してマージするか、そちらを完全にベースとすることも検討中。Stable Diffusion v1系はbase段階で、かなり無造作な画像を学習している感があるので、1.6はそこが改善されている可能性がある。その一方、美的スコア重視だとSDXLが抱える表情学習能力の癖が似通る可能性もあるので、そちらも加味しつつ、検討中です。
学習画像は割と確保しているのですがデータ選別と、リサイズ・トリミング加工、キャプションなどで時間を食ってる感じです。
進捗はゆっくりになると思われますが、新たなマージ素材としてなり、活用して貰えればと思い、作成中です。
以下、メンバー向け配布リンク
この記事が気に入ったらチップで応援してみませんか?