見出し画像

FLUX.1 Forge,windows,RTX3060@12GB で少ないVRAMで大きな画像を作る

環境
・Windows10
・RTX3600 12GB
・Memory 64GB


stable-diffusion-webui-forgeのインストール

forgeモデルは、メモリを省力化でき、早いというメリットがある。実際に使ってみて、この環境だとどのような設定がバランスがとれるのかを探してみた。

構築に参考にしたのはこちらの記事。
CUDAとpytorchをバージョンを合わせて入れなおした。
CUDA 12.1 + Pytorch 2.3.1

追加でxformersを有効化する

https://romptn.com/article/6616

xformerは生成速度が上がり、VRAMの使用量が下がる。RTX3600@12GB FLUX.1でのギリギリでのメモリには、必須といってよいだろう。

Hires.fixを使ってみる

FLUX.1は、サイズが大きく美しい画像が作れるが、ComfyUIで作成した時は1024x1024で200秒ほどかかってしまう。もう少し大きい画像を作ろうとすると2000秒ほどかかり、現実的ではないため。Hires.fixを使う。

結果として言うと、サイズは大きくなるが品質は下がってしまった。
1.5倍拡大でも、結構微妙。さらに、拡大する時間も通常の2~3倍追加で必要になる。使用をあきらめる。

Forgeとxfomersを使って、力業で大きなサイズを出してみる

これがうまく行った。
1000x1500:100s
1200x1800:180s
1500x2250:270s

ただし、横幅1024を大きく超えると、品質が下がり、アニメ調になってしまう。なので個人的には1024x1532で作成する。Hires.fixを使ったときの繊細な表現が消えてしまうこともなく、きれいに表現できる。

その後アスペクト比が正方形に近いほうが、表現として自由が利くことが分かり1024x1360がよさそうというところに落ち着いた。

この繊細さを併せ持ち、さらに拡大することは方法があるのだろうか?モデルの学習ファイルサイズを変えないと難しいような気はする。


この記事が気に入ったらサポートをしてみませんか?