Fooocusによる画像生成
今年(2023年)、2023年7月26日に次世代Stable DiffusionであるStable Diffusion XL(以降SDXL)のリリースとなった。現在最もポピュラーなStable Diffusion 1.5(以降SD 1.5)のリリースが2022年10月20日なので、1年待たずしての登場だ。最も一般的に普及しているのがAUTOMATIC1111 / stable-diffusion-webui
だろうと思われる。V1.52でSDXLに対応しv1.6でrefainerやHires.fixにも対応し先だっては、controlnetの一部も対応してopenposeによるポーズ指定も可能になって非常に表現力が増加しました。一方でSDXLは大変パラメーターがベースで30億、rifainerは60億パラメーターという巨大なシステムであるためにRTX3.xxx系列のグラフィックボードではギリギリという重さになっていてグラボ単体でも10万円から30万円というようなRTX4xxx番台の性能でないと十分な性能を引き出せないという厳しい運用にになっていて、一般の人が家庭で生成することが困難になっており普及の壁になっています。
それに対してComfyUIというwebUIはVRAM8G程度から動作するということとノードという機能のユニットを紐づけて繋げて操作するという視覚的な明確をを持ってコマンドボタン操作よりも関係性が直感的に資格から理解しやすいツールになっていて少しづつ支持層が増えているようです。
しかし、webUIA1111にしてもComfyUIにしても多少の専門知識は要求されますし、サイトでの課金サービスに比べると、ローカル環境での整備はハードルが高かったと思われます。そんななか、fooocusの登場で最低VRAM4Gから激重システムのSDXLが(時間はかかるがかろうじて動作する)という画期的なツールが8月にリリースされました。SD1.5の資産は誠に豊富でありますが、マシンスペックの壁、価格の壁を突破できるツールとして、軽量シンプルなfooocusも選択肢に入るのではないかと思われます。
本日はSDXL対応生成モデルでも有名なdreamshaperXL10での生成を行ってみました。顔はややアジア系とはいえbodyはコーカシアンの西洋人というアンバランスな生成ですけど、このあたりは、亜細亜系生成のモデラーさんの追加学習モデルやloraに期待です。
いままで、一切、webUIが動作しなかったVRAM6Gの非力マシンでもこれだけの再現性のある生成が可能ですので、アップスケーラーが開発されればSDXLの壁はかなりハードルが下がりそうな気がします。