![見出し画像](https://assets.st-note.com/production/uploads/images/152735405/rectangle_large_type_2_315bff5eff3f546cd35a3fc2930ccbf4.png?width=1200)
ComfyUIで画像生成を比較(Stable Diffusion 1.5 vs Flux.1)
ComfyUIとは
Stable Diffusionを起動するUIとして、Automatic1111以外に似たようなUIのForgeや、ComfyUIがあります。
ComfyUIについては(使い始めたばかりのため機能比較のレビューはできませんが)、入力から出力までフローベースで組み立てられるのが特徴です。
![](https://assets.st-note.com/img/1725086641784-B8pJLZcAr7.png?width=1200)
ComfyUIの活用事例
テレビ東京「Newsモーニングサテライト」にて、中国のオンラインゲーム会社がキャラクターデザインをAIで制作していました。作成風景からComfyUIを活用している印象でした。
プロンプトでキャラクターのコンセプトを設定→キャラクターのルールを補正という流れだと思いますが、複雑に組み合わせていました。
Stable Diffusion 1.5 vs Flux.1
さて、本題のStable Diffusion 1.5とFlux.1の比較ですが、一目瞭然でFlux.1の精度が高いです。より写真的で、ほぼ破綻せずに画像生成しています。下部で説明していますが、同じプロンプトでの画像生成です。
Stable Diffusionの最新版が「Stable Diffusion 3 Medium(SD3M)」であることを考えると、Stable Diffusion 1.5では比較対象として不適切かもしれません。ただ、2年弱でこれだけ良くなっていることを考えると、改めて画像生成の進化に驚かされます。
![](https://assets.st-note.com/img/1725163952279-yL6e3eaHvM.png)
![](https://assets.st-note.com/img/1725086580627-DFTAZwkPME.png)
プロンプト生成と画像生成
今回は、GPT-4oで画像生成に使うプロンプトを生成しています。
![](https://assets.st-note.com/img/1725086712288-QLs5tZkm1H.png?width=1200)
GPT-4oで生成したプロンプトを入力し、それぞれのモデルで画像生成をしました。
![](https://assets.st-note.com/img/1725086641730-8T7hM98jcn.png?width=1200)
![](https://assets.st-note.com/img/1725086641784-B8pJLZcAr7.png?width=1200)
余談ですが、Flux.1はA6000でしか試していませんが、それなりのVRAMが必要になります。(Flux.1のリリース後にA6000が一部で売り切れになったとか)OSSの画像生成を試すだけでもコストが高くなっています。