Stable Diffusion 3 Mediumをローカル環境に導入

2024年6月13日 13:39

日本時間で６月１２日、遂にSD3Mediumが商用利用に関しては制限付きながらオープンソースで公開されました。

Stable Diffusion 3 シリーズの最新かつ最も洗練されたモデルである Stable Diffusion 3 Medium をご紹介します。

このリリースは、生成 AI の進化における大きなマイルストーンであり、オープンな生成AIに対する私たちの取り組みを継続するものです。

詳細は、こちらをご覧ください。… pic.twitter.com/01ZoA9UW8p
— Stability AI Japan (@StabilityAI_JP) June 12, 2024

発表以来OpenAIのGPTシリーズのように、料金を払ってAPI経由で使用するしか方法がなく、

正直な処、昨年来StablityAI社の累積赤字問題なども報道にあったことから、オープンソース化されるかを不安視しておりましたが、これで世界中のユーザーが無料で使用できる道が開かれました。

SD1.5やSDXLと同様、これから世界中のエンジニアたちが研究、開発を進めてくると思われるので、それらの開発結果を私たちが利用できる日も、また近いと思います。

ComfyUI用のサンプルノードも同時に公開されていたので、早速ComfyUIでテストしてみました。

これまでにないSD3の特徴として、「Text Encorder」という恐らく文字生成に関わるローダーを使用する点にあります。

メインのベースモデルも当然用意されていますが、Text Encorderを最初から内包したモデルもあるようです。

ここではとりあえず、普通に標準モデルを使用し、Clip Encporderはそれぞれ３個を使用しました。

これらのファィルは、下図のように"\ComfyUI_windows_portable\ComfyUI\models\clip"に保存します。

KSamplerの設定としては、下図が推奨設定と思われますが、サンプラーの相性はかなり神経質なようで、愛用しているDPMPP 3M SDEなどをテストしてみた処、全く使い物になりませんでした。これから、新しいサンプラーの開発にも期待したいところです。

プロンプトはこれから色々テストしていきたいと思いますが、まだ登場したばかりなので、LoRAやControlnetも当然使用環境は整っておらず、これからそれらの開発をゆっくり待ちたいと思います。

Stable Diffusion 3 Mediumをローカル環境に導入

いいなと思ったら応援しよう！