
Stable Diffusion 3 Medium をローカル (ComfyUI) で動かしてみた
最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表
このモデルの面白そうな機能にテキスト生成があるんですよ!
テキスト生成: Diffusion Transformer architecture により、ノイズやスペルミスのないテキスト生成において、これまでにない結果を達成します。
つい最近、Midjourney で日本語のテキスト生成ができるよーみたいな記事を読んで、ローカルでも簡単にできないかなー?と思っていたところでした。
使い方
Hugging Face にいってアカウント作って色々同意する
README.md を読むと ComfyUI がおすすめされていたので必要に応じてインストール (私は Stabilitty Mattix で入れてます)
comfy_example_workflows/sd3_medium_example_workflow_basic.json を ComfyUI に読み込ませる
必要なモデルとテキストエンコーダーをダウンロードして良い感じにコピーする
StabilityMatrix/Data/Packages/ComfyUI/models/checkpoints/ 以下に置くもの
sd3_medium.safetensors
StabilityMatrix/Data/Packages/ComfyUI/models/clip 以下に置くもの
clip_g.safetensors
clip_l.safetensors
t5xxl_fp8_e4m3fn.safetensors
これで準備完了なので ComfyUI の Queue Prompt で画像生成するだけ!!!
生成された画像
デフォルトで以下の画像が生成されました。

テキスト生成してみた (https://ai-workstyle.com/ai-midjourney-japanese/ さんのプロンプトを拝借)

1枚目と同じプロンプトの最後に「A girl holds a piece of paper and inside it is written the word “hello world”」を付けただけ。すごー。
日本語はどうかというと・・・。

だめだーーーーーーー。「こんにちは世界」は無理だった。
文献参照しても日本語の話書いてなかったし、
頑張って日本語にできたらまた記事かこうかな。

いいなと思ったら応援しよう!
