data:image/s3,"s3://crabby-images/536a6/536a65ea5f79f4833a38a3b13b6bdc4c26f90af9" alt="見出し画像"
Google Colab で Stable Cascade を試す
「Google Colab」で「Stable Cascade」を試したので、まとめました。
【注意】Google Colab Pro/Pro+のA100で動作確認しています。
1. Stable Cascade
「Stable Cascade」は、「Würstchen」ーキテクチャをベースにした新しいテキスト画像変換モデルです。3段階のアプローチにより、一般消費者向けハードウェアでの学習とファインチューニングが簡単にできます。非商用利用のみを許可する非商用ライセンスの下でリリースされます。
ファインチューニング、ControlNet、LoRA学習用のスクリプトを Stability AI の GitHub で公開しています。
2. Colabでの実行
Colabでの実行手順は、次のとおりです。
(1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。
(2) パッケージのインストール。
# パッケージのインストール
!pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3
(3) パイプラインの準備。
import torch
from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline
# パイプラインの準備
prior = StableCascadePriorPipeline.from_pretrained(
"stabilityai/stable-cascade-prior",
torch_dtype=torch.bfloat16
).to("cuda")
decoder = StableCascadeDecoderPipeline.from_pretrained(
"stabilityai/stable-cascade",
torch_dtype=torch.float16
).to("cuda")
(4) 画像生成。
# プロンプトの準備
prompt = "cute cat-ear maid of japanese anime style"
negative_prompt = ""
# 画像生成
prior_output = prior(
prompt=prompt,
height=1024,
width=1024,
negative_prompt=negative_prompt,
guidance_scale=4.0,
num_images_per_prompt=1,
num_inference_steps=20
)
decoder_output = decoder(
image_embeddings=prior_output.image_embeddings.half(),
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=0.0,
output_type="pil",
num_inference_steps=10
).images
decoder_output[0].save("image.png", "PNG")
cute cat-ear maid of japanese anime style
data:image/s3,"s3://crabby-images/b6026/b6026f74740e6cd77050b81e51f6b0871e4efe0c" alt=""
cute cat-ear maid
data:image/s3,"s3://crabby-images/586f8/586f88636c00b556a6ff8f036f0ae6c31b714bb8" alt=""
メモリ消費量は、次のとおりです。
data:image/s3,"s3://crabby-images/2c4a5/2c4a5336633c0df36bd66502c958a9d48e3972b5" alt=""