3.stable diffusion を使い始める

2023年9月3日 18:27

実際にStable Diffusionを使ってみる

パーソナルトレーニング2回目、前回までにインストールが終わったので、実際にStable Diffusionを使ってみることに。
モデルを入れる。モデルとは、訓練済みモデルで、ある程度の画像が生成されるようにチューニングされたもの。これを使うとすぐに画像が作成できる。今回は講師のおすすめのモデルをダウンロードして入れ込んだ。アニメ系と実写系をひとつずつ入れる。
基本的にはこれで準備完了だ。

実写系のモデルを選択し、プロンプトの欄に「1 boy」と入れる。1とboyの間は半角スペース。そして区切りとしての「,」カンマを入れる。カンマで区切って単語を入れることで画像が変化していく。

プロンプトは呪文

このプロンプトは呪文と言われている。プロンプトを入れると画像ができるのだから魔法の呪文のようだ。
下の画像は記念すべき第一号の画像。1人の少年が登場。なぜかモノクロだった。

気づくだろうが指が3本しか見えない。AIがたくさんの画像を見て「記憶」しているのだが、一般的に指が5本そろって写っている画像は少ないのでこのようなことが起きるのだそうだ。

さっそく「美女」を

この呪文を追加することで画像がどんどん作成できる。
さっそく「美女」を作成。

呪文＝プロンプトはいろいろといじっているので、顔とかも少しずつ違っている。笑っているのはsmileというワードを入れているからで、一人だけ笑っていないのはsmileを消してungryを入れているため。

ネガティブプロンプト

プロンプトにはネガティブプロンプトなるものがあり、これは出さないで、表現しないでというワードを並べる。illustration, 3d, sepia, (painting), cartoons,というのを入れると実写でないものは出ないでということになる。
モデルには実写もアニメも対応しているのがあるので、その場合はこのネガティブプロンプトを入れることになる。

モデルとプロンプトは入手できる

モデルはネット上に公開されていて、無料で利用でき、商用利用できるものがたくさんある。例えば猫の実写系の画像を作成する場合は、猫の画像のモデルを使うと簡単に作成できる。

また、プロンプトも公開されているのがあり、利用できるものもあるので、コピーして作成することができる。プロンプトを見て、ああ、こうするといいんだな、と勉強にもなる。プロンプトは記述する順番、括弧で囲むと強調されるなどルールがあるので、順番等で画像が違ってくるのが面白い。

次回は

今回の作業はtext2image、テキストから画像を作成するもの。
次回は、Stable Diffusionは画像から画像も作成できるので、亡くなった母の写真をリアルにしてみたいと思っている。
アニメ系の画像作成にもチャレンジする予定だ。
60の手習い、けっこうおもしろくなってきた。これも講師の方の教え方が上手なせいもある。よき師に出会えた。