Stable Diffusion（Sea Art）の始め方と試してみた感想

2023年7月13日 16:13

🧩Stable Diffusionとは？

Stable Diffusion（ステイブル・ディフュージョン）は、2022年に公開されたディープラーニング（深層学習）のtext-to-imageモデル（英語版）である。主にテキスト入力に基づく画像生成（text-to-image）に使用されるが、他にもインペインティング、アウトペインティング、テキストプロンプトによって誘導される画像に基づく画像生成（image-to-image）にも使用される。
Stable Diffusionは、ミュンヘン大学のCompVisグループが開発した潜在拡散モデル（英: latent diffusion model）であり、深層生成ニューラルネットワークの一種である。このモデルは、EleutherAIとLAION（英語版）の支援を受け、Stability AI、CompVis LMU、Runwayの三者が共同で公開した。2022年10月、Stability AIは、Lightspeed Venture Partners（英語版）とCoatue Management（英語版）が主導するラウンドで1億100万米ドルを調達した。
Stable Diffusionのコードとウェイトは一般に公開されており、少なくとも8GBのVRAMを持つGPUを搭載したほとんどの消費者向けハードウェアで実行可能である。そのため、DALL-EやMidjourneyなど、クラウドサービス経由でのみアクセス可能だった従来のプロプライエタリなtext-to-imageモデルとは一線を画すものであると評されている。
Stable Diffusionは、教師データを確保するためにインターネット上から何十億もの画像をスクレイピングしているが、その画像の大半は著作権で保護されており同意を得ているわけではないので、著作権法に違反するのかどうか、フェアユースに該当するのかどうか、倫理的に適切であるのかといった法的・倫理的な論争が生じており、提供元のStability AIに対して複数の訴訟が提起されている。

ウィキペディア（Wikipedia）

🧩学んだ講座等

Udemyの口座からStable Diffusionに特化した講座を受講。同時にちょうど開催されていた【Lancers】電脳遊技会にも参加してきました。
２つで学んだ内容をまとめておこうと思います。

Udemy講座：ジェネレーティブAI（画像生成AI）入門【Stable Diffuson】-プロンプトでハイクオリティな画像製作が可能

【Lancers】電脳遊技会～画像生成AIを使いこなそうStable Diffusion編～

🧩環境構築

ローカル環境に構築を検討

はじめ、使っていないゲーミングPC（ノート）ローカル環境に構築するつもりだったのですが…

NVIDIA製のVRAM4GB以上、Windows11、ディスク容量残（CドライブもしくはDドライブ）25GB以上。
推奨は、NVIDIA製のVRAM12GB以上、Windows11、ディスク容量（CドライブもしくはDドライブ）80GB以上、SSD。

という最低条件をみて、いろいろ足りないなぁ…と思い諦めました。

次に、Udemy講座で紹介されていた「Paperspace Gradient」を検討

・月定額でGPUマシンを利用可能
・FreeプランであればRTX4000 8GBまで、ProプランであればA4000 16GBまで、GrowthプランであればA100 80GBまで使用可能

Freeプランでは登録のみのようなもの
Proプランではお試しで生成に時間がかかる
GROWTHプランでなら快適に使える
…でも、使いたいマシンが使うときに空いているとは限らない？！

他の方が良く使う夜や週末などはさらに１時間あたりいくらを課金するマシンしか開いていないこともあるとのこと。
これから使う人が増えるだろうと考えると取り合いになりそうですね。

個人的には、よく知らない海外のものをクレカで購入するのは怖いという気持ちもあり解約方法なども調べてからでないと契約しにくい状況です…。

Udemy講座の中でも、マシンの課金システムがわかりにくくて知らずに課金していたので後で請求が来たとおっしゃってましたし💦

💡Google Colabを検討中

Pythonで機械学習を学んだ時に使ったことがあり、安心感があるので検討中。
Udemy講座内で警告メッセージが出ると言っていたのは無料プランのようなので有料プランで調査中。（私の学習時2年位前）とは少し変わっているようなのでわかり次第追記します。

🧩試してみる

まずは　Web版デモ　でお試ししてみましたが、イマイチよくわからない…。
そこで、電脳遊戯会で廉価版（50％くらい）で仕組みが同じと言っていたSeaArtを試してみました。

題材①桜並木の中で猫がたたずんでいる景色を作成。
　　　※人がいてはいけない

題材②紅葉の背景で一人の日本人女性が微笑んでいる。
女性はショートカットで黒髪、めがねをかけていて着物を着ている。
※めがねをかけていると目がゆがみやすいので注意

ショートカット？！というところはあるものの、プロンプトの優先順位や入れ方が悪かった模様💦

最後にこのNoteのタイトル画像を生成。
PCのスペックが足りなくて困っている女性を作ってみました。

🧩まとめ

・モデル（学習済みモデル）の選択
・LoRa（追加学習）で画風や作風を指示
・プロンプトで生成したいものをAIにわかりやすく伝える(優先順位の高いものから記入していき、単語に重みをつける）
・ネガティブプロンプト（生成したくないものを伝える）
・違う画像を生成したいときはSeedは-1

【推奨プロンプト】
((Top Quality,8k,32k,Masterpiece: 1.2)) 　クオリティの高い画像にしたいとき
Dramatic lighting　　　　　　　　　　照明をドラマチックにしたいとき
Delicate eyes　　　　　　　　　　　　繊細に目を生成したいとき
ultra detailed　　　　　　　　　　　　イラストで繊細な描写にしたいとき
white backgraund　　　　　　　　　　白背景（画像を切り抜きたいとき）

【ネガティブプロンプト例】
verybadimagenegative_v1.3, ng_deepnegative_v1_75t, (ugly face:0.8),cross-eyed,sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, bad anatomy, DeepNegative, facing away, tilted head, {Multiple people}, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worstquality, low quality, normal quality, jpegartifacts, signature, watermark, use

【パラメータ】
Samoling method　ノイズを除去するときのアルゴリズム
Sampling steps　　南海ノイズを除去するか（やりすぎても崩れる）
Batch count　　　入力されたプロンプトで生成する回数
CGF Scale　　　　プロンプトをどれだけ忠実に実行するか
Seed　　　　　　乱数