![見出し画像](https://assets.st-note.com/production/uploads/images/85185066/rectangle_large_type_2_f7348c8bb38312ced9b27b788ae22437.jpeg?width=1200)
DreamStudio(stable diffusion)で遊んでみた:(Text To Image)
1.概要
2022年8月現在ではテキストから画像を生成するAIが話題になっており、それに伴い倫理感や作者の権利に関する話題などが活発化されております。
テキストから画像を生成するAIが続々と登場している。DALL-E2、Imagen、Parti、Midjourney、stable diffusionなどが世界中で話題になったので,今後は参入人口が急拡大し、さらに多くのAIが登場し、クオリティがさらに高まり、同程度の質のモデルのコストが劇的に下がり、生成速度も桁違いに改善される
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) August 15, 2022
今回は「Stability.AI」が提供しているdiffusion modelを使用したtext to imageである「Dream Studio」で遊んでみました。
2022年8月21日現在では本サービスはDreamStudio Lite(β版)であり、将来的にDreamStudio Pro (video/audio) と Enterprise (studios)版が発表予定です。
![](https://assets.st-note.com/img/1661062064784-6pGoWZM59d.png?width=1200)
2.確認事項
2-1.事前対応:StabilityAIのアカウント作成
おそらく下記の「DreamStudio」からアカウント作成したら使用できると思います。
私は別途「Stable Diffusion Beta Access」の申請もしておりますが(申請が下りたメールがきていないため)こちらは関係ないと思います。
2-2.無料回数の確認
初回で£2.00(約320円分)の無料枠があります。デフォルトの「512x512, 50steps, 1枚出力」で処理すると0.02£/枚使用します。課金は右下にある通り£10単位(約1600円)で購入可能です(約500枚作成可能)。
![](https://assets.st-note.com/img/1661062344591-V3ki8Ouy52.png?width=1200)
入力の条件値でかかる費用は変わってきますのでご注意ください。
![](https://assets.st-note.com/img/1661062516520-85YpmcmNDv.png?width=1200)
2-3.コンテンツフィルター
結論からいうと「フィルターは緩いが"Terms of Service"ではエロい不適切な絵は禁止」とのことです。
「Stable Diffusion launch announcement」よりStability AIのモデルは「LAION-5B」で学習されており特に変なバイアスはないためおそらくある程度の絵は作成できると思います。
ただしガイドラインには下記のような絵は作成しないように注意されているためよほどのことがない限りは避けた方がよいと思います。
![](https://assets.st-note.com/img/1661063043238-UXHVgQeQ4S.png?width=1200)
3.DreamStudio実演
使用方法を紹介します。詳細は公式「Prompt Guide」をご確認ください。
3-1.テキスト(Prompt)の入力方法
一番下のBOXに出力したいテキストを入力して"dream"ボタンを押せば画像が出力されます。出力した画像および入力情報は"History"から確認可能です
![](https://assets.st-note.com/production/uploads/images/85182276/picture_pc_21fa5c236afb0b02fff4e661b207513a.gif?width=1200)
右サイドバーに入力値を調整できるタブがあるためコストを考慮しながら必要であれば入力条件を調整します。
【入力条件】
●width:出力画像の幅
●height: 出力画像の高さ
●Cfg Scale:どれだけPrompt(入力したテキスト)に近いイメージを出すか
(高い値ほどPromptに近い絵を出力)
●Steps:画像作成のための処理回数 (拡散モデルでのstep数?)
●Number of Images:1回の処理で作成される画像の枚数
●Sampler:Diffusion sampling method(わからん)->ddim,plms, k_euler,
k_euler_ancestral, k_heun, k_dpm_2, k_dpm_2_ancestral , k_lms
●seed:AIモデルの乱数値(固定値にすると同じ結果が出るはず)
![](https://assets.st-note.com/img/1661064611837-6kjJdQjWk2.png?width=1200)
![](https://assets.st-note.com/img/1661062516520-85YpmcmNDv.png?width=1200)
3-2.残使用回数の確認
使用回数(残高£)の確認は「右上のアイコン」->「Menmbership」へ移動して右側にある値で確認できます。
![](https://assets.st-note.com/img/1661065105445-433eh4SHkj.png?width=1200)
3-3.出力結果の確認:受信ボックス
左サイドバーの「History」から確認可能です。
![](https://assets.st-note.com/img/1661065492803-RTgjHFnQL5.png?width=1200)
3-4.画像の再生成
現時点で何のための機能かはわかりませんが紹介します。
「Hitstory」から作成した画像を選択して「Redream」ボタンを選択すると同じ画像が作成されます(コストも発生)。
![](https://assets.st-note.com/production/uploads/images/85183741/picture_pc_43909c61780bda75491921a12441f0cb.gif?width=1200)
3-5.結果の保存
結論としては「出力した画像はすぐに保存しよう」です。
出力した画像を選択するとダウンロードできます。なおHistory内の画像は圧縮されており右クリックの「名前を付けて保存」すると下図の通り全く異なるサイズで保管されます(pandaは正しく保存)。
またβ版ではブラウザのキャッシュが消えると出力画像も消えるためローカルPCへの保存が必須です。
![](https://assets.st-note.com/img/1661065957976-eZSQeyUMlk.png?width=1200)
![](https://assets.st-note.com/img/1661065979477-XQxe3k9yjm.png?width=1200)
4.出力結果
出力結果および入力テキストは下記の通りです。
new world after any human has been gone
Blue world without any creatures
4-1.Prompt:new world after any human has been gone
![](https://assets.st-note.com/img/1661066353658-BAJ3FQmDIB.png)
![](https://assets.st-note.com/img/1661066358858-wuEEl3NPqm.png)
![](https://assets.st-note.com/img/1661066363825-qO3NuqSzie.png)
4-2.Prompt:Blue world without any creatures
![](https://assets.st-note.com/img/1661066372887-H1VxZaI7eK.png)
![](https://assets.st-note.com/img/1661066377504-gkXHZgL15b.png)
![](https://assets.st-note.com/img/1661066381898-uF5BIjSnd5.png)
![](https://assets.st-note.com/img/1661066540909-SGxtudE5Fu.png)
5.所感
細かい所感はDALL-E2の記事に記載しておりますので、今回は他モデルとの比較をコメントします。
「Blue world without any creatures 」は結構気に入った感じでできたのですが「new world after any human has been gone」はダサい、というよりテキストをテキストで表現しているところがおかしい。
Prompt(テキスト)の入力方法もだけど、各モデルで入力値の調整などいろいろ異なってて面白い。
参考資料
Delighted to announce the public open source release of #StableDiffusion!
— Emad (@EMostaque) August 22, 2022
Please see our release post and retweet! https://t.co/dEsBX7cRHw
Proud of everyone involved in releasing this tech that is the first of a series of models to activate the creative potential of humanity
あとがき
ワイの夏休みがああああああ・・・・・・