見出し画像

Stable Diffusion3 Ultraの面白い使い方

Stable Diffusion3 Ultra(通称SD3Ultra)を試してみました!

現状最高峰のイラスト生成AIですが、有料APIを叩いて生成する必要があり、ハードルの高さから、技術者でも触ってない方が多いと思います。

そこで今回、実際にDiscordサーバー「AI声づくり技術研究会」の友人たちと予算を組んで(出してもらって🙇‍♂️)、40人以上で同時に試してみました!

そして、面白い使い方を発見したので紹介していきます。

プロンプトの理解力について

SD3は10000字までの自然言語を理解します。
例えば下記の画像をご覧ください。かなりの長文自然言語プロンプトです。

"A futuristic robot with a simple structure, standing in the midst of overgrown ruins, with lush green vegetation overtaking crumbling buildings. The scene is filled with vibrant plant life, including vines, moss, and trees growing out of the remnants of the past civilization. A young boy is crouching, head down, looking lonely, while the robot extends its hand towards him. The robot is painted in a rusty red color, contrasting with the greenery, and has a very subtle light glowing from its lamp, indicating it is operational. The boy is wearing a blue shirt and jeans, also standing out against the green background. The illustration has a soft, pastel color palette reminiscent of classic paintings, with a gentle, diffused light creating a serene and ethereal atmosphere. The setting sun casts a warm, golden light, creating long shadows and highlighting the contrast between nature and technology. Highly detailed, realistic, 8k resolution, cinematic lighting, by Greg Rutkowski and Simon Stålenhag, in the style of Claude Monet."

上記はわたしが生成した画像ですが、面白いのはプロンプトの作り方です。
ChatGPTを用いて、次のように対話しながら作りました。

フレンドのうみせさん作:プロンプトマスターを用いた制作

SDXLまでの画像生成AIと大きく異なるのは、下記の2点です

  • 自然言語をよく理解するので、プロンプトを手探りで打つ必要がない

  • ネガティブプロンプトによるコントロールが不要

特に、「プロンプトを手探りする必要がない」というのは本当に楽です。
例えば、「ロボットに手を差し伸べられる孤独な少年」を描写したいとき、効くプロンプトは「lonelyとaloneどっちかな?」と比べる必要がなく、ChatGPTに自然言語を作ってもらえば大体いい感じに理解してくれるからです。

何でもいい感じに効くので、画像生成プロセスの大半が、LLMとの対話しての表現調整になります。

アニメから実写風まで、表現の幅が広い

プロンプトの理解力が高い上で表現の幅が広いことで、次のような使い方もできます。

お気に入りのぬいぐるみ画像をChatGPTに投げ込み、自然言語を作ります。

うんわさんのぬいぐるみ

作ってもらったプロンプトをSD3 Ultraに投げ込むと、こんな風にイラスト化できたりします!

うんわさん作イラスト

お気に入りのアイテムのイラスト化は、今まで画像生成AIが「できそうでできなかった」ことです。
上記の画像では実写風のぬいぐるみイラストを生成していますが、「アニメ化」したり、「フィギュア化」もできると思います。

LoRAを使わずに、素のモデルの力だけでこれだの表現幅を持つのは、わたしの知る限り現在SD3 Ultraだけです。

他にも例を挙げると、次のように特殊な形をしたアイコンも、自然言語のプロンプトのみで再表現できます。

kokurenさんのアイコン
The image depicts a cartoon-like illustration of a bear's face with angelic features against a blue background. The bear has a round head with small, rounded ears and simple black dot eyes. Its nose is also simple, consisting of a small, black triangle shape. The bear has an expressionless or neutral face. Above the bear's head is a small halo, signifying its angelic nature. Additionally, the bear has white wings extending outward from both sides of its head. The wings are stylized with a single curl at the bottom, giving them a whimsical appearance. The overall design is clean and minimalistic, using primarily simple lines and shapes to convey the image. The blue background contrasts with the white and black elements of the bear, making the figure stand out clearly

ちなみに、ここまでイラスト風の画像を紹介してきましたが、全然異なる写真風の画像も生成できます。

Man eating a burrito while leaning his back against the side of a bus at night in the city
はにわさん作

実際に触ってみて、この表現幅の広さがSD3 Ultraの価値だと感じました。
特に、「画像生成AIに1年前くらいに触っていたけど、最近は触っていない」という方は、進化幅に驚くはずです。

個人的に感じたことは、SD3 MediumとSD3 Ultraは全く別物であるということです。
世間的にはSD3というと、大体Mediumモデルの話がされていますが、ぜひ一度Ultraにも触れてみてほしいです。

SD3 Ultraの利用はこちらから。

今後、簡単にさわれるGUIも公開される予定のようです。
APIがよく分からない方は、もう少しだけ待ってみるといいかもです。

以上!おしまい!

TylorShineさん作

今回画像生成イベントをした「AI声づくり技術研究会」はこちら!

参考記事:

いいなと思ったら応援しよう!