Stable Diffusion3 Ultra(通称SD3Ultra)を試してみました!
現状最高峰のイラスト生成AIですが、有料APIを叩いて生成する必要があり、ハードルの高さから、技術者でも触ってない方が多いと思います。
そこで今回、実際にDiscordサーバー「AI声づくり技術研究会」の友人たちと予算を組んで(出してもらって🙇♂️)、40人以上で同時に試してみました!
そして、面白い使い方を発見したので紹介していきます。
プロンプトの理解力について
SD3は10000字までの自然言語を理解します。
例えば下記の画像をご覧ください。かなりの長文自然言語プロンプトです。
上記はわたしが生成した画像ですが、面白いのはプロンプトの作り方です。
ChatGPTを用いて、次のように対話しながら作りました。
SDXLまでの画像生成AIと大きく異なるのは、下記の2点です
特に、「プロンプトを手探りする必要がない」というのは本当に楽です。
例えば、「ロボットに手を差し伸べられる孤独な少年」を描写したいとき、効くプロンプトは「lonelyとaloneどっちかな?」と比べる必要がなく、ChatGPTに自然言語を作ってもらえば大体いい感じに理解してくれるからです。
何でもいい感じに効くので、画像生成プロセスの大半が、LLMとの対話しての表現調整になります。
アニメから実写風まで、表現の幅が広い
プロンプトの理解力が高い上で表現の幅が広いことで、次のような使い方もできます。
お気に入りのぬいぐるみ画像をChatGPTに投げ込み、自然言語を作ります。
作ってもらったプロンプトをSD3 Ultraに投げ込むと、こんな風にイラスト化できたりします!
お気に入りのアイテムのイラスト化は、今まで画像生成AIが「できそうでできなかった」ことです。
上記の画像では実写風のぬいぐるみイラストを生成していますが、「アニメ化」したり、「フィギュア化」もできると思います。
LoRAを使わずに、素のモデルの力だけでこれだの表現幅を持つのは、わたしの知る限り現在SD3 Ultraだけです。
他にも例を挙げると、次のように特殊な形をしたアイコンも、自然言語のプロンプトのみで再表現できます。
ちなみに、ここまでイラスト風の画像を紹介してきましたが、全然異なる写真風の画像も生成できます。
実際に触ってみて、この表現幅の広さがSD3 Ultraの価値だと感じました。
特に、「画像生成AIに1年前くらいに触っていたけど、最近は触っていない」という方は、進化幅に驚くはずです。
個人的に感じたことは、SD3 MediumとSD3 Ultraは全く別物であるということです。
世間的にはSD3というと、大体Mediumモデルの話がされていますが、ぜひ一度Ultraにも触れてみてほしいです。
SD3 Ultraの利用はこちらから。
今後、簡単にさわれるGUIも公開される予定のようです。
APIがよく分からない方は、もう少しだけ待ってみるといいかもです。
以上!おしまい!
今回画像生成イベントをした「AI声づくり技術研究会」はこちら!
参考記事: