Stable Diffusionの第３世代、Stable Cascade を詳細解説❗最高峰の画像生成が瞬足で可能に❗

葉加瀬あい (AI-Hakase)🎈動画&Note でAI解説🎥https://x.gd/F2Mvl

2024年2月18日 17:04

皆さん日々の画像生成で、もっと早く高品質な画像生成ができたらなあ…とかって思ったりしたことないですかね？

実はこの前、そんな皆さんのお悩みを解決する、Stable Cascade というとても画期的な画像生成AIが登場しました！

Stable Diffusion の発表した従来のSDXLのパワーアップ版というイメージで、画像生成がより高品質でしかもより早くなっているととても話題です！

画像生成の性能としてはこんな感じです。

すごい高性能できれいですよね…。

ちなみに話はそれますが、カスケードを聞くと、アニメが大好きな私はこんなものを思い浮かべてしまいます…笑

この方も速くて強いのに代表例ですね…。笑https://th.bing.com/th/id/OIP.3kQIFyKm4i0QlGDu_LyW6QAAAA?rs=1&pid=ImgDetMain

話を戻すと、こちらは画像生成AIのStable Diffusionの開発元であるStability AIが発表した新しい学習モデルになります！

つまりは、今までよりも違った学習方法でAIに画像生成の学習を行っているので、従来のものよりもパワーアップして新しいものが出てきたといった感じですね。

イメージとしてはSD1.5が第一世代、SDXLが第二世代、そしてこちらのStable Cascadeが第三世代と言った感じになります！
（厳密にはもっと世代が色々あるんですけども、ここでは簡略化するためにあえて第三世代という表現をします。）

この**第三世代**がどのくらい**すごい**かというと、この人みたいな感じ…
（コードギアスみなさん分かりますかね…？）

今回の**Stable Cascade**は、要約すると**早くて強い**と有名なあの**ランスロット様**みたいな感じです…！

この方の登場でコードギアスの序盤はとても荒れましたね…笑：引用

ちなみに比較画像はこんな感じになります！
一番左側がStable Cascadeで、一番SDXL
真ん中がSD15といった具合になります。

https://twitter.com/toyxyz3/status/1759142620625023292/photo/1

リアリティとか、手や波などの複雑なもの綺麗さなどはやはりStable Cascadeの方が綺麗ですよね！
ほかの例も見てみましょう！

https://twitter.com/toyxyz3/status/1759164725278232984/photo/1

今回は、そんなStable Cascadeの特徴について解説をして行きたいと思います！それではさっそく行ってみましょう！

Stable Cascadeの特徴

Stable Cascadeの特徴としては、従来のStable Diffusionよりも高速でかつ高品質な画像生成ができるようになったということが挙げられますね。

ちまたでは、Midjourney V6 に匹敵する性能を持っているとか..！

https://twitter.com/Joybeanns/status/1758994814211690777

また、このStable Cascadeの学習モデルを使って新しく学習モデルやLoRAの追加学習を行うときに、より少ないコストでかつ10%から20%ほど高速に学習ができるみたいです。

ちなみにControlNetやLoRAなども使用することができますので、基本的には今までのStable Diffusionを使った画像生成と同じような雰囲気で使用できるかと思います！というか、もっとControlNetやLoRAの性能を忠実に再現できるようになるかもしれません。

なぜかというと、Stable Cascadeはこちらの画像のような三段構造になっています。「ステージA」「ステージB」「ステージC」の構造で以下のように処理を分けて実行しています。

ステージA：テキストや画像プロンプトから画像を生成
ステージB：高解像度化などの処理実施
ステージC：ControlNetやLoRAでの微調整

ちなみに流れとしてはステージCでまずはControlNetやLoRAによる制御を行ってそれを基にテキストプロンプトなどに従った画像を生成しているという流れになります。
（厳密に言うとステージAとステージBはお互いに相互しあっています。）

つまりここで何が言いたいかというと、ステージCがControlNetやLoRAなどの画像生成の処理を行うために切り離されて動作するようになっておりますので、ControlNetやLoRAでの微調整が従来以上に画像生成に影響を及ぼすということになります。

したがって、ControlNetやLoRAでもっと画像生成を柔軟にコントロールできるようになったということになります。

これだけでもすごいんですけど、実はControlNetやLoRAによる微調整がパワーアップした以外にも、先ほど少し触れた高速化や高品質などの特徴もStable Cascadeにはあります。

Stable Cascadeはどのくらい高速化しているのか？

まずは実際にどのくらい画像生成が高速化しているかを解説していきたいと思います。

こちらの画像を見ていただけるととてもわかりやすいのですが、実際に画像生成を行う時にどのくらいの時間がかかったかというものを表したグラフを使用して解説をしていきます。

こちらのグラフでは一番左がStable Cascadeを使用した画像生成で、その隣の水色のグラフがSDXLを使用したものとなっているのですが、Stable Cascadeは従来のSDXLと比べてその半分以下の時間で画像生成ができているということが分かります。
（このグラフを見ても先ほどのステージCとステージABが切り離されて処理されているというのがよくわかりますね。）

Stable Cascadeはどのくらい高品質になってるのか？

そしてどの程度従来のStable Diffusionと比べて高品質化しているかということについても解説をしていきたいと思います。

こちらもこのグラフを見ていただければ最も早いかと思います。
グラフは以下のような構造になっています。

上段-どのくらいユーザーの指示を忠実に再現しているか
下段-生成画像の美しさ

このグラフのオレンジの部分がStable Cascadeになるのですが、こちらを見ていただくと分かるように指示をどのくらい忠実に再現しているかに関しては若干の違いになりますが、生成画像の美しさに関してはSDXLの倍以上のスコアであることが分かります。これとてもすごいですよね...

ちなみにテキストプロンプトをより複雑に表現できるということは、今まで画像生成AIが苦手だった手や足、テキストなどもより忠実に表現できるということになります。
なのでSDXLよりも 10%以上は少しその点も改善できていると言えます。

つまりStable Cascadeは、以下のような特徴を持っていると言えます。

ControlNetやLoRAの影響度がパワーアップ
SDXLと比べ約2倍ほど高速な画像生成が可能になった
SDXLと比べ、とても高品質な画像が生成できる（スコアとしては2倍近く良い成績を納めている）

ここからは、Stable Cascade の Img2Img、アップスケール、Controlnet（インペイントやCanny、FaceID）などといった核心の技術について解説をして行きたいと思います！

続きの説明の前に少しだけ、メンバーシップの説明をさせてください。

『１万円』以上のＡＩ知識が『980円』で学べる。
Note メンバーシップ - あいラボで『お手軽＋お得な』プロの情報収集を。

AIの情報って難しかったりよくわからなかったりしますよね。しかも最近は怪しいものも多い…

私の『Note メンバーシップ - あいラボ』では、実際に複数のＡＩ案件を獲得しているノウハウを基にした最新＋プロ視点の生成AI情報を、本一冊分よりも安い料金で分かりやすく見ることができます。

実際、生成AIの情報記事はとても高く、私のNote メンバーシップと他のサービスを比較すると以下のような違いがあります。

Tips やココナラ等：1万円 ~ 5万円以上（１ジャンルのみの料金）
あいラボ：月額 980円 （さまざまなジャンルのAI記事が読み放題）

近年話題の画像生成AIや動画生成AIなどはあの GAFA も総力を上げて取り組んでいる事業で、今後必ず『AIを使える人・そうでない人』に別れます。

ですので、生成AIについてもっと知りたいと言う皆さんの思考はとても素晴らしいです。

実際にあいラボ（AI-Labo）では、現在 約100人の会員の方がいらっしゃり、これまでの記事のアーカイブも全て見ることができます。
初心者の方・中級者の方など、どんな方でも情報アドバンテージが得られる利点があります。

私も、生成AIをいろんな人にに知ってもらいたいという思いから、高校生でも出せる金額ということでこのサービスを運営しておりますので、ぜひ私のメンバーシップで様々な知識を吸収して行ってください。

メンバーシップの詳細は、是非こちらから！

それでは、つづきの解説を行っていきます！

Stable Cascade の mg2Img、アップスケール、Controlnet（インペイントやCanny、FaceID）

ここから先は

2,704字 / 12画像

🔰初心者でも『note記事・動画・質疑応答』の3点で最新のAI情報がわかります。あいラボ (A…

このメンバーシップの詳細

🎈あいラボ（動画見放題プラン）新規募集につき特別価格✨

¥780 / 月

初月無料募集終了

🎥𓈒 入門者向け記事の『動画版』が見放題となります。 ✒️ 元の記事の閲覧はこちらのプランから： https://x.gd/097H1 最新のAI情報を動画で確認したい方にオススメです🙌 ※ 現在価格での募集は、定員に達し次第、終了いたします。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典マガジンを閲覧できます

🎈葉加瀬のAI研究室 ~あいラボ~ 記事/動画/質問プラン

¥2,599 / 月

あと3人募集中

🎥𓈒最新AI技術の『記事・動画』の閲覧が自由に。 🔰質問OKで、初心者の方も安心です。 👤定員に達し次第、募集終了となります。（質疑応答の人数に限りがあるためです。）ご入門はお早めに！詳細はXのDMまで💌 ̖́- https://x.gd/y7VqE

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

ログイン

この記事が参加している募集

#AIとやってみた

37,281件

この記事が気に入ったらチップで応援してみませんか？