Stable Diffusionの第3世代、Stable Cascade を詳細解説❗最高峰の画像生成が瞬足で可能に❗
皆さん日々の画像生成で、もっと早く高品質な画像生成ができたらなあ…とかって思ったりしたことないですかね?
実はこの前、そんな皆さんのお悩みを解決する、Stable Cascade というとても画期的な画像生成AIが登場しました!
Stable Diffusion の発表した従来のSDXLのパワーアップ版というイメージで、画像生成がより高品質でしかもより早くなっているととても話題です!
画像生成の性能としてはこんな感じです。
すごい高性能できれいですよね…。
ちなみに話はそれますが、カスケードを聞くと、アニメが大好きな私はこんなものを思い浮かべてしまいます…笑
話を戻すと、こちらは画像生成AIのStable Diffusionの開発元であるStability AIが発表した新しい学習モデルになります!
つまりは、今までよりも違った学習方法でAIに画像生成の学習を行っているので、従来のものよりもパワーアップして新しいものが出てきたといった感じですね。
イメージとしてはSD1.5が第一世代、SDXLが第二世代、そしてこちらのStable Cascadeが第三世代と言った感じになります!
(厳密にはもっと世代が色々あるんですけども、ここでは簡略化するためにあえて第三世代という表現をします。)
ちなみに比較画像はこんな感じになります!
一番左側がStable Cascadeで、一番SDXL
真ん中がSD15といった具合になります。
リアリティとか、手や波などの複雑なもの綺麗さなどはやはりStable Cascadeの方が綺麗ですよね!
ほかの例も見てみましょう!
今回は、そんなStable Cascadeの特徴について解説をして行きたいと思います!それではさっそく行ってみましょう!
Stable Cascadeの特徴
Stable Cascadeの特徴としては、従来のStable Diffusionよりも高速でかつ高品質な画像生成ができるようになったということが挙げられますね。
ちまたでは、Midjourney V6 に匹敵する性能を持っているとか..!
また、このStable Cascadeの学習モデルを使って新しく学習モデルやLoRAの追加学習を行うときに、より少ないコストでかつ10%から20%ほど高速に学習ができるみたいです。
ちなみにControlNetやLoRAなども使用することができますので、基本的には今までのStable Diffusionを使った画像生成と同じような雰囲気で使用できるかと思います! というか、もっとControlNetやLoRAの性能を忠実に再現できるようになるかもしれません。
なぜかというと、Stable Cascadeはこちらの画像のような三段構造になっています。「ステージA」「ステージB」「ステージC」の構造で以下のように処理を分けて実行しています。
ステージA:テキストや画像プロンプトから画像を生成
ステージB:高解像度化などの処理実施
ステージC:ControlNetやLoRAでの微調整
ちなみに流れとしてはステージCでまずはControlNetやLoRAによる制御を行ってそれを基にテキストプロンプトなどに従った画像を生成しているという流れになります。
(厳密に言うとステージAとステージBはお互いに相互しあっています。)
つまりここで何が言いたいかというと、ステージCがControlNetやLoRAなどの画像生成の処理を行うために切り離されて動作するようになっておりますので、ControlNetやLoRAでの微調整が従来以上に画像生成に影響を及ぼすということになります。
したがって、ControlNetやLoRAでもっと画像生成を柔軟にコントロールできるようになったということになります。
これだけでもすごいんですけど、実はControlNetやLoRAによる微調整がパワーアップした以外にも、先ほど少し触れた高速化や高品質などの特徴もStable Cascadeにはあります。
Stable Cascadeは どのくらい高速化しているのか?
まずは実際にどのくらい画像生成が高速化しているかを解説していきたいと思います。
こちらの画像を見ていただけるととてもわかりやすいのですが、実際に画像生成を行う時にどのくらいの時間がかかったかというものを表したグラフを使用して解説をしていきます。
こちらのグラフでは一番左がStable Cascadeを使用した画像生成で、その隣の水色のグラフがSDXLを使用したものとなっているのですが、Stable Cascadeは従来のSDXLと比べてその半分以下の時間で画像生成ができているということが分かります。
(このグラフを見ても先ほどのステージCとステージABが切り離されて処理されているというのがよくわかりますね。)
Stable Cascadeは どのくらい高品質になってるのか?
そしてどの程度従来のStable Diffusionと比べて高品質化しているかということについても解説をしていきたいと思います。
こちらもこのグラフを見ていただければ最も早いかと思います。
グラフは以下のような構造になっています。
上段-どのくらいユーザーの指示を忠実に再現しているか
下段-生成画像の美しさ
このグラフのオレンジの部分がStable Cascadeになるのですが、こちらを見ていただくと分かるように指示をどのくらい忠実に再現しているかに関しては若干の違いになりますが、生成画像の美しさに関してはSDXLの倍以上のスコアであることが分かります。これとてもすごいですよね...
ちなみにテキストプロンプトをより複雑に表現できるということは、今まで画像生成AIが苦手だった手や足、テキストなどもより忠実に表現できるということになります。
なのでSDXLよりも 10%以上は少しその点も改善できていると言えます。
つまりStable Cascadeは、以下のような特徴を持っていると言えます。
ControlNetやLoRAの影響度がパワーアップ
SDXLと比べ約2倍ほど高速な画像生成が可能になった
SDXLと比べ、とても高品質な画像が生成できる(スコアとしては2倍近く良い成績を納めている)
ここからは、Stable Cascade の Img2Img、アップスケール、Controlnet(インペイントやCanny、FaceID)などといった核心の技術について解説をして行きたいと思います!
続きの説明の前に少しだけ、メンバーシップの説明をさせてください。
AIの情報って難しかったりよくわからなかったりしますよね。しかも最近は怪しいものも多い…
私の『Note メンバーシップ - あいラボ』では、実際に複数のAI案件を獲得しているノウハウを基にした最新+プロ視点の生成AI情報を、本一冊分よりも安い料金で分かりやすく見ることができます。
実際、生成AIの情報記事はとても高く、私のNote メンバーシップと他のサービスを比較すると以下のような違いがあります。
Tips やココナラ等:1万円 ~ 5万円以上(1ジャンルのみの料金)
あいラボ:月額 980円 (さまざまなジャンルのAI記事が読み放題)
近年話題の画像生成AIや動画生成AIなどは あの GAFA も総力を上げて取り組んでいる事業で、今後必ず『AIを使える人・そうでない人』に別れます。
ですので、生成AIについてもっと知りたいと言う皆さんの思考はとても素晴らしいです。
実際にあいラボ(AI-Labo)では、現在 約100人の会員の方がいらっしゃり、これまでの記事のアーカイブも全て見ることができます。
初心者の方・中級者の方など、どんな方でも情報アドバンテージが得られる利点があります。
私も、生成AIをいろんな人にに知ってもらいたいという思いから、高校生でも出せる金額ということでこのサービスを運営しておりますので、ぜひ私のメンバーシップで様々な知識を吸収して行ってください。
メンバーシップの詳細は、是非こちらから!
それでは、つづきの解説を行っていきます!
Stable Cascade の mg2Img、アップスケール、Controlnet(インペイントやCanny、FaceID)
ここから先は
この記事が参加している募集
この記事が気に入ったらチップで応援してみませんか?