Real-Time Latent Consistency Model (LCM)から掘り下げる最近の画像生成AIの高速化研究
今週世間を賑わせている画像生成AIの話題で一番インパクトのある話題が
「Real-Time Latent Consistency Model」、通称「RT-LCM」だと思います。
このLCM関係の論文を調査していたらけっこう勉強になったので簡単に紹介しておきたいとおもいます。
この数日で、既にいろんなデモが出ているのですが、いちばん有名と思われるのがRadames@HugginFaceのデモで、SpacesでWebカメラを使って遊べたりします(混んでます)。
https://huggingface.co/spaces/radames/Real-Time-Latent-Consistency-Model
リアルタイムでStable Diffusionのimg2imgが動いているように見えます。
このソースはこちらで、ローカルでも動くようです。CUDA とPythonかM1/M2/M3 chip 搭載Macがあれば動くそうです。TinyVAEを使っているようです。
混んでいて見れない場合はHugginFaceの@radamarさんのツイートから
後で解説しますがこの技術は Stable Diffusion(安定拡散)ではありません、Latent Consistency Model(潜在的一貫性モデル)「LCM」もしくは、総称して 「Consistency Models」(一貫性モデル)CMと呼ぶべきかな。
後に紹介するSimian Luoさんによると
LCMs: The next generation of generative models after Latent Diffusion Models (LDMs).
LCM: 潜在拡散モデル(LDM)に続く次世代の生成モデル
teftefさんの解説が論文もあって一番短い時間で理解できます
そこで引用されている なんか さんの解説(2023年4月)がとても良い。
時間方向の学習をしていることもあり、動画フレーム間の安定が期待できそう。
"一貫性モデル" (Consistency Models)の歴史
"一貫性モデル" (Consistency Models)
[投稿日: 2023年3月2日 (v1)、最終改訂日: 2023年5月31日 (本バージョン、v2)].
ヤン・ソン, プラフルラ・ダリワル, マーク・チェン, イリヤ・スーツキーヴァー
さらに最近の論文がこれです。
潜在的一貫性モデル.数ステップの推論による高解像度画像の合成
Simian Luo, Yiqin Tan, Longbo Huang, Jian Li, Hang Zhao
[投稿日: 2023年10月6日]
Simian Luoさんは清華大学の学生さんで、モデルを遊べる状態で公開してくれています。
https://replicate.com/luosiallen/latent-consistency-model
これGPU料金けっこうかかりそうなんですが、Replicateというサービスで、意外と安いかも…。A100が1時間で5.04USDか… A40もあるぞ。
ReplicateだけでなくHugginFaceにもリポジトリがあります
彼はLCMのコミュまで作っていたのでつい参加しちゃいました
https://huggingface.co/latent-consistency-model
ダウンロードしてお手元のStable Diffusion WebUI AUTOMATIC1111で動かしてみました。情報の多くは彼のGitHubにあります。
次にモデルをダウンロードしましょう。
LCM_Dreamshaper_v7_4k.safetensors(3.44GB)
https://huggingface.co/SimianLuo/LCM_Dreamshaper_v7/tree/main
LCM_Dreamshaper_v7_4k.safetensors [84feab3a32]
ダウンロードしたら、WebUIの Models\StableDiffusion ディレクトリに置きます。
Stability Matrixなら
\StabilityMatrix-win-x64\Data\Models\StableDiffusion
といったディレクトリです。
続いて、extentionsディレクトリで
git clone https://github.com/0xbitches/sd-webui-lcm
とすればセットアップは終わりです。
初回はローディングに10秒ぐらいかかりましたが、だいたい体感で3-4秒で生成されているようです(RTX4050 Laptop VRAM6GB, CPU i7 12650H, RAM32GB )。
試しにプロンプト「1girl」として100枚生成してみたところ、所要時間はちょうど7分、4.2秒/生成といった能力です。これは素晴らしい。
生成された結果も美しい。さすが Dreamshaper。
速度感がイメージできないかもしれないですが、生成された画像のタイムスタンプが証拠になると思いますので是非見て。
4秒/生成、つまり1分間に15枚ぐらい生成されちゃう速度です!
ちなみに中国にはHugginFaceにかわってOpenX Labというサービスがあるようです、これも勉強になった。
https://openxlab.org.cn/apps/detail/Latent-Consistency-Model/Latent-Consistency-Model
技術の進化はさらに加速する
さらにYang Song先生らの最新の論文を見つけました
一貫性モデルの学習手法の改善
ヤン・ソン、プラフルラ・ダリワル [投稿日:2023年10月22日]
そんなわけでものすごい速さで高速化研究が報告されているし、LCMはDiffusionモデルに対して一貫性に優れたモデルなので動画向き。
おそらく画像生成AIで実時間処理を超えるリアルタイム動画、たとえば1秒間に60フレーム以上の処理ができるテキスト画像生成なんかも出てくる日は近いかなと思いました。
そういう意味で冒頭のデモにあったWebカメラからのImage2Imageは様々な応用がありそうですね。少なくともリアルタイムで美少女になるぐらいのことはできそうだ…。
おまけ資料:YangLing0818さんの論文
https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
歴史も更新されていく、Latent Consistencyは現時点ではまだ入っていないが、こういうのを残しておくのとっても大事ですね!