テキストから忠実度の高いマルチビュー画像を作成できる「MV-Adapter」を試してみる

2024年12月21日 19:24

MV-Adapterとは

MV-Adapterは、T2Iモデルとその派生モデルをマルチビュージェネレーターに適合させる、多目的のプラグ&プレイなアダプタとのこと。
SDXLをベースにDreamShape、LCM、ControlNetなどを活用してテキストまたは画像からマルチビュー画像を生成できます。
ComfyUIからもできそうでしたが、一旦デモを試してみたいと思います！

🌐プロジェクトページ類

💪早速試してみる

Hugging Faceのデモはマルチビュー画像６枚を生成してくれるというものでした。それではまずは赤い髪の猫耳の女の子を作ってもらおうと思います。

Red haired girl with cat ears

できたのがこちら！

かわいい🐱ちゃんと猫耳も生えてます！
動画で撮ってみましたが、切り替えても破綻が少なく本当に忠実度が高い。

MV-Adapterお試し中！これは猫耳の女の子のマルチビュー画像🐱 pic.twitter.com/XKsBdTIGx2
— SUTO💡 (@st_e_ai) December 21, 2024

他にも色々試してみたいと思います！

👀まとめ

プロンプトの理解度が高く、視点ごとの画像をここまでリアルに表現できるのは本当に素晴らしいと感じました。
細かい調整は少し難しい印象もありますが、手軽に試せて素早く結果が得られる点が魅力的ですね。
特に「効率性」や「使いやすさ」といった面で、MV-Adapterの良さが際立っていると思います。
キャラクターメイキングの参考にもぴったりですね！
今日はここまで〜！