気になる生成AI備忘録-vol.24-テキスト記述から3Dシーンを生成するためのフレームワーク「HoloDreamer」
■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた・あるいは単発の備忘録を共有する連載シリーズです。
より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。
※生成AI/AI関連サービス・ツールは進展/進捗が非常に早く、UI/UX面等も変わってしまうため、例えば当サイトに「やり方」的なものを掲載してもすぐに情報が古くなってしまうため、こちらの気になる生成AIに関してサイトに新たに掲載する考えは現状ありません
今回は、「HoloDreamer」について。
※2024年7月27日現在、具体的な実装やコード、デモに関する情報はまだ提供されていません。今後の更新を待つ必要があります。
▼論文「HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions」
HoloDreamer~概要~
HoloDreamerは、テキストから入力された指示に基づいて、没入感のある高品質な全方位3Dシーンを生成するフレームワークです。
従来の方法では、部分的な画像を生成し、それを徐々に拡大してシーンを完成させることが多く、結果として一貫性のないシーンが生成されることがありました。
HoloDreamerは、この問題を解決するために、以下の2つの基本モジュールを使用します。
・スタイライズド正距円筒パノラマ生成
入力されたユーザープロンプト(テキスト記述)から、複数の拡散モデルを組み合わせて、高品質でスタイリッシュな正距円筒パノラマ画像を生成します。
・強化された2段階パノラマ再構築
生成されたパノラマ画像を基に、3Dガウススプラッティングを用いて迅速に3Dシーンを再構築します。このプロセスにより、シーンの完全性が強化されます。
HoloDreamer~方法~
スタイライズド正距円筒パノラマ生成
→ユーザープロンプトに基づいて、複数の拡散モデルを使って高品質なパノラマ画像を生成します。
→画像の回転時に亀裂が生じないようにするため、円形ブレンディング技術を適用します。
強化された2段階パノラマ再構築
生成されたパノラマの深度推定を行い、RGBDデータを用いてポイントクラウドを取得します。
→異なるシナリオでの投影とレンダリングのために、ベースカメラと補助カメラの2種類を使用します。
→3Dガウススプラッティングの最適化の異なる段階で監督するために、3つの画像セットを準備します。
→事前最適化段階で再構築されたシーンのレンダリング画像をインペイントし、転送最適化段階で最終的な再構築シーンを生成します。
HoloDreamer~例~
左から
Lego city with lego shops, lego road with street lamp, cars and lego mans on the street, lego trees and lake at a park.
(レゴショップやレゴの街並み、車、レゴの人々が通りにいるレゴシティ)
真ん中
A mountain town in anime style with blooming cherry blossoms, quaint streets.
(咲き誇る桜や趣のある街並みを持つアニメ風の山間の町)
右
A dense tropical rainforest with towering trees, exotic birds, and waterfalls.
(高くそびえる木々やエキゾチックな鳥、滝がある密林)
ほかにも論文ページで確認することができます。
HoloDreamerは、テキスト記述から一貫性のある高品質な3Dシーンを生成する新しい方法を提供し、従来の手法よりも視覚的一貫性と調和、再構築の質、レンダリングの堅牢性において優れた成果を示しています。