
建築ビジュアル CG AI 活用法㉑ AI3Dモデル生成① 『Rodin(ロダン)』

こんにちは。STUDIO55技術統括の入江です。
ジェネレーティブAI のネーミングには、広く知られる芸術家の名前を冠したプラットフォーム がいくつか存在します。
例えば、DALL·E(ダリ)、Leonardo.AI(レオナルド)、Vincent AI(ゴッホ)、The Next Rembrandt(レンブラント)、Picasso AI(ピカソ)、Rubens AI(ルーベンス)などがそうです。
それぞれにその名を冠する特徴や意味がありますが、『Rodin(ロダン)』は、その名が「近代彫刻の父」と称される オーギュスト・ロダン に由来する AI で、3Dモデル生成AI にふさわしいネーミングです。
2024年以降、3Dモデル生成AI への期待が急速に高まっています。この技術は、誰もが3Dモデルを自由に活用できる未来を目指す WebGL主導のウェブソリューション において、重要な課題として位置づけられます。それだけに、3D生成AI の進化は業界全体に革新をもたらし、大きく時代を変える原動力になるものとして注目されます。
今回は、これまで注視してきた 3Dモデル生成AI の中から、今後のゲームチェンジにつながる期待の高い、高精度 3D生成 AI『Rodin(ロダン)』を取り上げます。
バックグラウンド
3Dモデル生成AI「Rodin(ロダン)」は、中国・上海を拠点とする Deemos Technology(ディーモス テクノロジー)社 が開発した 3D生成AI プラットフォームです。
デンバーで開催された SIGGRAPH の第 15 回 Real Time Live イベントで、Deemos Tech は最新のイノベーションである最先端の 3D アセット作成ジェネレーター Rodin(ロダン)で観客を魅了しました。
その時の模様が 次のビデオです。
Rodin(ロダン) は、2024年5月31日にパブリックベータ版「Gen-1 V0.5」としてリリースされ、2024年12月31日 の「Rodin Gen-1.5」で、クリーン トポロジー や AI による四角形メッシュ、プロモードでの三角形メッシュ、リアルな PBRテクスチャの生成 など、より高度な3Dモデリング機能が追加されました。

🌟新技術による精度の追及
ロダン は、高精度でPBR対応の3Dモデルを短時間で生成するための新しいアルゴリズムや学習手法を採用しています。
RLHF
RLHF(Reinforcement Learning with Human Feedback)は、「人間のフィードバックを活用した強化学習」を意味し、AI が人間の意図に沿った挙動を学習するための技術です。従来のように固定されたデータセットから学習するだけでなく、試行錯誤を通じて人間のフィードバックを取り入れることで、より望ましい結果を導き出します。
👉 映画『ターミネーター2』では、T-800(モデル101型)のターミネーター(シュワルツェネッガー)が 少年ジョン・コナーに「プログラミングされた内容以外も学習できるのか?」と尋ねられ、「常に新たな学習を吸収する」と答えるシーンがあります。この場面では、人間との円滑なやり取りに必要なスラングを教わり(笑)、「Hasta la vista, Baby!(アスタラビスタ、ベイビー)」と話すターミネーターの姿が意外性を持った名場面となりました。
興味深いことに、このような人間とのやり取りを通じた “成長” は、現実のAIにもすでに通じる話になっています。
RLHF 手法は、AIに「成長する能力」を付与する画期的なアプローチで、現在の AI技術のトレンド の1つです。

RLHF は、AIの社会実装が進む中で重要な役割を果たしています。
不適切な内容の生成を抑制し、より的確で倫理的な情報を提供することが可能になるため、AIの実用性と信頼性を大きく向上させるものになるからです。
たとえば、私たちの身近なものとしては、OpenAI の GPT-3 やその他の 大規模言語モデル(LLM)の学習プロセスでは、RLHF が取り入れられており、高品質な生成結果が得られるようになっています。
Deemos Technology の「Rodin(ロダン)」は、この RLHF を 3D生成AI として初めて導入しました。これにより、生成モデルのパフォーマンスが飛躍的に向上し、より正確かつ実用的な3Dモデルを迅速に生成することが可能になります。
3D ControlNet
3D ControlNet は、Stable Diffusion の ControlNet のような概念を 3D モデリングや生成に適用したもので、画像生成ではなく 3D モデルの生成や制御に使用される技術を指します。
Stable Diffusion の ControlNet は、テキストから画像を生成するプロセスにおいて、特定の構造(ポーズ、線画、深度マップなど)を追加の入力として活用し、生成結果を制御可能にする拡張機能です。
それに対し、3D ControlNet は、同様のアイデアを 3D コンテンツに適用するものです。
ControlDreamer
3D ControlNetの具体的な実例として、ControlDreamer Blending Geometry and Style in Text-to-3D プロジェクトがあります。
ControlDreamer(コントロールドリーマー) は、テキストから3Dモデルを生成する際に、ジオメトリ(形状)とスタイルの両方を制御する技術です。この手法では、複数の視点からの情報を活用する「マルチビュー ControlNet」を用いて、3Dモデルの編集やスタイル変換を行います。
例えば、「ハルク」の3Dモデルを「キャプテン・アメリカ」のスタイルに変換することが可能です。

3D ControlNet はまだ発展途上の技術であり、Stable Diffusion における ControlNet ほどの普及や完成度には至っていません。ただし、AI生成技術の進化に伴い、3Dモデリングやアニメーションの効率化に向けた注目が高まっています。
「Rodin(ロダン)」 は、3D ControlNet を先取りした技術をいち早く取り入れ、ジオメトリ制御 と スタイル制御 を統合した「テキスト・画像→3D生成」の分野で先端を走っています。

Gen-1.5 The up comig
2024年8月の SIGGRAPH で公開された Rodin(ロダン) のデモンストレーションでは、ユーザー入力に応じたリアルタイムのカスタマイズが強調されていました。これは 3D ControlNet 的な制御性が組み込まれていることを示唆したものとして注目を集めました。
Rodin(ロダン) は 3D ControlNet のような「高度な制御技術」を既に取り入れた次世代型 3D モデル生成ツールと位置づけられます。今後、ロダン の更新によってさらに精密な制御が可能になれば、3D ControlNet の進化版としても注目されるでしょう。
HYPER3D サイト説明
ロダン のサイト 左上に「HYPER3D」の表示があります。

Hyper3D は、AI を活用した 3D モデル生成ツールを提供するプラットフォームで、ユーザーがテキストや画像から高品質な 3D モデルを迅速に作成できる環境を提供しています。ロダン は、この Hyper3D プラットフォーム の主要なツールの1つとして提供されています。
開発者向けに、Hyper3D API を通じて ロダン の機能を活用することが可能です。この API を使用することで、アプリケーション内での 3D モデル生成やカスタマイズが容易になります。

『Rodin(ロダン)』
Hyper3D には、「Rodin(ロダン)」を含む 3つのツールカテゴリ があります。今回はメインツールである ロダン に焦点を当て、その詳細を解説します。その他のツールについては、次回以降にご紹介します。
ロダン の 3Dジェネレート には 縦に4つのカテゴリが用意されています。

最上部の「画像/テキストから3D生成」 はデフォルト機能であり、3Dモデル生成の基本となります。その下に並ぶ3つの項目は、ControlNet の追加機能です。

Deemos 2024年10月26日
📝3Dモデル生成の内容 解説
・画像/テキストから3D生成
最上部の「画像/テキストから3D生成」には、シングルイメージ(1枚の画像)やマルチビュー(複数枚)からの生成に加え、画像を合成して新たなキャラクターを作成する「Fusion」機能が搭載されています。

・バウンディングボックス
バウンディングボックス (ControlNet)は、ある一定の範囲内(バウンディングボックス)で モデル生成をコントロールする機能です。

👉 バウンディングボックス : 物体を囲む部分領域のことで、ここでは指定されたボックスの範囲内に モデルを生成させる機能を指します。
・ボクセル
ボクセル(ControlNet) は、ボクセル形状を元に、モデル生成をコントロールする機能です。

👉ボクセル(voxel) : ブロック状の集まりによる形状表現。ボリュームピクセル(volume + pixel) の略です。Minecraft や MagicaVoxel などで見られるブロック状の見た目が典型的です。
・ポイントクラウド
ポイントクラウド(ControlNet)を使ったモデル生成のコントロール機能で、先ほどの ボクセルに対して、より複雑な形状のモデル生成に向いています。

*
これらの機能は、バウンディングボックス、ボクセル、ポイントクラウドの3種類の形状を基に、生成モデルをコントロールします。生成モデルの基本的なフレームを指定する際に、それぞれの形状タイプを活用します。
✨テスト作例① キャラクター
以前、わたしの愛犬くんの写真を、ピクサー風キャラクターにアレンジ生成しました。

その生成画像を使って、今度は 愛犬くん を 3Dモデルにします。
ロダン に写真を読み込み、テキスト入力はブランクのまま "生成" します。

👉 ロダン では背景を自動削除することが可能です。また、テキストをブランクで生成すると、ロダン は画像から自動でプロンプトを入力します。
これだけで 完成度の高いモデルが生成されました。
「再作成」ボタンもありますが、これで OK なので、次に進みます。
👉 ここでは まだ3Dモデルは生成されていません。あくまで確認画面です。

再作成する場合
生成が思うようにいかない場合は、"方向不明" とある箇所をクリックして、テンプレートにある方向を選択して合わせます。

例えば、ここでの画像は左前からのショットなので、"左前" を選択するといった形です。

この機能は、複数枚の画像を選択して、より精度の高い3Dモデルを生成する "マルチビュー" 使用 で、必須になる設定機能です。
👉 マルチビューは有料機能です。
生成されたモデル形状が OKであれば、「モデル確認」ボタンをクリックしてモデル作成の工程に入ります。
Quad Mesh の 18000。Smooth にチェック。

生成するモデルが 左右対称かを聞いてくるので、今回は "Yes" を選択。

これで、3Dモデルが生成されます。

次に、「マテリアル生成」を行います。

マテリアルが生成された画面です。

これもまだ確認画面です。内容が OKであれば、「テクスチャ確認」ボタンをクリックして、改めてマテリアルを生成します。
👉 内容が良くなければ、こちらも「再作成」を繰り返します。
3Dモデル生成 →(確認)→ モデル作成 → テクスチャ生成 →(確認)→ テクスチャ作成
この工程が完了して、初めて ダウンロード項目 がアクティブになります。

Base Model で fbx。マテリアルは PBR で 2K でダウンロードします。
👉 Zip解凍すると、指定した pbrマテリアル と fbxデータが ダウンロードされています。

ロダン の fbx データ はマテリアルがそのまま付いてきませんので、改めて設定する必要があります。glb では そのままマテリアルが付いてきます。
fbx データ を Blender で読み込み、マテリアルを設定した画面です。

画像生成AIでキャラクター化したイメージのまま 3Dモデル化しました。
3Dプリントして飾っておきたくなります(笑)。

この制作工程を すべて手動で行うことを考えると、奇跡的とも言える "時短" 制作です。
四角形メッシュ(Quad Mesh)と 三角形状メッシュ(triangular mesh)生成が可能であるため、必要によってアニメーション変形を考慮したトポロジー生成が可能です。

👁プレビューの種類
目のアイコン にマウスをホバーさせると、ビュー項目がドロップダウンします。画面を切り替えて、計7種類のシェーダーでモデル の仕上がりを確認することができます。まるでCGソフトさながらです。


① プレビュー
グレーモデル をベースに、クレイ、セルシェーディング(トゥーンシェーダー)、ノーマル シェーダー の切り替えができます。


② モデル
ポリゴンメッシュモデル のディテール感を確認。

③ ワイヤーフレーム
メッシュ割りを表示できます

④ PBR
PBRシェーダーでレンダリング表示。

⑤ シェーディング
シェーディングマップ でレンダリング表示。

⑥ トゥーン
アニメ風のトゥーンマッピング表現

⑦ Tracer
フォトリアルな物理ベースのGPUレンダリングで、4種類のスタジオHDRライティングでレンダリング。

✨テスト作例② 家具
ロダンのモデル生成は、生成速度を含めた驚異的なフットワークの軽さ が魅力です。
ウェブ検索の画像などをそのままドラッグ&ドロップして 即座に3Dモデルにすることもできます。1からモデリングする手間を考えると、大幅な作業時間の短縮を実現します。


カクつきのあるモデルに見えますが、このままテクスチャを生成します。

Base Model、FBXモデル で PBR(2K) でダウンロード。

フォルダには、FBXデータ と、デフューズ、メタル、ノーマル、PBR、ラフネスマップの5種類が格納されています。

この内容を見る限り、AIによる生成とは思えないほど高品質です。PBRテクスチャー生成機能 はロダンの強みの1つであり、生成モデルの一覧もPBRマテリアルのプレビュー形式で表示されているのが特徴です。
Blender で読み込みます。ここでは特にカクつきは感じられません。Quad Mesh であるため、自動スムージングされているようです。

PBRマップをジョイントすると、このような感じです。

従来の3D生成AIとは一線を画し、「Rodin Gen-1.5」のモデル生成レベルは、一部では建築関連のCG制作にも使用可能な水準に達している印象を受けます。特に、家具モデリングに時間やコストがかかる場合、このようなAIによるモデルアセットの活用を検討する価値があります。
熟練した制作者であっても、画像をドラッグ&ドロップするだけでモデルを生成できるこのスピードには及ばないため、効率化を図るうえで有力な選択肢となるでしょう。
✨テスト作例③ その他
その他の家具を含めた モデル生成テスト をいくつか載せておきます。
使用感の参考にしてください。











「モデリングするには手間がかかる」
「適当なモデルでもいいので欲しい」
建築ビジュアルでは、特にこのような要素の物が、AIを使ったモデル生成に適していると言えます。
「スーパーのお弁当」や「商品が陳列された棚」。あるいは「一枚板のテーブル」に「鉄瓶」もそうですし、あるいは「住宅用分電盤」や「天井設備」「多目的スイッチ」などの「建築設備類」などもそうでしょう。

どのような場面で活用できるかは 主な制作内容にもよりますが、AIによるモデルを効果的に活用するためには、その特徴や適した用途を把握しておくことが重要です。
確実に進化を遂げる 3Dモデル生成AI ですが、すべてのモデルに対応するわけではありません。例えば、反射や陰影が複雑なガラスやファブリックなどの素材では、画像ベースの生成に限界がある場合があります。
Rodin(ロダン)は、モデル確認の段階まではクレジットの消費はありません。いろいろと試してみるように作られてもいますので、AIで生成すべき部分 と 手動モデリングが必要な部分 を的確に判断しておくことが必要です。
ハイポリ加工 アレンジ
AIで3D生成したモデルの多くは、stl で書き出して3Dプリンター出力する利用用途もあります。
※フィギュア好きなわたしも、少なからず魅力を感じています(笑)。

その場合は、高いディテール設定(Hight-poly)での ダウンロード選択が良いかと思われますが、通常レベル(BaseModel)で ダウンロードして、Blender等の DCCでハイポリ加工する方が、加減が調整できるため便利かも知れません。
やり方はいくつかありますが、例えば、サブディビジョンとディスプレイスモディファイアを使ってディテールアップを行った例が以下の画面です。

愛犬くんのモデルデータの「ベースモデル ⇄ ハイポリモデル」を比較でご覧ください。ベースモデルからでも、このぐらい ディテールを上げることが可能です。

(右) ハイポリ加工モデル
*
3Dモデル生成AI の進化を目の当たりにすると、その背後には確かなCG制作の技術や要素が垣間見えます。このようなプラットフォームの存在は、クリエイティブの未来を切り開く大きな可能性を感じさせます。
次回も引き続き HYPER3D の他の注目ツールを取り上げます。
では、また!