今話題のGaussian Splattingについて解説してみた(1/2)

2024年4月26日 12:00

ANDPAD　ZERO、研究開発Gの菊野です。
今回は最近話題の「Gaussian Splatting」について解説したいと思います。
元の論文を読み解きながらの解説になるため少しテクニカルなお話になりますが、Gaussian Splattingの仕組みの理解やメリット、デメリットについても学んでいただけると幸いです。

Gaussian Splattingとは?

画像1. 周辺データGaussian Splatting/利用ツール：Luma AI

Gaussian Splattingとは、複数の画像からシーンやモデルを作る技術なのですが、これに似たような技術は今までも耳にしたことがあるのではないでしょうか。
フォトグラメトリやNeRFなど、これまでANDPAD noteでご紹介した事例もそのひとつです。ANDPAD 3Dスキャンで用いているLiDARスキャンも、複数画像に深度センサを活用しており、似た技術のひとつといえます。iPhoneやiPadから簡単に点群などの３次元データが作成出来るようになったことにより、モバイルスキャンが一気に一般化されました。

外から見るとGaussian SplattingもLiDARスキャンやフォトグラメトリのように3Dデータを生成する技術で一緒なのでは？と思われるかもしれませんが、厳密にいうと少し違います。
例えば、Gaussian Splattingは、３次元空間の表現方法が他の3次元データ生成と異なります。LiDARスキャンやフォトグラメトリのように、メッシュや点群として表現しているわけではなく、ガウス分布で表現しているのです。

「ガウス分布で表現」…？よくわからないですよね…

まずはどのように３次元空間の表現方法が違うのかを、ひとつづつ噛み砕きながら説明させていただきます。

様々な３次元空間の表現方法

様々な３次元空間の表現方法①（メッシュ、点群、サーフェル）：

３次元空間を表現する方法は様々あります。例えば、
・点群では、点の集合体
・メッシュでは、主に三角形の集合体
・サーフェルデータでは円の集合体
で構成されていて、おのおのの表現方法では、データの持ち方が統一されています。
その中でも今一番主流なのがメッシュによる描画方法となります、メッシュの場合の描画方法は、基本的に、三つの頂点から構成された三角形が連なるもので構成されていて、その三角形にテクスチャ（２次元画像）が貼り付けられることで構成されています。このメッシュとテクスチャデータは画面上に表示するための描画効率が良いため、現状でも主流で使われるデータ形式となっています。

画像２左：メッシュデータ（メッシュで構成されたボックス）/中央：点群データ（点群で構成されたボックス）/右：サーフェルデータ（円形で構成されたボックス）

アニメーションやゲーム作成においては、このメッシュデータが主流でありますが、他方、点群データなどは測量データなどで良く用いられる３次元空間の表現方法となります。
サーフェルデータ（画像２、右の画像）以外は、３Dを触ったことがある方であれば聞いたことがある表現方法だったかと思います。

様々な３次元空間の表現方法②（NeRF）：

次に、簡単にNeRF(Neural Network Radiance Field)についても解説してみたいと思います。
NeRFは、ニューラルネットワーク（人間の脳の神経細胞を模したデータ処理方法）を使い複数視点の画像から、精細な任意視点の画像を生成する技術です。３次元空間をネットワークで表現するというのは、想像しづらいかもしれませんが、実は仕組み自体はシンプルです。仮設空間内にカメラを設置しその場所から光線を飛ばし、光線が経由した場所の色と密度（≒透明感のようなもの）を推測し積層させて、複数の光線で画像を埋めることで精度の高い描画ができていくイメージです。(画像3)

従来の仕組みに比べてカメラ位置情報(x,y,z)とカメラの向き(θ, Φ)という５つのパラメーター、いわば５Dの情報から学習させているにもかかわらず、実際に３次元空間を生成出来ることはすごいことだと思います。一方で、リアルタイムレンダリングとして使うには最低でも30秒程度描画に時間がかかってしまうという難点、また、学習に最低でも数時間かかってしまうという課題があります。

さて、ここまでが、Gaussian Splattingの説明に入るための長い前置きだったのですが、様々な３次元空間の表現方法について、わかっていただけましたでしょうか？

いよいよ、本題であるGaussian Splattingについて、どういった仕組みか見ていきたいと思います。
一部、NeRFとの類似点（複数視点の画像から３次元空間を作成し、任意視点で詳細な画像を描画ができる）もありますので、そのあたりも意識しつつ解説できればと思います。

Gaussian Splattingの表現方法・仕組み

Gaussian Splattingの表現方法：

Gaussian Splattingとは、複数の画像からシーンやモデルを作る技術という点では上記で紹介した様々な3次元空間表現と似ています。他方、メッシュや点群データとの相違点として、Gaussian Splattingは、『３Dガウス』と呼ばれる楕円型状の分布（霧のようなもの）を重ね合わせることで３次元空間を構成するという特徴があります。
（楕円型を選んでいる理由は深いものは無く、円形や球状のものでも試したところ楕円型が一番精度が高く描画が出来たことが理由と論文では述べられています。）

画像4 Gaussian Splatting（利用ツール：Scaniverse）

一つ一つの３Dガウスは、位置情報（Location: x,y,z）、バラツキ(covariance: σ)、透明度(Alpha: α)、色（Color）というパラメーターから構成されています。(画像.7)小さい複数の３Dガウスが３次元上で構成されることで、詳細な画像を描画することが可能になります。

Gaussian Splattingの仕組み：

Gaussian Splattingは複数画像からシーン表現を生成し、任意の視点から画像を生成することができる仕組みとお伝えしましたが、その仕組みの流れについて解説します。
①初期点群設定、②３Dガウスに置き換え、③任意視点の画像生成、④最適化となります。詳しくは以下の図をご確認ください。

①初期点群設定：
事前準備：SfM(複数画像から点群データを生成する仕組み)の技術を使い、初期位置になる点群データを作成します
②３Dガウスに置き換え：
SfMで生成した点群データを３Dガウスで置き換える。
③任意視点の画像生成
次に実際の画像と比較するために３Dガウスをラスター化させます。（ラスター化とは、３次元の図形をピクセル画像に変換することを指します）ラスター化した画像と元の写真を比較することで、どのぐらい３Dガウスで表現したものが情報として正しいかを確認します。GPUの高速なソート処理を使うことで、このラスター化が瞬時に行えます。このラスター化が瞬時に行えることで、Gaussian Splattingでリアルタイムレンダリングや最適化の処理時間がほとんどかからない理由となってます
④最適化
勾配降下法を使い３Dガウスのパラメーターを微調整させる。これを繰り返す（7000 ~ 30000回程度）

最適化の部分はあくまでも、機械学習でもよくつかわれる勾配降下法が使われており、３Dガウスの４つのパラメーター(位置情報,、透明度、色、バラツキ)を微調整させてコストを最小化することで、３Dガウスのバラツキや位置を調整させ、もっともらしい３Dガウスを生成させています。実際の仕組みでは、３Dガウスを分割させる仕組みや削除する仕組みなど、もう少し複雑な処理を行っています。

Gaussian Splattingのメリット・デメリット

Gaussian Splattingのメリット①・短時間で画像作成：

３Dガウスのメリットは主に瞬時に３Dガウスから任意視点の詳細な画像を生成することができることが挙げられます。そのため３Dガウスの最適化が短時間で行えるということと、リアルタイムレンダリングのような体感で描画できるというのがNeRFに比べた最大のメリットとなっています。GPUの高速ソート処理を行うことで、画像の短時間作成を行っております。初期のNeRFでは学習時間に48時間かかっていたのですが、Gaussian Splattingでは40分程度で完了できるため、同等程度の描画を行う上で、パフォーマンスが大きく向上したといえます。

Gaussian Splattingのメリット②・NeRFと同等レベルの描画：

（論文にも記載があるのですが・・・）Gaussian Splattingの描画とNeRFでの描画では、同等レベルまたはそれ以上に精度で描画出来ると結果が論文で発表されています。この部分についてはまた次の記事で実際に比較をしながら共有できればと思います。

実際に毎度おなじみに弊社オフィス８階のロビーで撮影を行って見ましたが、細かい照明や植物まで撮影できており細かい部分もしっかりと撮影できていることが分かります。

画像7.アンドパッド８階ロビーの３Dガウスのデータ。照明が再現できている。（利用ツール：Scaniverse）

Gaussian Splattingのデメリット①・データ容量とメモリが重い：

Gaussian Splattingのメリットについてここまで紹介させていただきましたが、必ずしもすべて良いかというとそうとも限りません。まず点群やメッシュと違いデータ容量が重いということと、メモリを多く消費する必要があるという課題が見受けられます。さきほどの表からも読み取れるのですが、NeRFと同等のスコアを出すにはメモリを10倍弱必要とするという結果も出ています。Gaussian Splattingは、あくまでも新しい３次元空間の表現方法であるため、今後より一層最適化されることを期待しましょう。

Gaussian Splattingのデメリット②・複雑な空間の撮影が難しい：

論文によればGaussian SplattingがNeRFと比べて複雑な空間の再現に向いているとのことです。撮影方法を工夫することでかなりの品質を実現することができました。その工夫とは、「常に中心を向きながら撮影すること」です。
撮影する対象物が中心にある場合では、その周りを周回しながら中心を向いて撮影することが一般的ですが、対象物が中心にない場合でも、外側を向くことなく、常に部屋の中心を向きながら撮影することで綺麗に撮影できるようになっています。
実際に、私が弊社ロビーを撮影した際にも、中心を向いて撮った場合と外側を向いて撮った場合で、以下のような精度の違いが発生しました。このあたりの細かい撮影方法・工夫点などについては次回の記事で詳しく紹介できればと思います。

画像8. ANDPAD 8F ロビーのGaussian Splattingデータ。良い撮影事例（中心に向かって撮影）（利用ツール：Scaniverse）

画像9.ANDPAD 8F ロビーのGaussian Splattingデータ。悪い撮影事例（部屋の中心から外側に向かって撮影）（利用ツール：Scaniverse）

まとめ

今回はGaussian Splattingの仕組みについて説明してみましたがいかがだったでしょうか？Gaussian Splattingが複数画像から３次元空間やシーンを生成する仕組みであり、そもそも３次元空間の表現方法自体が違うことを学んでいただけていたら幸いです。

Gaussian Splattingを調査した上で、Gaussian Splattingでは表現できない３D空間というのがあるのでは？ということを感じました。
例えば、NeRFであればカメラの位置ごとに光線を飛ばし、色や透明度を変更できるため、反射などを精細に表現することができますが、Gaussian Splattingにおいては反射という要素が３Dガウスにないため、この表現が難しいのでは？と感じたところであり、このあたりについても今後の記事で検証していきたいと思っています。

この記事を読んで自分でもGaussian Splattingを試してみたいと感じた方はぜひLumaAIやScaniverseといったiOSのアプリを使いGaussian Splattingの撮影してみたり、Unreal Engineを使えば簡単にGaussian Splattingのデータを表示することができます。ぜひご関心のある方は試してみてください。

参考文献リスト：
元の論文：https://github.com/graphdeco-inria/gaussian-splatting　　
論文の説明動画：https://www.youtube.com/watch?v=xgwvU7S0K-k&t=7532s