論文調査メモ:NeRF-SLAM
*この記事は自分の研究テーマに関連したメモです。SLAMやNeRFの知識がある人向けです。
元論文
以下、文中の論文引用番号は上記の元論文に合わせている。
概要
NeRF-SLAM は、単眼 Visual SLAM のマップ部分に NeRF を適用したもの。ローカライゼーション目的の単純な幾何学的マップとしてだけでなく、NeRFの特徴を活かして、視覚的(測光学的)にも精度の高いモデルを同時に獲得できる。また、最近の関連分野の研究成果を導入し、さらに独自の工夫を加えることで、従来よりも精度が高いマップを生成しつつ、リアルタイム動作(VGAサイズ入力に対して、約10Hzで動作)を達成している。
技術的ポイント
密なRGB単眼SLAM技術である、Droid-SLAM[31] をフロントエンドに使用。(RGB-D入力は不要)
NeRFをハッシュベースでボリューム化・階層化した、Instant-NGP[17]を使用。
Droid-SLAMから得られる視野の各点の深度マップと、その深度値の"信頼度"で重み付けした損失関数でNeRFを学習する。(※この論文の提案手法)
この信頼度とは、深度の周辺化した共分散(marginal covariance)である。周辺化の手法は Rosinolらのアプローチ[23] に基づいている。
この信頼度を含めた損失関数とすることで、NeRFの精度が向上する。(信頼性の低い深度情報に惑わされて、精度が悪化するのを防いでいる)
実装ソースコード
原著者のソースコードは、こちら(https://github.com/ToniRV/NeRF-SLAM)にある。
私がDocker化などの修正を加えているコードはここ(https://github.com/hterada/NeRF-SLAM/tree/dev/docker-build)にある。
参考文献
[17] T. M ̈uller, A. Evans, C. Schied, and A. Keller. Instant neural graphics primitives with a multiresolution hash encoding.
ACM Transactions on Graphics (SIGGRAPH), 2022.[23] A. Rosinol, J. Leonard, and L. Carlone. Probabilistic Volumetric Fusion for Dense Monocular SLAM.
In IEEE Winter Conf. on Applications of Computer Vision (WACV), 2022.[31] Z. Teed and J. Deng. Droid-SLAM: Deep visual SLAM for monocular, stereo, and RGB-D cameras.
Advances in Neural Information Processing Systems (NIPS), 2021