【論文メモ】 CNN-SLAM論文の内容まとめ

うぃーなS

2020年5月7日 12:40

概要

論文タイトル
CNN-SLAM: Real-Time Dense Monocular SLAM With Learned Depth Prediction

2017年のThe IEEE Conference on Computer Vision and Pattern Recognition (CVPR)に提出された論文．
被引用数294（本稿執筆時点）

今となってはもう古い研究だけど当時としては画期的な論文で，関連研究もたくさん出た．

内容を一言で言うと

ディープニューラルネットワークを用いた深度推定を用いて，深度センサを用いるSLAMと既存の単眼カメラ画像を用いるSLAMの問題点の解決，精度の向上を行った論文．

前提知識

（論文に書いてあることじゃなくて僕が自分で書いたこと）

ロボットに「お皿をテーブルまで持っていって」といったとき，ロボットがテーブルまで移動するためには環境の情報が必要である（ここで言う環境の情報とは障害物の場所だったり，テーブルまでの距離だったり）．

ロボットが未知環境の情報をマッピングするためには，ロボット自身の位置と環境の情報を同時に獲得しなければならない．
両者を同時に推定するタスクをSimultaneous Localization and Mapping (SLAM)と呼ぶ．これはロボット界隈ではとても有名な研究分野の1つ．

論文の内容

SLAMを3Dで行う際に，既存の研究では深度センサを用いる方法があった．
深度センサを用いる場合，問題点として
・赤外線カメラを用いるため，太陽光を浴びる環境ではノイズが酷い
・深度センサが結構高価
があった．

そこで挙げられる手法として単眼カメラのカラー画像を用いる方法がある．
CNN-SLAMは単眼カメラのカラー画像を用いた手法．

既存の単眼カメラ手法は
・カメラのフレーム間トラッキングのために認識・特定が可能なオブジェクトが必要
・カメラを移動させたときの視差で距離を測るため，移動に制限がある
という問題がある．
そこでCNN-SLAMは，ディープニューラルネットワークを用いた深度推定を用いて，この問題を改善する．
つまり，カラー画像から深度画像を推定してSLAMを行うといったアイディア．

しかもセマンティックラベルの付与も可能．

終わりに

visual odometry（深度推定）はCV界隈でも盛んに研究されている分野で，そのうちできるようになると言われてる分野なので，それを見越して実ロボットに応用した素晴らしい論文です．

CV界隈とロボット界隈の研究がリンクするのは今だと当たり前だけど（強化学習とか），その傾向が顕著に見え始めたのはこの頃からかな．
CV研究者は応用先としてロボット分野を，ロボット研究者は最新手法を取り入れるためにCV分野を見ていかないといけないと思いました．

間違いや質問があれば連絡ください↓
書いた人のTwitter: https://twitter.com/wina_S_1991