Predicting and Attending to Damaging Collisionsfor Placing Everyday Objects in Photo-Realistic Simulations
概要
家事支援ロボット(DSR)にとって、物体の配置は基本的なタスクである。そのため、配置動作の前に衝突リスクを推測することは、要求されたタスクを達成するために極めて重要である。この問題は、物体が乱雑に置かれた指定領域に置かれた場合に何が起こるかを予測する必要があるため、特に困難である。我々は、平面検出を用いたルールベースのアプローチでは、空き領域を検出するための性能が低いことを示す。そこで、マルチモーダルな注意分岐と自己注意機構を持つPonNetを開発し、RGBD画像に基づき、有害な衝突を予測する。本手法は、損傷衝突のリスクを可視化できるため、ユーザがリスクを理解することができ、便利である。この目的のために、我々は、家庭環境における、日常生活品が置かれた特定の置き場所の12,000枚のフォトリアルな画像を含むオリジナルデータセットを構築し、公開した。実験結果は、我々のアプローチがベースライン手法と比較して精度を向上させることを示している。
既存手法の問題点
従来のルールベースのアプローチでは、衝突の可能性を部分的に推定することができるが、一般に推定には、事前に入手できるとは限らない障害物の3Dモデルが必要
提案手法
カメラ画像のみから衝突の危険性を予測することができる。PonNetは、視覚的なシーンから衝突の危険性を予測し、可視化するネットワークである。
RGBD画像と距離画像、把持している物体の情報を入力とする。まず、RGBD画像と距離画像をResNetに入力し、それぞれ特徴量を得る(図のFeature extractor)。その特徴量をそれぞれAttention branch の入力に入力する。
Attention branch の中は上図のようになっている。まずResnet の途中(12層目。図のRes. block 部分)まで特徴量を通し、畳み込んだ後でバッチ正規化(BN)を行う。バッチ正規化を行ったものを2つに分岐させる。一つは畳み込んだ後でシグモイド関数に通すことでAttention mapを作成し、f_kとアダマール積を撮って出力する。もう一方はグローバルアベレージプーリング(GAP)に通して衝突確率として最終的な出力とする。
Attention branch より得られたものをPerception branch に入力する。ここではまずResnet を通した後にGAP、全結合層(FC)を通す。ここまでをRGBD画像と距離画像にそれぞれ同じように行う。その後、ここまでのRGBD画像と距離画像それぞれの結果をある比率で合成する。合成することにより、RGBD画像と距離画像単体が互いの弱点を補い合い、精度が向上する。ここに、把持している物体の情報を付加し、全結合層を3つ通すことで最終的な出力を得る。
この記事が気に入ったらサポートをしてみませんか?