ICML2024採択論文
手法
IABMDP(Implicit Action Block MDP)という仮定を採用し,タスクに関連する要素とそうでない要素を別々のMDPを構築する手法を提案
さらに,この仮定をもとにAction-informed Diverse visual Distractors Distinguisher(AD3)という実用的な方法を提案
TAID(Task-relevant Action-conditioned Inverse Dynamics)とFIAD(Forward Implicit Action-conditioned Dynamics)というモデルをオートエンコーダにより実装し学習し,推論時はエンコーダ部分のみを利用する
TAID(図のGの部分)は今の状態と次の状態からタスクに無関係な暗黙の行動の部分の生成を学習し,FIAD(図のFの部分)はタスクに関係する部分と関係しない部分を入力して次の状態を生成するように学習する
IABMDPの仮定に基づき,IAGによって推論されたエージェント行動atと暗黙の行動を利用し,タスクに関連する世界モデルとタスクに関連しない世界モデルの二つを学習する.
Dreamerスタイルの世界モデルをリカレント状態空間モデル(RSSM)により設計し検証を行なった.
実験
以下の四つの観点で実験を実施
複雑なディストラクターを含む視覚入力がある環境では、 AD3はどの程度の性能を発揮するか?
Visual RLタスクにおいて、タスクと無関係な情報をフィル タリングするのはどの程度重要か?
AD3とIAGの異なる設定は実験結果にどのような影響を 与えるか?
IAGモジュールによって学習された暗黙のアクションは解釈可能なものか?
全ての結果においてAD3が最も高い精度となった.
提案手法により,タスクに関係がある部分と関係がない部分を分離することに成功していることが確認できた.
以下の実験結果よりIAGの設計に関する全ての要素が重要である
AD3がディストラクタの様々な振る舞いを効果的に表現できることを示した