【論文】AD3: Implicit Action is the Key for World Models to Distinguish the Diverse Visual Distractors

ICML2024採択論文

手法

IABMDP(Implicit Action Block MDP)という仮定を採用し,タスクに関連する要素とそうでない要素を別々のMDPを構築する手法を提案
さらに,この仮定をもとにAction-informed Diverse visual Distractors Distinguisher(AD3)という実用的な方法を提案

Implicit-Action Block MDP

TAID(Task-relevant Action-conditioned Inverse Dynamics)とFIAD(Forward Implicit Action-conditioned Dynamics)というモデルをオートエンコーダにより実装し学習し,推論時はエンコーダ部分のみを利用する
TAID(図のGの部分)は今の状態と次の状態からタスクに無関係な暗黙の行動の部分の生成を学習し,FIAD(図のFの部分)はタスクに関係する部分と関係しない部分を入力して次の状態を生成するように学習する

Implicit Action Generator

IABMDPの仮定に基づき,IAGによって推論されたエージェント行動atと暗黙の行動を利用し,タスクに関連する世界モデルとタスクに関連しない世界モデルの二つを学習する.
Dreamerスタイルの世界モデルをリカレント状態空間モデル(RSSM)により設計し検証を行なった.

実験

以下の四つの観点で実験を実施

  1. 複雑なディストラクターを含む視覚入力がある環境では、 AD3はどの程度の性能を発揮するか?

  2. Visual RLタスクにおいて、タスクと無関係な情報をフィル タリングするのはどの程度重要か?

  3. AD3とIAGの異なる設定は実験結果にどのような影響を 与えるか?

  4. IAGモジュールによって学習された暗黙のアクションは解釈可能なものか?

複雑なディストラクターを含む視覚入力がある環境では、 AD3はどの程度の性能を発揮するか?

全ての結果においてAD3が最も高い精度となった.

Figure 2. Performance evaluation of AD3 and baselines over 4 seeds across four visual control tasks, each equipped with two representative distractors: Agent Shifted and Natural Video Backgrounds. The solid curves and the shaded region indicate the average episodic returns and the standard error across different runs, respectively. AD3 is the only method that consistently performs well across all tasks and distractor variants.

Visual RLタスクにおいて、タスクと無関係な情報をフィル タリングするのはどの程度重要か?

提案手法により,タスクに関係がある部分と関係がない部分を分離することに成功していることが確認できた.

Figure 3. Performance and reconstruction results for different semantics of the observation, when using 4 distinct types of distractor actions for learning the task-irrelevant model under the Agent Shifted setting. Each experiment involves two tasks: Cheetah Run and Walker Run. When employing the ground truth action of the distractor, effective separation between the primary agent and the shifted distractor is achieved, and so do implicit actions learned by IAG, underscoring the efficacy of the implicit actions and their semantic consistency with actual distractor actions. Using agent action leads to a reversal in the representation of the two components, and the reconstructed ˆo+ contains little task-related information. The ”no action” approach tends to preserve most of the information in the task-relevant part, causing failure in the objective of distractor filtering.

AD3とIAGの異なる設定は実験結果にどのような影響を与えるか?

以下の実験結果よりIAGの設計に関する全ての要素が重要である

IAGモジュールによって学習された暗黙のアクションは解釈可能なものか?

AD3がディストラクタの様々な振る舞いを効果的に表現できることを示した

Figure 4. Effects of different implicit actions in Cheetah Run + AS (the size of implicit actions is 4). Conditioned on the same initial observation and identical agent action sequences from the original trajectory, we rollout FIAD for 10 steps using 6 different implicit actions of the distractor sampled from the categorical action space. These implicit actions, each represented by 4 one-hot codes with indices indicating active positions in the categorical variables, generate 6 distinct synthetic trajectories where the shifted agent exhibits different behaviors. This demonstrates that the learned implicit action space is rich in the semantic information of the underlying distractors.


この記事が気に入ったらサポートをしてみませんか?