見出し画像

強化学習における意思決定問題にTransformerを導入

画像1

近年の研究では,Transformerが意味的な概念の高次元分布を大規模にモデル化できることが示されており,Transformerを強化学習に利用できる可能性が出てきている.

本論文では,Transformerによる一連の状態,行動,報酬の共同分布のモデリングが従来の強化学習アルゴリズムの代替となるかを検討.提案されたフレームワークは,Atari,OpenAL Gym,key-to-Doorのタスクにおいて,SOTAのオフライン強化学習ベースラインと同等以上の性能を示した.

オフライン強化学習においては,誤差の蓄積と価値関数のオーバー予測が課題となっているため,RNNではなくTransformerを用いることは自然な設定であると言われている.

画像2


Decision Transformerについて理解するため,論文では上のような単純な説明が我々に与えられている.この図では,有効グラフの最短経路を求める問題について考えられており,図の中央に配置される3つの図は,ゴールにたどり着くまでのコスト(報酬)が示されている.例えば,青の図で,-3のノードは,ゴールに辿り着くまで3ステップのコストがかかるということを意味している.提案モデルでは,状態,行動,報酬を1つのトークンとして系列データに変換し(自然言語で記載された単語が並んだ文のように変換し),GPTを用いて次のトークンを予測するタスクで学習させたのである.上の図と照らし合わせて説明すると,状態と報酬について,学習データに似たような部分グラフ(上の図で言う青の部分グラフと黄の部分グラフ)があれば,それらの部分グラフをつなぎ合わせて,ゴールへ辿り着くまでの行動を出力するようなモデルになっている.従来の強化学習では,ある状態においてある行動をとったときの報酬を計算し,その報酬の一番高い行動を選択するということをやっていたのを,提案手法では,Transformerにより一括で次に取るべき行動を予測したのだ.このように提案手法では,動的計画法などの一般的な方法を使わずに最短経路問題を解くことができる.

Transformerは自然言語処理の翻訳用に提案されたモデルが基となっており,当時はそこまで汎用的な手法だとは思っていなかった.このため,NLPの汎用タスクをほぼ解決するBERTの登場や,画像処理における物体検出への導入(ViT),生成モデルへの応用(DALL-E)など様々な分野においてスコアを更新し続けることは驚異的である.この勢いならロボット工学における強化学習への応用もいけるのではないかと思うのは当然のことかもしれない.

ちなみに本論文は,ロボティクス研究権威のピーター・アビール氏とFacebook AI Research,Google Brain所属の研究者によって書かれている.

余談だが,本論文に記載されている疑似コードの書き方は非常にわかりやすいので,いつか論文を書く時には参考にしたいものだ.

知っておくべきキーワード
・Transformer
・Query-Key Dot Product Attention
・Reinforcement Learning
・Agent, State, Reward, Action, Environment

論文タイトル
Decision Transformer: Reinforcement Learning via Sequence Modeling, arXiv, 24 Jun 2021.

https://medium.com/syncedreview/pieter-abbeel-teams-decision-transformer-abstracts-rl-as-sequence-modelling-b8f4cf58ed5e

この記事が気に入ったらサポートをしてみませんか?