見出し画像

非専門家でも手軽に使えるデータ駆動型深層強化学習ライブラリ

妹尾 卓磨(せのお たくま)

 データ駆動型強化学習は,事前に集められたデータセットのみを用いてオフラインで学習を行うアプローチで,今まで強化学習を適用できなかった問題を扱うことができるということでアカデミアや産業界で注目を集めている.自動運転など実環境での学習の失敗が許されないような用途での応用が期待されているが,実際のプロダクトや応用事例がまだまだ少ない.最先端のアルゴリズムは理論の理解と実装の両方が難しく,また研究者の論文中のプログラムの追試・再現が難しいなどの課題が原因と考えられる.

 妹尾君は,データ駆動型深層強化学習アルゴリズムをサポートした世界初のライブラリd3rlpyを開発した.このプロジェクトの中で評価用のデータセットも新しく整備し,非専門家でも手軽に使えるGUIソフトウェアMINERVAの開発も行った.

(1)深層強化学習ライブラリ d3rlpy
 d3rlpyはPython向けの深層強化学習ライブラリで,非常に短い数行のコードでオンライン学習・オフライン学習の両方の最先端のアルゴリズムが利用できる(図-1).

妹尾01

図-1 数行で始められる深層強化学習ライブラリd3rlpy

(2)データ駆動型強化学習向けデータセット
 d3rlpyの評価と強化学習コミュニティへの貢献を目的として,データ駆動型強化学習向けのデータセットd4rl-pybulletとd4rl-atariの2種類をオープンソースとして公開している.無償で使えるデータセットが今までなかったためか,研究者の間でこれらのデータセットの利用が増えている.

(3)深層強化学習GUIソフトウェア MINERVA
 さらに,本プロジェクトではコードをまったく書かずに最先端のデータ駆動型深層強化学習の利用を可能にしたGUIソフトウェアMINERVAを開発した(図-2).MINERVAはWebベースのソフトウェアであり,フロントエンドはReactによって構築し,バックエンドの強化学習アルゴリズムにd3rlpyを利用している.

妹尾02

図-2 データ駆動型深層強化学習GUIソフトウェアMINERVA

 本プロジェクトは早くから英語圏のドキュメントを中心にしてGitHub上で公開しながら開発を行った.本稿執筆時点ではd3rlpyは218を超えるスター,61件のissue報告,15件のプルリクエストが届いており,実際にこれらのライブラリを必要としているユーザの獲得に成功している.(竹迫良範PM担当)

[関連URL]
d3rlpyについては,https://github.com/takuseno/d3rlpy
d4rl-pybulletについては,https://github.com/takuseno/d4rl-pybullet
d4rl-atariについては,https://github.com/takuseno/d4rl-atari
MINERVAについては, https://github.com/takuseno/minerva

[統括PM追記] 強化学習は,昔,竹内の研究室でも学生たちがゲームプログラムの腕を上げるためによく使っていたが,やはりしょせん遊びの世界だった.ロボット,自動運転,医療など試行錯誤が困難な実世界分野では,完璧ではないデータセットからでも効率よく短時間で学習できるデータ駆動型深層強化学習が今後さらに注目されるに違いない.

(2021年6月30日受付)
(2021年8月15日note公開)