強化学習ー最近の動向
最近話題のChatGPTのベースのモデルであるOpenAIのInstructGPTの訓練では強化学習が取り入れられています。最近、一般のニュースであまり話題になっていない強化学習ですが、強化学習の研究は今日でも綿々と続いています。
そんなわけで、強化学習(Reinforcement Learning、RL)の歴史を辿りながら近年の動向まで見渡してみようと思います。
2013年にDeepMindの強化学習エージェントがアタリ(Atari)のゲームを人間並にプレイできることが論文によって発表されました。2014年にDeepMindはGoogleによって買収されています。
2016年にはDeepMindのアルファ碁(AlphaGo)が李世乭(イ・セドル、Lee Sedol)に4勝1敗で勝利しました。その後もAlphaGoから進化したAlphaZeroなどが開発され将棋やチェスでも成功を収めました。
2019年なるとDeepMindのアルファスター(AlphaStar)がリアルタイム戦略ゲームのスタークラフト2(StartCraft II)でプロのトッププレイヤーに勝利しました。
こうしてみるとDeepMindばかりが活躍しているように見えますが、そんなことはありません。
2017年にOpenAIのOpenAI FiveがマルチプレイヤーゲームのDota2でプロプレイヤーに勝利しています。OpenAIはPythonで強化学習を実験できる環境GymをGitHubで公開し多くの研究者やホビイストが強化学習を試みました。現在は、GymnasiumとしてNPO団体のFarama Foundationに受け継がれて維持されています。
また、Unityのゲーム開発環境を利用して強化学習の訓練を行えるML Agentsもベータ版バージョン0.1が出たのが2017年です。今では、バージョン2.0になっています。
Microsoftが以前に買収したマインクラフト(Minecraft)の環境で強化学習を行う試みも現れました。2019年に論文やデモを発表されています。
こうして歴史を辿ると強化学習はゲームが得意なのがわかります。全体的に報酬を高めるような行動を学ぶのが強化学習なので報酬の数値化がはっきりしているゲームで威力を発揮しやすいためでしょう。
しかし、もちろん、強化学習はゲーム専用ではありません。数値で効果が測れるものなら応用が効きます。
2016年にはGoogleがデータセンターの冷却電力を40%の削減することに成功したと発表しています。ここでもDeepMindの強化学習が使われています。
2017年にバークレー工科大学のPieter Abbeelはロボティックスで強化学習を応用する会社Covariantを立ち上げています。彼は以前はOpenAIに属していました。
同じく2017年にはMicrosoftはドローンや自動運転のシミュレーションを行うためのAirSimをリリースしています。これを使って強化学習を行う試みがさまざまな研究者や開発やによって行われました。2018年にはUnityでAirSimを使う環境も現れました。
しかし、強化学習は自動運転に関しては当初期待されたほどの成果が上がらなかったのが実情でしょう。また今日において強化学習による自動運転がどの程度研究開発されているのかも不明です。自動運転関連に興味のある方は、AWSのDeepRacerやDIY Robocarsなどが参考になるかもしれません。
いずれにせよ、強化学習によるゲームなどはやり尽くした感があり、他にこれといって万人ウケするきらびやかな成果もあまりなく、ここ数年は強化学習が一般のニュースに出ることはあまりなかったような印象を受けます。
とは言うものの、強化学習の研究は綿々と続いています。
2022年には、DeepMindが強化学習によって核融合発電に役立つプラズマを自立制御できるAIを開発したことを発表しました。
同じ頃に、OpenAIはInstructGPTを発表しました。GPT3に強化学習を適応することでより人間が相応しいと考える文章を生成するように調整されたのがInstructGPTで、最近話題のChatGPTのベースにもなっています。
また、医療、交通管理、マーケティングなどさまざまな分野への応用や研究が進められています。
強化学習を基礎から学んでみるのも一考かもしれません。