イリヤ・サツケヴァー | AGIは人間が制御できへんほど強力になるかもしれへん
5,108 文字
ほな、オープンAIユニバースについて説明させてもらいます。
オープンAIユニバースの目標は、現在難しいとされる幅広い新しい問題を解決する能力をエージェントに持たせて、それをベンチマークし開発するためのプラットフォームを提供することやねん。
オープンAIユニバースには、めっちゃたくさんのコンピューターゲームが含まれとるんや。これは動画平面やな。ほんで、このスライドに示されとるように、ブラウザタスクもたくさん含まれとる。ブラウザタスクでは、指示を読んでそれを実行せなアカンねん。
よく、特定のフォームを特定の方法で埋めたり、オブジェクトを特定の方法で操作したりする指示が含まれとるわ。実際のウェブサイトも含めとって、例えばここではエアラインのウェブサイトで航空券を予約するタスクがあるんや。
最後に、非常に複雑な環境をいくつか統合する過程にあるんやけど、これには3次元の大規模な世界でのゲームも含まれとる。3次元のタンパク質折りたたみまであるんやで。
ユニバースの魅力的な特徴は、既存のコンピュータープログラムに簡単にプログラム的にアクセスできることやねん。大まかな仕組みは、プログラムがどこかで実行されて、ユニバースのインフラがそのプログラムのピクセルを取得してエージェントに送信するんや。そしてエージェントは、キーボードコマンドとマウスコマンドを送り返すんや。
こんなインフラがあれば、エージェントが既存のコンピュータープログラムと対話できるようになるんがわかるやろ。
ほんじゃ、ユニバースの現状について少し話させてもらうわ。
現在、完全に統合された環境が数百個あるんや。完全に統合されとるいうことは、今日のアルゴリズムで強化学習ができるいうことやね。報酬関数のない環境も1000以上あるんやけど、これらの多くにはデモンストレーションがあって、逆強化学習や行動クローニング学習に使えるんや。
もうすぐ、もっと大規模で複雑な環境も増えていくやろね。
ユニバースの目標は何かいうと、新しくて難しい問題を素早く解決できるエージェントを作ることや。そして、その道のりでどれだけ進んどるかを測定したいんや。進捗を測定できれば、目標に向けて反復的に改善していけるからな。
次は、ユニバースの技術的な詳細について少し話させてもらうわ。
プログラムはDockerコンテナと呼ばれる軽量な仮想マシンで起動されるんや。仮想マシンは、VNCリモートデスクトッププロトコルを使って我々のプロセスと対話するんや。このプロトコルは、環境からエージェントにピクセルを送信して、エージェントから環境にキー入力やマウスコマンドなどのアクションを送信する方法も決定するんや。
このインフラの良いところは、環境とエージェントが別々のプロセスで実行されて、ネットワーク越しに通信するところやね。ネットワークは非常に一般的な概念やから、環境とエージェントは同じマシン上にあっても、同じローカルネットワーク内にあっても、さらにはインターネット越しに別のコンピューターにあってもええんや。
例えば、環境はクラウド上にあって、エージェントはローカルマシンにあるいうこともできるんや。もちろん、これやとエージェントと環境の間の対話に多少の遅延が生じるけどな。
例えば、Amazonで実行されてる環境と、我々のクラスターで実行されてるエージェントをテストしたんやけど、この図に示されとるように、32個の環境のバッチでは、ピクセルがエージェントに届くのに110ミリ秒かかって、アクションが環境に戻るのに30ミリ秒かかるいうことがわかったんや。
ユニバースの開発中に、オープンAIの多くの人が好きなslither.ioというゲームを統合したんやけど、めっちゃおもろいから強くおすすめするで。簡単な強化学習アルゴリズムを実行して、ここに示すような結果が得られたんや。環境を簡単に統合してアルゴリズムを実行できるのがええね。
ユニバースのもう一つの注目すべき点は、多くのゲームパブリッシャーに、ユニバースの枠組みの中で彼らの環境やゲームをリリースすることを許可してもらえたことやな。
これが理にかなってるんは、今の人間の生活を見てみると、かなりの時間をコンピューターの前で過ごしとるからや。デジタルの世界で多くの時間を過ごしとるんやけど、ユニバースを使えば、エージェントも我々が住むのと同じデジタルの世界の一級市民になれるんや。
つまり、エージェントの一般的な問題解決能力や一般的な世界知識、そして専門化されとるんじゃなくてどれだけ一般的かを本当に測定できる場所なんや。
ユニバースの開発と並行して、いくつかの研究プロジェクトも進めとったんやけど、特にRL²(RL squared)いう研究プロジェクトを紹介したいと思うわ。これは「遅い強化学習による速い強化学習」いうもので、ほとんどの作業はこの写真に写っとるロッキー・ダナンがやったんや。
RL²が答えようとしとる質問は、人間と強化学習アルゴリズムの違いは何かいうことや。どうして人間の方がずっと速いんやろか?その違いをうまく言い表せるやろうか?
明らかに、人間はデータ効率が優れとって、データを非常に上手く活用するんや。そして、人間には様々な難しい問題を解決してきた豊富な経験があるんや。この事前経験は、環境の分布として簡単に表現できるんやね。
ここに示したんは、先ほど見せたユニバースの環境の一部やけど、これがエージェントが過去に触れたタスクのセットやと想像してみてな。ルールの性質や、オブジェクトの外観とダイナミクス、典型的な制御の仕方、スコアリングの仕組みなどを学習できるいうわけや。
ほんじゃ、どうやってこの経験を活かすんやろか?環境の分布があるとして、その環境の知識を取り出して強化学習アルゴリズムに組み込むにはどうしたらええんやろか?
簡単に言うと、解決策は多くの環境を同時に解決するリカレントニューラルネットワークポリシーを訓練することや。つまり、強化学習におけるメタ学習やね。
アイデアは簡単やで。リカレントニューラルネットワークポリシーを用意して、ランダムに選んだ環境の一つに配置して実行し、どれだけうまくやれるかを測定するんや。
このリカレントニューラルネットワークポリシーのパフォーマンス指標は、環境分布からランダムに選んだ環境をどれだけうまく解決できるかいうことやね。
この場合、リカレントニューラルネットワークは環境からの観測と報酬の両方を受け取るんや。タスクが何かを知る必要があるから、報酬を知る必要があるんやね。
つまり、こんなリカレントニューラルネットワークの訓練に成功したら、それはある種のメタ学習器になるんや。非常に限られた環境セットに特化した強化学習アルゴリズムいうわけや。
実際にはどんな感じかいうと、RNNポリシーを一つの環境と一定時間相互作用させて、一つのエピソードを実行する。そして別の環境でエピソードを実行して、さらに別の環境でもエピソードを実行するんや。
実際には、遅い強化学習アルゴリズムがリカレントニューラルネットワークポリシーを訓練することになるわ。それを導いて、環境を解決するのが上手になるようにチューニングして、メタ学習器にするんやね。
ニューラルネットワークを使ったメタ学習には結構長い歴史があって、多くの人が気づいとるように、発表された論文の間にはかなりの相互情報があるんや。
例えば、ワンらの「強化学習を学習する」いう論文があって、これもICLA 2016に投稿されとる深い論文で、非常に似たアイデアや実験が含まれとったわ。
強化学習によるメタ学習の論文以外にも、ニューラルネットワークを使ったメタ学習や一般的なメタ学習に関する相当な先行研究があるんや。アイデア自体はそれほど新しくないんやけど、ここでの新規性は強化学習で本当に機能させたいいうことやね。
例えば、パラメーター最適化のメタ学習や、勾配降下法による学習の学習、メモリ拡張ニューラルネットワークによるワンショット学習、バックプロパゲーションによるメタ学習などの研究があったわ。
メタ値を埋め込むニューラルネットワークに関するヤン・シュミットフーバーの93年の論文や、学習の進化と遺伝的コネクショニズムの実験に関するチャーマーの90年の論文も見たことあるわ。
強化学習におけるメタ学習がどんな感じかもう少し詳しく説明させてもらうわ。
上のパネルに、リカレントニューラルネットワークの隠れ状態が表示されとるんやけど、一つの環境のエピソードでリカレントニューラルネットワークを実行して、そして別の環境のエピソードで実行するんや。
環境を切り替えるときは、RNNの隠れ状態をリセットして最初からやり直すんやで。
これが基本的な仕組みで、めっちゃシンプルで、それ以上のことはあんまりないんや。
遅い強化学習アルゴリズムには、シュルマンらの2015年の信頼領域方策最適化を使っとるわ。
評価について少し話させてもらうわ。
最初の評価はマルチアームバンディットでやったんやけど、マルチアームバンディットの面白いところは漸近的に最適なアルゴリズムがあるいうことやね。
この実験結果はよく見えへんかもしれへんけど、要約すると、漸近的に最適なアルゴリズムと比較して、短いエピソードでメタ学習RNNを訓練すると、データ量が少ない左側では最適アルゴリズムを上回る性能を示すんや。
真ん中の100ラウンドでは漸近的に最適なアルゴリズムと同等の性能になって、右側の500タイムステップでは漸近的に最適なアルゴリズムより少し性能が落ちるんやね。
表形式MDPでも同じパターンが見られたわ。表形式MDPにも特殊なアルゴリズムがあるんやけど、同様に、エピソードが短くて時間軸が短い場合はそれを上回る性能を示すことができた。
時間軸が長くなるにつれて同等の性能になって、最終的には少し性能が落ちるんや。その理由は単純で、長い時間軸での強化学習は難しいからやね。
最後に、3次元ナビゲーションを含むより大規模なタスクについてもう少し詳しく説明させてもらうわ。
この場合、メタ学習の目標はランダムな迷路を解くことを学習することやね。
達成したいのは次のようなことや。最初に新しい迷路を見たとき、それは初めて見る迷路やから、特定のアイテムを見つけようとするんやけど、次のエピソードではそのアイテムがどこにあるかわかっとるから、もっと早く見つけられるはずやね。
ビデオをお見せするわ。右側を見てな。歩き回って、道を見つけようとしとるのがわかるやろ。探しとるんや。ほんで見つけたんや。次は、どこにあるか覚えとるから、すぐに見つけられるんやね。
これは、かなり狭い領域に適用されたメタ学習の一形態やね。
ミスもあることがわかったわ。この場合、何回も通過した特定の通路に入ってないことに気づいてへんのがわかるやろ。
訓練するのはそんなに簡単じゃないんや。ここでの本当のポイントは、メタ学習には非常に強力な可能性があるいうことやね。
まだメタ学習を完全に解決したわけやないんや。つまり、メタ学習が本当に大きな違いを生み出すような重要なアプリケーションはまだ見つかってへんいうことやな。
訓練分布とは系統的に異なる分布に対して、メタ学習器がうまく機能することをどうやって保証するかいった根本的な制限もあるんやけどな。
でも、強化学習によるメタ学習について本当に気に入っとるのは、ユニバースで設定した目標を達成するための信頼できる道筋やいうことやね。
ユニバースでは、すべて異なって難しい環境の巨大な豊かさがあるいうとるわけや。その中のどれか一つでもうまくできるか?必要なことを素早く理解して、ただそれを実行して解決できるか?
もしメタ学習が論理的な極限まで押し進められたら、それは達成可能かもしれへんな。
ご清聴ありがとうございました。
質問ある?
ありがとうございます。この研究はすばらしいですね。アーキテクチャーにも感心しました。ピクセルベースじゃないものについてはどう考えとるんですか?例えばコマンドラインとか。
ほな、テキストを追加することは間違いなく可能やと思うわ。
これまでは主にピクセルに焦点を当ててきたんやけど、それはピクселがめっちゃ汎用的やからやね。
ピクセルの大きな欠点は、知覚に多くのサイクルを費やすことになるいうことやけど、サイクルはどんどん安くなっとるしな。
だから、野心的に最低レベルからピクセルにこだわるのも、そんなに不合理やないと思うんや。