見出し画像

イリヤ・サツケヴァー | AIは歴史的瞬間に入った | GPTはまもなく自己認識を持つようになる

私の講演にお越しいただき、ありがとうございます。大規模生成モデルと大規模強化学習の力についてお話しします。まず、OpenAIの目的についてお話しします。私たちの使命は、人工知能、つまり全ての経済的に価値のある仕事で人間を上回る高度に自律的なシステムが人類全体の利益になることを確実にすることです。そのためには多くの作業が必要で、その多くは技術的なものです。この講演では、過去1年間に行った技術的な作業の多くについてお話しします。
まず、大規模強化学習に関する私たちの取り組みについてお話しします。より具体的には、内部構造を見ると、強化学習ベースの自動カリキュラムについてお話しします。OpenAI Fiveについてお話しすることから始めます。これは私たちが最も誇りに思う成果の1つです。
OpenAI Fiveの目標は、Dota 2というゲームをできる限り上手にプレイするニューラルネットワークを訓練することでした。DOTAについて知っておく必要があるのは、かつてはAIの大きな課題だったということです。もはやそうではありません。AIの大きな課題だった理由は、これまでAIによって解決されたすべてのゲームよりも現実世界に似ているからです。これが1つ目の理由です。2つ目の理由は、このゲームが非常に難しいということです。多くの人々がゲームに人生を捧げて、できる限り上手になろうとしているからです。活発なプロシーンがあり、年間3500万ドル以上の賞金が出ています。私たちの研究以前は、リアルタイム戦略ゲームで優れた成績を収めたシステムはありませんでした。
2019年の私たちの成果は、中規模のニューラルネットワークを訓練し、世界最強の人間、つまり世界チャンピオンを3戦2勝のライブマッチで打ち負かしたことです。チームOGです。短い動画をお見せしましょう。
古代の意志が...そしてこれでGGです。ゲームオーバーです。OpenAIが2戦目を取り、2対0でシリーズを制しました。正直に言って、特に2戦目は素晴らしい例です...
これが世界チャンピオンをライブマッチで打ち負かした瞬間でした。どのようにしてそれを達成したのでしょうか?大規模な強化学習です。非常にシンプルで、特に振り返ってみるとそうです。単に多くのCPUと多くのGPUを使用し、小さな昆虫の脳の大きさのニューラルネットワークを45,000年分訓練してゲームをプレイさせました。それで十分だったのです。多くの詳細がありますが、主な...
それに対して、科学はどこにあるのかと疑問に思うかもしれません。何も発明していない、単に強化学習を大規模化しただけではないかと。しかし、それは正しい見方ではありません。科学は、強化学習が人々が考えていたよりもはるかに強力であるという発見にあります。これは実際にディープラーニングのテーマです。ディープラーニングの歴史を振り返ると、長い間、人々はニューラルネットワークは何もできないと考えていましたが、多くのコンピューターを与えると突然物事を始めるようになりました。教師あり学習でそれが起こり、より多くのGPUとより高速なGPUを使用し続けると、より多くの問題が解決されました。そして2015年と2016年に強化学習でも同じことが起こりました。
当時、強化学習は何もできないと思われており、DOTAのように難しいゲームを解決し、世界チャンピオンを打ち負かすことができるとは、ほとんどの人が考えていませんでした。それが本当の進歩です。大規模な強化学習が人々が考えていたよりも強力であるという発見です。
DOTA の結果について言及したいもう1つの本当にクールなことは、学習が驚くほど人間に解釈可能だったということです。AIが訓練されている様子を単に見ることで、何をしているのかを理解することができました。その性能は非常に人間に解釈可能でした。文字通り、「ああ、このような戦略を追求していることが分かるが、まだこの特定のアイテムの使い方を発見していないな」などと言うことができました。そして、なぜそのアイテムの発見に苦労しているのかを考えると、通常、答えは次のようなものでした。「そのアイテムを使用するには、その使用目的を理解する必要があります。ただランダムに適用しようとしても決して成功しません。そのアイテムが使用できる特定の状況に遭遇する必要があります。」そこで、そのアイテムを少し修正して、より頻繁に使用できるようにします。そうすると、強化学習がその使い方を理解します。
人間による監視が必要でしたが、その監視は驚くほど比較的簡単でした。なぜなら、学習が人間に解釈可能だったからです。これは本当にクールだと思います。システムがよりスマートになるにつれて、より多くのことが期待できると思います。ある意味で、システムとの関係がより簡単になるでしょう。より解釈可能になるからです。
これは、OpenAI DOTAチームと世界チャンピオンであるチームOGの写真です。12月に、DOTAの論文を発表しました。その中で、すべての結果、詳細、実験について詳述しています。特に、1つの興味深い情報をお伝えします。簡略化された方法でパイプラインを再実行し、新しいボットを作成しました。そのボットは、世界チャンピオンを打ち負かしたボットを98%の確率で打ち負かしました。
DOTAの結果の素晴らしい点の1つは、人間のデータを一切使用しなかったことです。単にニューラルネットに自分自身のコピーと対戦させただけです。その結果、ニューラルネットがより強く、より優れたものになると、同時にその対戦相手も強くなりました。その結果、プレイのレベルが外部からのデータ取り込みなしに自動的に向上し続けました。自己対戦から生まれた自動カリキュラムがあるのです。
私たちが探求したかったのは、このような自動カリキュラムが他のどのような場所で現れる可能性があるかということでした。人工生命や複雑性の出現に関するアイデアに触発され、魅力的な複雑性の出現、戦略の層状化が得られるようなシステムを設計することがクールだと考えました。「マルチエージェント相互作用のための新たなツール使用の出現」というタイトルの結果をお見せします。一連の動画をお見せしますが、そこでは赤い探索者と青い隠れ役がいるかくれんぼゲームがあります。
ゲームの仕組みは、探索者が隠れ役を捕まえなければならないというものです。訓練を始めた当初、彼らは本当にゲームの遊び方を知りませんでした。何をすべきか分からず、動き方さえ分かりませんでした。しかし、やがて探索者は隠れ役を追いかける必要があることに気づき、そうしました。その後、隠れ役は「待てよ、探索者が私たちを追いかけているぞ。バリケードを作らなければ」と考えました。そうすると、探索者はもはや追いかけることができなくなりました。
しかし、探索者はさらに進歩し、「このランプを使えばいいんだ」と考えました。これで再び隠れ役を捕まえることができるようになりました。そこで隠れ役は賢くなり、「探索者にランプを使わせてはいけない」と考えました。私たちはそれを他の状況に一般化し、期待通りに機能しました。ここでは、探索者が「すべてのランプを押しのけて隠さなければならない。そうすれば隠れ役が探索者を捕まえられなくなる」と考えました。
そして、システムは本当に私たちを驚かせる結果を生み出しました。今からお見せします。本当に驚くべき結果で、しばらくは何が起こっているのか理解できませんでした。先ほどお見せしたものと似たような状況があります。隠れ役がバリケードを作り、ランプの上にロックアイコンを置いています。これは探索者がそれらを使用できないことを意味します。しかし、探索者は次のようなことをしました。このブロックを押し、ランプの1つを使ってその上にジャンプし、隠れ役を捕まえることができました。これを私たちは「ブロックサーフィン」と呼んでいます。
これは本当にクールです。なぜなら、これらのシステムが意味のある方法で創造的になれることを示しているからです。もちろん、DOTAの結果や以前のAlphaZeroについて考えれば、これらのシステムが創造的であることは明らかであるはずです。しかし、それを視覚的に、そして本能的に見ることができるのは素晴らしいことです。かなり良いですね。教師あり学習とは少し異なります。通常、教師あり学習ではシステムはデータが指示することを行うだけですが、ここではシステムが新しいもの、創造的で興味深いものを生み出し、問題を解決しています。これは非常に楽しく、満足のいく結果でした。
しかし、ここで2019年の私たちが非常に誇りに思う次の結果に話を移したいと思います。DAC-1です。実際に本当にクールで高性能なシステムを生み出す種類のディープ強化学習について言えることの1つは、非常に大量の計算能力と非常に大量の経験を必要とするということです。これは最悪の問題の1つです。これだけの経験が必要だということは、おそらく実世界の問題には適用できないはずだということを示唆しています。なぜなら、通常、実世界の経験は得難いものだからです。
では、どうすればいいのでしょうか?この問題は、DACLプロジェクトを追求する動機の1つでした。DACLプロジェクトは、強化学習を使って訓練されたロボットハンドで、ルービックキューブを解くための動きを実行するものです。私たちはディープ強化学習でそれを実現することができました。その方法をお話しします。機械学習におけるすべてのことと同様に、高レベルの観点からは非常にシンプルです。
私たちは非常にシンプルなアイデアであるドメインランダム化を使用しました。基本的なアイデアは、ディープ強化学習を使用して、非常に少量のデータで非常に速い擬似的現実を行うニューラルネットワークを訓練するというものです。どのようにしてそれを行ったのでしょうか?シミュレーションを取り上げて...その質問に答えるために、一歩下がって、なぜすべてをシミュレーションで訓練できないのかを理解しようとする必要があります。答えは明らかです。物理的なものとシミュレーションの間には違いがあるからです。そして、多くの違いがあります。
実際の物理学をシミュレートするのは非常に難しいのです。私たちにはそれができるシミュレーターがありません。ある時点で、摩擦をシミュレートすることはNP完全であることがわかりました。それは正しくないように思えますが、それは無視しましょう。より重要なのは、物理システムの状態を知らないということです。指の質量を知らず、シミュレートしている摩擦の近似値を知りません。未知のことがたくさんあるのです。
では、それらにどう対処すればいいのでしょうか?答えは、これらのバリエーションのどれにも対応できる堅牢なポリシーを訓練したいということです。キューブの質量、サイズ、摩擦、システムを変化させる可能性のある多くの異なる方法に対応できるポリシーが欲しいのです。そして、考え方としては、それらすべてに対応できれば、実世界にも対応でき、非常に速く適応できるはずだということです。
言及したいもう1つの技術的なツールは、自動ドメインランダム化のアイデアです。ここでは、自動カリキュラムのアイデアを使用して、ドメインランダム化の複雑さを徐々に増加させました。その結果、学習が速くなり、より良いパフォーマンスに達しました。いくつかの動画をお見せしましょう。
これはロボットがゆっくりとキューブを解いている動画です。実際に見るのは本当に楽しいです。もし1分ほど動画を見続けたら、全体を解くのが見られるでしょう。また、総訓練経験が13,000年分だったことも言及したいと思います。これが必要だった理由は、物理的なロボットに非常に速く適応できるようにニューラルネットを訓練したかったからです。物理的なロボットはシミュレーションとは異なります。
もう1つ言及したいのは、システムのパフォーマンスです。ルービックキューブを解くために、つまりスクランブルされたルービックキューブを解くためには、多くのこのような動きを連続して行う必要があります。必要な動きは2種類あります。ブロックを再配置する必要があります。今、ブロックを再配置しているのが見えますね。そして面を回転させる必要があります。これを何十回か行う必要があります。
これらの動きを何十回か実行してキューブを解くという全体のプロセスを見ると、60%の成功率を達成することができました。また、最も難しくスクランブルされたキューブに対しても20%の成功率を達成することができました。より良いセンサーとより大きなニューラルネットワークを使えば、パフォーマンスは向上するはずです。しかし、これが現状です。
要約すると、これまで言ったことから得られるべきことは、大規模な強化学習がシミュレーションで非常に興味深いことを行えるということです。非常に興味深い自動カリキュラムを生成し、非常に創造的になって新しいものを発明することができます。そして、ドメインランダム化のようなアイデアを使用すれば、シミュレーションで学んだことを実世界に転移することもできます。
ちなみに、DOTAボットにも少し現実世界への転移の要素があったことを言及したいと思います。ボットに対して訓練されましたが、人間に対してプレイしたからです。これはロボットの結果と直接的な類似性があります。
また、ロボットが実世界のあらゆる種類の予期せぬ出来事にかなり堅牢であることを示すもう1つのクールな動画をお見せしたいと思います。ここでは、ロボットが手袋をはめているのが見えます。手袋をはめているにもかかわらず、まだ動きを実行することができます。これは本当に訓練されていなかったことです。これは、これらのニューラルネットが本当に非常に強力であり、適切なデータを与えれば驚くべきことができることを示唆しています。
実世界の摂動に対する顕著な堅牢性を示す別の小さな結果もあります。これは、この作業を行った素晴らしいロボティクスチームの写真です。
最後に、GPT-2についてお話しして、このプレゼンテーションを締めくくりたいと思います。まず、コアアイデアについてお話しします。これは非常にシンプルです。次の単語を極めて正確に予測するようにニューラルネットを訓練すれば、言語について何かを学ぶはずです。直感的には理にかなっています。次にくる単語を知っていれば、スペリングを理解し、構文を理解し、おそらく意味を理解し、おそらくテキストに関するいくつかの非常に深いアイデアを理解するはずです。
これは理論であり、正しいかもしれませんし、そうでないかもしれません。しかし、大きなニューラルネットを取り、次の単語を予測するように訓練することで確かめることができます。そうすると、2つのことが得られます。1つは、テキストを生成できるニューラルネットワークを得ることです。次の単語を予測し、それをニューラルネットに戻し続けるだけです。これだけでもかなり素晴らしいですが、GPT-2について本当に興奮しているのは、非常にクールなゼロショットの性能能力が得られることです。これについて説明します。
少し先走ってしまったことに気づきました。具体的に行ったことは、15億パラメータのTransformerを取り、インターネットからのテキストで訓練することでした。さて、システムが何であるかを理解したところで、これも非常にシンプルであることを言っておきます。次のトークンを予測するために、何十ギガバイトものテキストで1週間、多くのGPUで訓練されたシンプルなニューラルネットです。コードの総行数はそれほど多くありません。
なぜこれが興味深いのでしょうか?先ほど言及したように、あらゆる種類のNLPタスクを解決するのに使用できますが、ここで強調したいのは、ゼロショットの性能能力です。質問をテキストとして書き下ろすと、それに答えてくれます。そして時々正確に答えてくれます。これは本当にクールです。小さな知識ベースになり始めているのです。
このモデルの私のお気に入りの能力について話したいと思います。それは、フランス語から英語へのゼロショット翻訳を行う能力です。2,000や1,000のような特定の長さのコンテキストを与え、文字通り「これはフランス語の文です」と言います。そして「等号英語の文セミコロン」と言います。そして「はい、これは別のフランス語の文です。等号英語の文」と言います。コンテキストに収まるように、おそらく7つほどそれを繰り返します。そして8番目の文で「さて、続きは何でしょうか?等号の後には何が来るでしょうか?」と言うのです。スライドのように。
そしてこれが機能するのです。何かを行います。最高のシステムほど良くはありませんが、ゼロショットで何かを行います。つまり、インターネットのランダムなウェブサイトを読むだけで、英語とフランス語の関係について何かを学んだということです。特に注目すべきなのは、これが偶然だということです。私たちは意図的に翻訳が得意なシステムを作ろうとしたわけではありません。それどころか、主に英語でないテキストをデータセットからフィルタリングしました。それにもかかわらず、英語とフランス語の共起を検出し、翻訳が可能になるような方法で実際に抽出することができたのです。これは本当にクールだと思います。私はこれにとてもワクワクしています。これは、私たちが慣れているものとは少し異なる形の機械学習かもしれません。
GPT-2の作業について本当に楽しかったのは、コーラル以外でも多くの人気を博したことです。様々な大きさのTransformerと会話できるウェブサイトがあり、人々はそれを行って会話をしています。誰かが行った最もクールなことの1つは、AIダンジョンゲームを作ったことです。これは基本的にテキストアドベンチャーゲームです。仕組みは、小さな文を出力し、あなたが「これをしてください」と言うと、「あなたはこれをしました。今これが起こっています」と応答します。人々はこれを気に入っているようです。このゲームの作者は最近、彼らのニューラルネットワークで1億回の推論が行われたとツイートしました。それは多いのでしょうか?そうだと思います。
ここに本当にクールなツイートがあります。誰かがモデルを使って、依存関係のインストールをテキストアドベンチャーゲームにしました。テキストが少し小さくて見えにくいかもしれませんが、「これをインストールしようとしています」のようなものです。そして「これをインストールして続けてください。それをインストールしてください。指示に従ってください。これとこれを行ったと言ってください。これが起こっています。追加の依存関係が必要です。これについて心配する必要があります」というようなものです。かなりクールですね。
ああ、はい。これが私が言及した1億回のコメントです。ああ、はい。他の誰かがコード用のスマートコンポーズを作りました。Tab 9というプラグインです。もちろん、これは単なる言語モデルなので、コードが解析可能である必要はありません。タイプミスがあっても機能し、コメントにも反応します。「ああ、あなたのコメントはこれこれについて言っていますね。コメントとその後に来るテキストの間に何らかの相関関係があるかもしれません」と言うでしょう。
もちろん、コードを生成するシステムを使用し、そのシステムが生成したコードにバグがないかを探すのは非常に困難だと思います。しかし、この場合、アプリケーションは非常に短いスニペットを生成するだけで、すぐに必要なものがあるかどうかを確認できます。これは本当にクールに見えます。
他の誰かが執筆アシスタントを作りました。非常にスマートなコンポーズがあります。そして誰かがモデルを調整して詩を生成しました。小さな詩を読み上げましょう。「私の心よ、なぜあなたはここに一人で来るのか / 私の心の野生の海は / 妖精のような、野生の、美しい、完全なものに / 成長した」これは私の個人的な詩のテストをパスしたようです。
ああ、はい。他の誰かがGPT-2を取り、医学コーパスで微調整して医療Q&Aを行いました。もちろん、これらのアプリケーションはまだ予備的なものです。これはまだ初期段階ですが、人々がこれらの創造的なアプリケーションを試し、実際に人々が使用しているのを見るのは本当にエキサイティングです。
ああ、はい。サブレディットシミュレーターもあります。完全にクレイジーです。私はそれに入り込んで、特定の政治的サブレディットをシミュレートしていました。自分自身に対して熱い政治的議論を行っていました。それが完全には意味をなさないことを理解するのに少し時間がかかりました。
別の話題として、段階的リリースについての振り返りについて少しお話ししたいと思います。覚えているかもしれませんが、誤用の可能性を懸念して、モデル全体を一度に公開しませんでした。具体的な誤用の可能性として考えていたのは、大規模な自動化された安価なフェイクニュースを生成できるということでした。
それでは、大局的な考え方と、それがどのように展開されたかについてお話しします。大局的な考え方は、私が絶対に完全に正しいと思うのですが、MLはより強力になっており、この分野は子供時代から成熟期に移行しているということです。過去、MLは学術分野でした。小さな会議があり、人々がやってきて楽しみ、論文を書き、アイデアを議論するだけで、誰も本当に気にしていませんでした。しかし、この分野は成功しました。ある意味で、科学者の夢が実現しつつあります。技術は影響力があります。実際に影響力があり、その影響力は成長し、今後も成長し続けるでしょう。
GPT-2のリリースの観点から見ると、私たちが取った哲学は、これらのことについて考え始めるのは早すぎるよりも遅すぎないほうがいいということです。後でリリースすることはできますが、リリースを取り消すことはできません。また、段階的リリースでは、多くの有益な使用法を見ましたが、悪意のある使用の証拠は見られませんでした。これがGPT-2についてです。
プレゼンテーションを締めくくるにあたり、MuseNetのサンプルをお見せしたいと思います。これは基本的に、MIDIファイルで訓練されたGPT-2です。MuseNetが本当に好きな理由の1つは、音楽、特にクラシック音楽が多くの記号的な種類のルールに従っているからです。モデルはそれらを学習しました。生成される音楽を聴くと、その音楽もクラシック音楽が従うべき記号的なルールに従っていることがわかります。これは、これらのモデルが記号的な概念も学習できるという希望、指標を与えてくれます。完全に大丈夫ですが、ただ訓練して多くの勾配ステップを取るだけです。そしてここにサンプルがあります。
[音楽]
しばらく続きますが、これが私の言いたいことのすべてです。ああ、いくつかの考えがありました。はい、少し時間をオーバーしており、人々はランチに行きたがっているようなので、本当に手短に話します。
基本的に、ディープラーニングは期待を上回っており、それは本当にエキサイティングです。以上です。ご清聴ありがとうございました。
イーリヤ、ありがとうございました。1、2つ質問の時間があります。その後ランチ休憩に入ります。
はい、こちらです。Dota 2のようなゲームについて本当にクールな結果を示してくれました。そして、現実世界が難しく複雑であるため、それが現実世界の状況に一般化できると言及しました。しかし、現実世界では状態空間と行動空間に不均衡があります。Dota 2では状態空間は完全に観測可能で、行動空間は無制限です。これは本当に難しいです。しかし、現実世界では、例えば自動運転の場合、状態空間は決して完全に観測可能ではありませんが、行動空間は本当に限られています。この不均衡をどのように埋めることができると思いますか?
非常に簡潔に言うと、1つ間違っていることは、Dota 2の状態が完全に観測可能だということです。しかし、より広く言えば、あなたが説明していること、つまり状態空間のサイズ、行動空間のサイズ、それが課題ではありません。課題は、正確な知覚を行うこと、ミスを犯さないこと、推論すること、堅牢であることです。これらが現在直面している課題です。私たちのシステムは本当に素晴らしく、非常に優れていますが、時々ミスを犯します。そのため、常に信頼することはできません。本当に重要なアプリケーションに展開することはできますが、ミスはコストがかかります。
ですので、状態空間のサイズや完全な観測可能性というよりも、堅牢であるか、常識を持っているか、その場で推論できるかということが課題です。これらが今後数年間で取り組む必要がある課題です。
ありがとうございます。

いいなと思ったら応援しよう!