イリヤ・サツケヴァー | AGIは莫大な価値を生み出す | AGIは将来、人類がより広い宇宙を探索するのを助ける

2024年7月13日 23:02

私の講演では、過去1年間にOpenAIのミッションに向けて達成した進歩についてお話しします。まず、OpenAIのミッションについて説明させてください。それは、人工知能全般（AGI）、つまり経済的に価値のある大部分の仕事で人間を上回るパフォーマンスを発揮する高度に自律的なシステムが、人類全体の利益になるようにすることです。
プレゼンテーションの最初の部分では、AIを単に進歩させるために我々が達成した技術的な進歩についてお話しします。まず最初にお話ししたいのは、OpenAI 5についてです。これは、世界最強のプレイヤーと同等のレベルでDotAをプレイするように訓練されたニューラルネットワークです。DotAは非常に大規模で難しい、人気のあるリアルタイムストラテジーゲームです。DotAゲームの主な特徴は、以前AIアルゴリズムのテストに使用されていたゲームとは異なり、より現実世界に近いということです。カオス的なゲームで、部分的な観察可能性があり、任意の時点で取れるアクションが非常に多く、ゲームは1時間以上続き、その間に20,000回のアクションを取ることができます。さらに重要なのは、人々がこのゲームに人生を捧げているということです。上手くなるために1万時間以上の意図的な練習を含む2万時間以上も練習しているのです。このゲームについてもう一つ重要なことは、非常に人気があるということです。世界最大のプロのeスポーツシーンを持つゲームで、年間最大の賞金プールは4000万ドルです。
つまり、DotAは非常に難しいゲームです。カオス的で乱雑で、以前人々がAIを適用しようとした他のゲームよりも現実世界に似ています。そして、このゲームをプレイする人々は本当に上手にプレイします。だから、このゲームで良い成績を出すのは簡単ではありません。ゲームの様子を少しお見せするために、短い動画をお見せします。
ここでは、私たちのボットが人間のプレイヤーを追いかけています。これは8月のもので、世界最強のチームの一部と対戦しているところです。ここで、ボットが人間のプレイヤーを追いかけています。ああ、ボットがMをやりましたね。OpenAI Beyond Mですね。人間のプレイヤーを予想外の方法で捕まえることができました。これは、解説者の声のトーンからも分かると思いますが、驚くべきことができるということを示す例です。ゲームは最初は理解するのが難しいですからね。
さて、どのようにしてこのゲームを解決したかについてお話ししましょう。私たちの解決策は、このスライド1枚に収まります。それは、非常に大規模な強化学習です。ここで斬新なのは、非常に大規模な強化学習が非常に難しい問題を解決できることを示したことです。私たちの最大規模の実験では、ボットが1つのゲームで500年以上のゲームプレイ経験を蓄積しました。ゲームをプレイするために使用するポリシーは、現在、ハチの脳と同程度の計算量を消費しています。トレーニングは自己対戦を通じて行われ、ニューラルネットワークが自身のコピーと対戦します。ニューラルネットワークが上達するにつれて、対戦相手も上達するので、常に改善することができます。その結果、人間のデータを全く使用する必要がありませんでした。少量の報酬シェーピングも必要でした。単に勝敗を最適化するだけでなく、リソースの蓄積や短期的な戦闘での優位性など、いくつかの要素も最適化しました。
以上が解決策です。とてもシンプルですね。では、科学的な面はどこにあるのでしょうか？何が革新的なのでしょうか？これは実際、ディープラーニングにおいて非常に一般的なテーマです。多くの発見やブレークスルーは、新しいアルゴリズムではなく、古いアルゴリズムが我々が思っていたよりも強力だという認識から成り立っています。今回も同じケースです。私たちの結果が出る前は、強化学習の専門家のほとんどが、強化学習はそれほど優れた技術ではなく、難しい問題を解決することはできないと信じていました。DotAの前に強化学習で解決された唯一の難しい問題はAlphaGoでしたが、それは木探索を使用していたので、みんな「まあ、木探索を使っているから、強化学習とは少し違うんじゃないか」と言っていました。通常の強化学習はそれほど優れていないと。しかし、私たちはそうではないことを示しました。教師あり学習で見てきたのと同じストーリーが強化学習でも起こることを示したのです。教師あり学習では、何か問題を解決したいなら、十分に大きなラベル付きデータセットを収集すれば、おそらく解決できるということはすでに知っています。だからこそ、今日我々は AIの商業的応用をたくさん目にするのです。教師あり学習がとてもうまく機能するからです。しかし、私たちが示したのは、同じことが強化学習にも当てはまるということです。非常に難しい問題であっても、十分な経験を与えれば強化学習で成功することができます。確かに、必要な経験量は非常に多いです。少なくとも今日では、表面的には、これはシミュレーション環境にのみ限定されているように見えるかもしれません。しかし、そうではありません。
規模の感覚を掴んでいただくために、いくつかの面白い事実をお伝えしましょう。私たちは並行して経験を生成するために10万以上のCPUコアを使用し、数千のGPUで数週間にわたってニューラルネットワークを実行しました。これが必要だった規模です。もう一つ面白い事実は、8月のThe Internationalで世界クラスの2つの非常に強いチームと接戦を演じたときのことです。私たちは彼らに負けましたが、コンテストのタイミングの都合上、ネットワークは新しいルールでの練習時間が十分ではありませんでした。同じ試合が単に2週間後に行われたらどうなっていたか、それは非常に興味深いところです。
もう一つお伝えしたい情報があります。それは成長率についてです。このプロットは、時間の経過に伴う私たちのボットの強さの向上を示しています。注目すべき点は、5月にここでボットがようやくOpenAIで働いている最強のDotAプレイヤーで構成されたチームに勝つことができたということです。これは5月のことで、そんなに昔のことではありません。それから6月には、さらに強いチームに勝つことができました。そして7月1日、つまり5月から約2ヶ月後には、セミプロのチームに勝つことができました。Y軸に示されているのはMMR（推定MMR）で、チームのELOレーティングのようなものです。MMRの差が500ほどあると、勝つ確率が非常に高いことを意味します。つまり、MMRの差が500あるたびに、勝つ可能性が非常に高くなります。その後、8月にこれら2つの世界最強のチームと対戦し、負けましたが、試合は非常に接戦でした。実際、試合の最初の30分間は、どちらに転ぶか分からない状況でした。これは、4ヶ月間の時間枠での話です。その4ヶ月の間に、ボットの強さは非常に急速に向上しました。これは興味深い事実です。人間がそれほど上手くなるには、はるかに多くの年月がかかります。
これで私のDotAの結果のまとめは終わりです。次の興味深い結果に移りましょう。これは私たちのロボティクスの仕事です。動画をお見せしますね。これは物理的なロボットを制御できるシステムを構築したものです。これはシミュレーションではありません。これは実際のロボットが木でできたブロックを再配置しているところです。ブロックの中にはセンサーはありません。視覚と感覚を使ってブロックの状態を把握しています。右下に見えているのは目標の向きです。目標の向きに達しようとしています。目標に達すると、新しい目標が与えられます。はい、目標に達しました。新しい目標が与えられました。成功するでしょうか？もちろん成功します。少し時間がかかりますが...ほら、うまくいっています。とてもクールですね。
どのようにしてこれを実現したかをお話ししましょう。ああ、この形状の異なるオブジェクトでも同じ結果を得られたという動画は持っていませんが、それも簡単にできました。なぜなら、私たちのアプローチはどのオブジェクトであるかをそれほど気にしないようです。
DotAボットに対する有効な批判の一つは、膨大な量のシミュレーション経験が必要だったということです。そこから、「確かに、強化学習はこれらのシミュレーション環境ではうまく機能するかもしれない。それはかなり良いことだ。しかし現実世界では、これほど多くのデータを収集することは不可能だ。高すぎて実用的ではない。だから、シミュレーションでやったような難しい問題を解決することは決してできないだろう」と結論づけることができます。
そこで私たちは、シミュレーションでシステムを訓練し、実際のロボットに展開できたら素晴らしいと考えました。シミュレーションで訓練し、実世界に展開する。どのようにしてそれを実現したか、お話しします。これから2、3枚のスライドは技術的な内容になりますので、数分間注意を払わなくても構いません。しかし、興味があれば注目してください。
なぜシムから現実への移行が難しいのでしょうか？シミュレーションが実際のロボットと異なるからです。例えば、ブロックがあるとして、その側面の摩擦、正確なサイズ、正確な重さ、ロボットにかかる力の正確な抵抗などが分かりません。シミュレーションでは知らないことがたくさんあります。
私たちは非常にシンプルな解決策を持っていました。それは、ドメインランダム化という古いアイデアを使用することです。それはこのように機能します。何か分からないものがあれば、それをランダム化し、システムにブロックの1つのサイズだけでなく、任意のサイズで成功することを要求します。1つの摩擦値だけでなく、任意の摩擦で。1つの重さだけでなく、任意の重さで。抵抗やその他の属性を変えても成功する堅牢なシステムを作ります。そして、それだけで十分でした。物理的な外観のこれらの異なるバリエーションに対して堅牢であるようにシミュレーションでシステムを訓練することで、物理的なロボットに一切トレーニングすることなく一般化することができました。すべてのトレーニングをシミュレーションで行い、物理的なロボットでのトレーニングは一切行いませんでした。そして、この古いアイデアであるドメインランダム化のおかげで、それが機能することを示しました。
繰り返しますが、非常にシンプルです。シミュレーションでトレーニングし、少しのドメインランダム化を加え、実際のロボットに展開します。そして、もう一つ面白い事実をお伝えしたいと思います。シミュレーションでトレーニングを達成するために使用したトレーニングコードは、DotAをプレイするシステムをトレーニングするために使用したのと同じコードでした。これについて考えてみてください。私はこれがとても刺激的だと思います。アルゴリズムがどの問題を解決すべきかをどのように知るのでしょうか？それは気にしないようです。「問題を与えてください、解決します」と言っているかのようです。これは汎用性のヒントを与えてくれます。
さて、もう一つの結果についてお話ししたいと思います。この結果は、ある意味で技術的ですが、最もクールな動画があります。技術的なスライドに移りますが、興味がなければあまり注意を払わなくても大丈夫です。興味がある場合は、もっと注目してください。
強化学習では、こんな感じで機能します。実際にはシンプルです。聞いてください。強化学習は、エージェントにランダムな異なることを試させることで機能します。何かランダムなことをして、それが好きかどうかを確認します。好きなら、それをもっとやります。この文が強化学習の本質を要約しています。フィードバックを得られる場合にも機能します。何かを試して、「それは良かったのか？おそらく良かった、もしくは良くなかったかもしれない」と判断し、その基礎の上で学習します。
しかし、フィードバックが得られない状況で破綻します。AI研究で有名なコンピューターゲーム「モンテズマの復讐」があります。このゲームは報酬が少ないことで有名です。エージェントは報酬を得る前に多くの異なることをする必要があります。そのため、このゲームは強化学習アルゴリズムにとって非常に難しいものでした。なぜなら、動きをしても全く報酬が得られないからです。そのため学習できません。強化学習では、何かランダムなこと、何か違うこと、何か新しいことをして、それが好きかどうかを確認する必要がありますが、好きかどうかを判断できる必要があります。フィードバックを得る必要があります。フィードバックがなければ学習できません。そして、「モンテズマの復讐」のような環境では、たくさんのランダムな行動をしても全くフィードバックが得られません。フィードバックなし、学習なしです。
そこで、この問題を解決するために使用した非常にシンプルなアイデアがあります。状態が新規かどうかを判断する特定の方法を持っていて、新規であれば正のフィードバックを得ます。報酬を得るのです。基本的に「新規性を求め、退屈を避けろ」と言っているようなものです。これも新しいアイデアではありませんが、新しいのは、バグなしで実装したことです。コードのすべてのバグを修正しました。そして、それらのバグを修正するのは非常に難しいかもしれませんが、実際にすべてのバグを修正した後、私たちのコードベースを使用して、同様のアイデアを使用した他の既存の手法を再実装しました。そして、彼らの公開された研究よりも良い結果を得ました。なぜなら、私たちの実装にはバグが少なかったからです。
では、動画をお見せしましょう。理論をお聞きいただいた今、動画をお見せします。1文で要約すると、強化学習は新しいことをランダムに試して、それが好きかどうかを確認し、好きならもっとやるというものです。これが強化学習です。2つ目は、フィードバックが全く得られない状況では何をするかということです。一つのアイデアは新規性を求め、退屈を避けることです。新規性を求め、退屈を避ける。そして、これら2つのことを行えば、クールなことが起こります。
ここにゲームがあります。まず、ゲームについて説明しましょう。これはプラットフォームゲームです。小さなキャラクターがプラットフォーム上をジャンプして回っています。鍵を集めたり、コインを集めたり、松明を集めたりしています。部屋から部屋へ移動する必要があり、他の部屋につながるドアを開けるためにいくつかのアイテムを集める必要があります。そんな感じです。ここでその行動を見ることができます。レーザーを通り抜け、コインを集めています。見てください。死の危険に近づくのが好きなようです。人間にも同様の行動が見られることがあります。
これは、モンテズマの復讐というゲームで起こることを示しています。これは、ゲーム内のさまざまな部屋のもう一つの可視化です。基本的に、私たちのアルゴリズムは時々すべての部屋を訪れ、第1レベルを通過することができました。これがどれほど大きな進歩かを理解していただくために、この便利なプロットを用意しました。これらの青い点はすべて、モンテズマの復讐というゲームでのパフォーマンスを示しています。これが私たちの仕事です。これが以前で、これが後です。
もう一つクールな動画をお見せします。マリオです。別のゲームですね。ここでは少し異なることをしました。報酬のことは忘れて、ゲームに勝つことも忘れて、単に「退屈しないでください」と言ったらどうなるかを見てみました。退屈しないようにお願いしたら、何をするでしょうか？答えは、かなりたくさんのことをします。今からお見せします。基本的に、死ぬことを嫌うようになります。死ぬのが好きではありません。なぜなら死ぬと退屈だからです。死ぬとレベルの最初やゲームの最初に戻ってしまいます。そこにはもう行ったことがあるので、なぜそうしたいのでしょうか？それはつまらないですよね。だから、レベルを通過します。これは非常に興味深いです。
気づいたかもしれませんが、コインを追いかけていません。コインが面白いということを知らないからです。ただクールで新しい面白いことをしたいだけなのです。そして、どんどん進んでいきます。非常に賢明なことをしていて、より多くのレベルを通過しているように見えます。かなり有能そうですね。はい、どんどん進んでいます。完璧ではありませんが...おお、これはクールですね。このレベルにはボスがいます。ボスを倒すところです。見てみましょう。はい、これがボスです。瞬時に対処しました。問題なしです。とても残念ながら死んでしまいましたが、これが単に退屈しないように要求されただけでできることです。これが退屈しないということがどのように見えるかです。
もう2つ動画をお見せしたいと思います。少し技術的ですが、退屈回避のビジネスがどのように見えるかをより細かく示す例です。ポンというゲームの動画をお見せします。ポンゲームはこんな感じです。ここに小さなパドルがあり、パドルにはこの小さなボールがあって、跳ね返そうとしています。ボールを打って、ボールがこれらの石に当たるようにしたいのです。ここに見えるのは、エージェントが得る報酬、退屈度、好奇心ベースの報酬です。何が起こるか見てみましょう。ここに小さな点があり、これが現在の実際の報酬体験を示しています。
石に当たりました。そして巨大な報酬のスパイクを得ました。基本的に、「やった！石を消すことができた。それはすごくクールだ」というわけです。これはトレーニングの始まりです。トレーニングの後半、すでに石を消すのが上手くなったときは、これがレベルの終わりです。この巨大なスパイクが見えますね。レベルを通過したときに何が起こるか想像できると思います。非常に驚くでしょう。そんなことができるなんて。見てください、レベルを通過しようとしています。そう、これが得た巨大な報酬です。これは非常に合理的です。予想通りですね。
まとめると、強化学習では、ランダムなことをして、それが好きかどうかを確認します。しかし、時には好きかどうかが分からないことがあります。時にはフィードバックを得るのが難しい場合があります。少なくとも、退屈しないようにしようとすれば、つまり「私は退屈しているか？これは新しいことか？」というフィードバックがあれば、それはかなり良い目標です。私たちはこれをとてもうまく実装しました。正しい設計の選択と正しい実装を見つけ、モンテズマの復讐やこのクールなマリオの動画で前例のない結果を達成することができました。そして、願わくは他の多くのアプリケーションでも役立つでしょう。
さて、これでプレゼンテーションの第一部は終わりです。次は第二部に移り、OpenAIのミッションについてお話しします。先ほど述べたように、OpenAIのミッションは、人工知能全般（AGI）、つまり経済的に価値のある大部分の仕事で人間を上回るパフォーマンスを発揮する高度に自律的なシステムが、人類全体の利益になるようにすることです。これはOpenAIの憲章からの引用です。このAGIのビジネスについて少し時間を割いてお話ししたいと思います。それは正確に何なのでしょうか。
経済的に価値のある大部分の仕事で人間を上回るパフォーマンスを発揮するシステムの結果について考えてみましょう。そして、これらのシステムはコンピューターシステムになるので、運用コストが安くなります。そのため、非常に大規模な富を生み出すことができ、貧困を終わらせ、物質的な豊かさを実現する可能性があります。これらは素晴らしいことです。他の素晴らしい結果としては、自動的に科学技術を生成できるシステムを持つことができるでしょう。それも素晴らしいことです。現在治療不可能なさまざまな病気を治療し、寿命を延ばし、超人的な医療を提供することができるでしょう。それもクールですね。地球温暖化を軽減し、海洋を浄化し、環境を修復することもできるでしょう。それも素晴らしいことです。教育と心理的幸福を大幅に向上させることもできるでしょう。
これらは、そのようなシステムが作られたときに世界がどのように変化するかについての網羅的なリストではありません。これはむしろ、アイデアを与えるためのものです。しかし、あなたは「確かに、そうですね。もちろん、500年後や1000年後にそのようなシステムを構築すれば、これらの問題が関連してくるでしょう。そしてOpenAIのミッションも関連してくるでしょう。なぜなら、誰も仕事を持たなくなるからです。でも、今日は関係ないでしょう？I mean, we are so far from building anything like AGI, we are so far. Why bother? Why even talk about it?」と反論するかもしれません。
これは非常に妥当な質問だと思います。この質問に答えるために、プレゼンテーションの次の部分では、過去6年間に目撃した進歩を単純に提示します。いくつかの事実をお見せし、いくつかの曲線をお見せします。これらの進歩を検証した結果、私たちの結論は、近い将来のAGIを排除することはできず、真剣な可能性として考慮すべきだということです。
過去6年間に見てきた進歩を振り返ってみましょう。100%の進歩は、何十年も前に発明されたバックプロパゲーションアルゴリズムを持つ謙虚なニューラルネットワークによって推進されてきました。このニューラルネットワークは、奇跡的にも年々、当時は乗り越えられないと思われていた壁を次々と乗り越えてきました。これらの壁が完全に破壊された例をいくつかお見せしたいと思います。
ディープラーニング革命について話し、それがすべてを変えたと言いますが、ディープラーニング革命以前のAIがどのようなものだったかを見るのは有用でしょう。ここに例があります。これは2005年から数年間、少なくとも数年間は最先端だった視覚システムのデモンストレーションです。HOG特徴と呼ばれるもので、非常に人気がありました。ここで興味深いのは、その間違いが見えることです。この小さな長方形が見えますね。ここでそれを拡大しています。HOG特徴は、これが車だと思っています。なぜこれが車だと思うのでしょうか？笑っていますね。でも、これが当時の最先端だったのです。これを車だと思うのは、この小さな画像パッチをHOG特徴に通すと、このようなものが得られるからです。そして、これは確かに車のように見えます。テンプレートマッチングで車に一致するのです。
状況はかなり悪く、みんな悲観的でした。AIは決して機能しないように見え、AIの冒険は永遠に続くように思われました。しかし、幸いなことにそうはなりませんでした。2012年に、ジェフ・ヒントン、アレックス・クリジェフスキー、そして私自身が、ディープニューラルネットワークが以前のアプローチよりもはるかに優れた性能を発揮できることを示しました。しかし、本当に興味深いのは、その後に起こったことです。性能が向上するスピードが非常に速かったのです。
これは2012年の結果で、ImageNetデータセットでのTop-5エラー率を示しています。2012年には15%まで下がり、2016年には3%になり、2018年には2%未満になりました。ほぼ指数関数的にエラーが減少していることがわかります。これはかなりクールですが、唯一の例ではありません。同様の例をいくつか見てきました。
ここに機械翻訳の例があります。2014年に、ニューラルネットワークを機械翻訳に適用した最初の例が登場しました。私もその一部に関わっていました。2014年から2018年にかけて、性能が向上しました。少し文脈を説明すると、機械翻訳の精度はBLEUスコアと呼ばれるもので測定されます。それが何かを知る必要はありません。BLEUスコアについて重要なのは、ニューラルネットワークを使用した機械翻訳以前は、非常にゆっくりとしか向上しませんでした。もし論文を書いて、最先端の機械翻訳を0.1 BLEUポイント改善したら、それは大きな進歩とされていました。
これは、特定の成熟したデータセット、WMT英語-フランス語データセットでの性能です。英語からフランス語への翻訳のような場合、性能はすでにかなり高く、これ以上大きく改善することはできないだろうと思うかもしれません。しかし、過去4年間で9 BLEUポイントの改善が見られ、しかもそれは加速する形で起こっています。これはかなり良い、興味深い結果です。機械翻訳の性能が急速に、さらには加速的に向上しているのを見てきました。
画像生成についてもお見せしたいと思います。2014年にGANが導入されましたが、2014年の時点ではそれほど良くありませんでした。このような顔を生成し、このような画像を生成していました。2015年にはDCGANが導入されました。これは私のOpenAIの同僚であるアレック・ラドフォードによって行われたもので、これらの顔を生成しました。解像度は高くなりましたが、少し変形しています。そして、このようなクールに見えるベッドルームの画像もありました。
しかし、2017年には、これらの画像が生成されました。見えるピクセルの一つ一つがニューラルネットが出力したものです。これらは実在の人物ではありません。そして2018年には、これがあります。これらの画像もニューラルネットワークによって生成されています。ビデオの部分で気づくのは、この小さなロケット、スペースシャトルのようなものに注目すると、それが意味をなしていないことがわかります。しかし、それを見るのは簡単ではありません。努力が必要です。
では、振り返ってみましょう。2014年、2015年、2017年、2018年。これは非常に急速な性能向上です。実際、こう言えるでしょう。2016年に戻ったとしても、機械学習研究者の圧倒的多数が、2年後にこれが達成可能になるとは非常に確信を持って言えなかったでしょう。3年前なら、こんなことが起こるとは想像もできなかったでしょう。
さて、もう一つの分野に移りましょう。それは強化学習、特にディープ強化学習です。ディープ強化学習も、非常に急速な性能向上を経験した分野の一つです。2013年、DeepMindがこの論文を発表しました。ニューラルネットワークを強化学習と組み合わせてコンピューターゲームに適用する方法を示したものです。これは本当にクールでした。なぜなら、単に知覚を行うニューラルネットワークだけでなく、行動も行うからです。知覚と行動を兼ね備えています。これはとてもクールです。しかし、もちろん、これはとてもシンプルなゲームで、明らかに役に立つものではありません。
2015年には少し進歩がありました。強化学習でこのような棒人形を走らせることができるようになりました。これはクールですね。いつかロボティクスに役立つかもしれません。かなりクールに見えます。
2016年にはAlphaGoがありました。AlphaGoについて興味深いのは、それが起こったとき、専門家たちが驚いたことです。多くの人々が本当に驚きました。なぜなら、状態空間が非常に大きく、プランニングが非常に複雑だったからです。そして、すべての人間を打ち負かしました。
もちろん、それが起こった後、人々は「ま、碁のゲームは状態空間がとても小さくて、ゲームが短いからね」と言い始めました。しかし、これは事後の話であって、事前の話ではありません。そして、もちろんその後の信念は、「まあ、いいよ。ボードゲームはできるかもしれない。でも、これらの難しいゲーム、リアルタイムストラテジーゲームはできないよ。ツールが強力じゃない」というものでした。
そして2018年、私たちはOpenAI Fiveを発表しました。確かに非常に大規模なスケールを使用しましたが、世界最強のチームと同等のレベルでプレイすることができました。そして、ほぼ同じ時期に、シミュレーションで学習したことを実世界に適用できることも示しました。
これがディープ強化学習の進歩です。簡単に振り返ってみましょう。これが2013年、これが2015年。2015年の最先端です。2016年。かなり大きなジャンプですね。そして2018年。ディープ強化学習が非常に急速に改善されたことがわかります。
これはかなり素晴らしいことですが、他に何があるでしょうか？私たちが見てきたすべての結果の背後にある重要な隠れた次元が一つあります。それは計算力です。計算力について知る必要のある2つのことがあります。1つ目は、非常に急速に成長したということです。2つ目は、ニューラルネットワークは与えられたすべての計算力を吸収できるということです。
ここに面白い事実があります。過去6年間で、最大のニューラルネットワーク実験で使用された計算量は30万倍に増加しました。6年間で30万倍です。これはムーアの法則で慣れ親しんでいるよりもはるかに速いペースです。主に並列化によって推進されてきました。
もう一つの興味深い次元は、ニューラルネットワークアルゴリズムがこのすべての計算力を消費できたということです。これが、私たちがこれほどの性能向上を見た理由です。私たちのアルゴリズムはほとんど変わっていません。単に大規模に適用する技術を開発し、何ができるかを実現しただけです。
これもまた非常に注目に値すると思います。これらのすべての進歩を成し遂げる中で、私たちのアルゴリズムはほとんど変化していません。単に、アルゴリズムの新しい特性を発見しているだけです。では、私たちのアルゴリズムにはまだ発見されていない他のどのような隠れた特性があるのでしょうか？誰にもわかりません。しかし、私は、私たちがまだそのすべての秘密を明らかにしていないと信じています。
次に、5年間で30万倍の増加が何を意味するのかをより視覚的に理解していただくために、小さなアニメーションをお見せしたいと思います。このアニメーションは、宇宙の規模を伝えようとするアニメーションに似ています。人を示し、そこからズームアウトして通りを示し、都市を示し、地球を示し、さらにズームアウトして月を示し、太陽系を示し、銀河を示すようなものです。そういったものを見たことがあるでしょう。
私たちは、これと同様のビデオを計算力について作成しました。お見せしますが、まず注目すべき点を説明させてください。これがアニメーションになります。ここにこれらの列があります。これらは計算力を示しています。さまざまな結果に必要だった計算力を示しています。3列目だけが最後まで行かないことがわかります。他のすべての列は、最初はスライドの規模をはるかに超えています。これからズームアウトしていきます。
ここでは、90年代の古典的なニューラルネット結果に必要だった計算量を示しています。そして、ここでは過去6年間の重要な結果のサブセットをすべて示しています。再生ボタンを押して、ズームアウトのプロセスを開始します。ただ見て、計算力の増加を体験してください。対数スケールで示すと、同じように感じられないので、このようにしてみましょう。
さて、古い結果は消えてしまいました。もう見えませんね。ここに軸があります。軸がどのようにズームアウトしているかがわかります。DQN、Atariを遊ぶニューラルネットはかなり小さかったので、多くの計算力を必要としませんでした。ニューラルネットが小さかったので、もう見えなくなりました。
続けましょう。Dropoutの論文です。これはAlexNetが消えているところです。これはsequence-to-sequenceモデルです。見えますか？はい、見えますね。Deep Speech、ResNet、Neural Architecture Search、そのうち見えるようになりますが、ただ感じてください。どれだけズームアウトしたか見てください。
これは対人DOTA TIです。これはニューラル機械翻訳です。まだ続いています。これはDOTA 5v5 TIです。実際、この列は古くなっています。現在ははるかに大きくなっています。まだ計算していません。AlphaGo、AlphaZero、AlphaGo Zeroです。
これで、過去6年間に起こっていた非常に隠れたトレンドの視覚的な感覚が得られたと思います。その目に見える現れが、お見せした結果だったのです。私には本当に信じられないほど素晴らしいことだと思えます。どれだけの計算力があっても、より大きなニューラルネットをより多くのデータで訓練すれば、より良いパフォーマンスが得られるのです。私にはこれが信じられません。
もう一つ、完全に注目に値することは、ニューラルネットに必要な種類の計算が構築可能だということです。だからこそ、私たちはこの進歩を目にしているのです。単にニューラルネットワークだからです。名前にNetwork（ネットワーク）とありますね。コンピューターのネットワークなので、ネットワークが大きければ、より多くのコンピューターを持つことになります。私はこれが非常に刺激的で注目に値すると思います。
もちろん、いくつかの疑問や結論があります。何を結論づけたいのでしょうか？AIには非常に困難な課題が残っているのは明らかで疑う余地がありません。教師なし学習、堅牢な分類、推論、抽象化、そして私たちがまだ知らない他のことなど、今日では乗り越えられないように見える概念的な限界が本当にあります。過去に乗り越えられないように見えた概念的な限界があったのと同じように。
しかし、私たちはまた、非常に急速な進歩という奇妙なトレンドも目にしてきました。計算力の急速な進歩、結果の急速な進歩を見てきました。そこで疑問が生じます。このトレンドは続くのでしょうか？どれくらいの期間続くのでしょうか？減速するのでしょうか、それとも減速しないのでしょうか？そして、どこで止まるのでしょうか？AGIに到達するのでしょうか？あなたはどこに賭けますか？
これが私の言いたかったすべてです。高度に不確実ではありますが、近い将来のAGIは本当に真剣な可能性として考慮すべきです。つまり、利益だけでなく、そのような技術がもたらすリスクについても考える必要があるということです。創造者が誤って指定した目標を追求する非常に強力なシステム、悪意のある人間に悪用される非常に強力なシステム、そして人間の生活の質を実際には向上させることなく非常に急速に成長する経済。これが私の言いたかったすべてです。ご清聴ありがとうございました。」
[拍手]
質疑応答の時間があります。会場の皆様からの質問を受け付けます。マイクを持ってくるボランティアがいます。
質問者: イリヤさん、非常に刺激的な内容をありがとうございます。AGIが近い将来可能だとおっしゃいましたね。さて、シミュレーションデータにアクセスできず、物理的な世界からトレーニングデータを取得するのが高コストで困難な場合、シミュレーションにアクセスできないような空間モデルに好奇心モデルをどのように適用しますか？ほとんどの問題では、データを取得する必要がありますが。
イリヤ: はい、これは非常に良い質問です。このプレゼンテーションではあまり触れませんでしたが、非常にエキサイティングで急速な進歩を遂げている分野の一つが教師なし学習です。今年は言語における教師なし学習の年です。自然言語テキストで単に言語モデルを訓練し、その後異なるタスクにファインチューニングすると、驚くほど良い結果が得られることを示す一連の結果がありました。
6月にブログ記事を投稿し、1つのシステム、1つの言語モデルを異なるタスクにファインチューニングすると、以前のすべてのシステムよりも大幅に良いパフォーマンスが得られることを示しました。そして数ヶ月後、GoogleがBERTモデルの研究でそれをスケールアップし、コスト関数を少し変更して、さらに良い結果を得ました。
基本的に、今では自然言語処理を行いたい場合、教師なし学習を使用しなければなりません。教師なし学習には、この質問に対する答えになる可能性があります。教師なしデータは安価で、モデルは大きくなっているので、このすべてのデータを吸収することができます。私は、物事がこの方向に向かうと思います。
質問者: 簡単な質問があります。分類では常にトップ5を見ていますが、トップ1はそれほど良くありません。これまでのところ82%、83%の精度で、ここ数年あまり改善されていません。トップ1でより高い精度を出す分類ネットワークがあるかどうか知りたいのですが。トップ5は指標ですが、トップ1が本当のものだと思います。
イリヤ: トップ1の質問は非常に良いですね。一つの問題は、すべてのデータセットには到達不可能なエラー率があることです。これは例えば、ラベルの曖昧さの関数です。私が思うに、最善の方法は人間のパネルに各画像を分類してもらい、それによってデータセットで達成可能な最高の精度を知ることです。
おそらく、ImageNetのトップ1で達成可能な最高の精度は、私の推測では7%か、もしかしたら10%くらいかもしれません。ただし、これは確実ではないので、引用しないでください。このような予測は後で恥ずかしい思いをする可能性が非常に高いです。
また、トップ1は現在85%になっていると思います。
質問者: はい、Inception V4で82-83%を見たことがあります。
イリヤ: そうですね。私も最近あまり詳しくフォローしていませんが、84%のトップ1が直感的にどういう意味を持つのか、どのような種類の間違いがあるのか、そして達成可能な最高精度にどれくらい近いのか、良く分かりません。
質問者: もう一つ質問があります。物体検出の精度は分類ネットワークよりも低いですね。80%にも達していないと思います。これらは実際のアプリケーションの例です。
イリヤ: はい、それは非常に良い指摘です。私は、NLPで役立っているのと同じ種類の教師なし学習が、近い将来、視覚にも役立つと予想しています。そして、これが大きな改善をもたらすと期待していますが、そのために必要となるモデルははるかに大きくなるでしょう。
質問者: イリヤさん、講演ありがとうございます。非常に刺激的でした。私はJPモルガンの者です。金融でAIに取り組んでいます。金融は長期的、短期的な意思決定に関するものですが、金融での強化学習の使用について、あなたの考えを共有していただけますか？
イリヤ: はい、まず最初に言っておきますが、私は金融の専門家ではありません。この分野での経験は全くありません。推測ですが、何かを買うか売るか、あるいは何らかの決定を承認したい場合、その決定の結果をできるだけ正確に予測できるようにしたいでしょう。
すでに多くの決定を下しているシステムがある場合、潜在的に非常に大きなニューラルネットを訓練して、それらの決定の結果を予測しようとすることができます。トレーディングのようなものであれば、かなりうまくいくと思います。融資の承認のような場合は、バイアスのような問題に注意する必要がありますが、一般的に、私の意見では、金融で大規模なニューラルネットを適用できる場所は非常に多くあるはずで、それによって非常に良い結果が得られるはずです。

イリヤ・サツケヴァー | AGIは莫大な価値を生み出す | AGIは将来、人類がより広い宇宙を探索するのを助ける

いいなと思ったら応援しよう！