見出し画像

Ilya Sutskever | AIが社会進歩をもたらし、特定のものを置き換える | AIは新たな段階に入った

私は両方だと思います。AIの進歩の基礎にあるのは、少なくともディープラーニングの分野、そしておそらくそれ以上に、ニューラルネットワークの汎化能力であることは疑う余地がありません。汎化は技術的な用語で、過去の経験にはない状況で正しく理解したり、適切な行動をとったりする能力を意味します。システムの汎化能力が高ければ、同じデータからより広範な状況で適切な行動をとったり、正しく状況を理解したりできます。
例えを挙げましょう。大学で試験勉強をしている学生がいるとします。その学生は「これは私にとって非常に重要な試験だ。教科書のすべての問題を暗記して、確実に解けるようにしよう」と考えるかもしれません。そのような学生は非常によく準備ができ、試験で非常に高い点数を取ることができるでしょう。
一方で、別の学生がこう考えるかもしれません。「教科書のすべての問題を解く必要はない。基本をしっかり理解していれば大丈夫だ。最初の20ページを読んで基本を理解したと感じれば十分だ」と。もしこの2番目の学生も試験で高得点を取れたとしたら、その学生は1番目の学生よりも難しいことをやり遂げたことになります。2番目の学生はより高度な汎化能力を示したのです。問題は同じでも、2番目の学生にとっては状況がより不慣れだったにもかかわらず、高得点を取ることができたのです。
私たちのニューラルネットワークは1番目の学生によく似ています。コンピューターとしては信じられないほどの汎化能力を持っていますが、まだ改善の余地があります。汎化能力がまだ完璧ではなく、人間のレベルには達していないため、非常に大量のデータで訓練することで補っています。これがデータの重要性につながります。汎化能力が高ければ高いほど、必要なデータ量は少なくなり、同じデータ量でもより遠くまで到達できます。
おそらく、ニューラルネットワークの汎化能力を大幅に向上させる方法を見つけ出せば、データが少ない小さな領域でも問題なくなるでしょう。ニューラルネットワークは「大丈夫、限られたデータ量でも十分に理解できる」と言えるようになるかもしれません。しかし、現時点では大量のデータが必要です。
特にクリエイティブな応用に関しては、ニューラルネットワークに特に適している面があります。それは、生成モデルが機械学習において非常に中心的な役割を果たしているからです。生成モデルの性質は、ある意味でアーティスティックなプロセスに似ています。完璧ではありませんし、すべてを捉えているわけではありません。また、私たちのモデルにはまだできない種類のアートもあります。しかし、アートの生成的な側面と、生成モデルが新しい妥当なデータを生成する能力との類似性が、生成アートの分野で大きな進歩が見られているもう一つの理由だと思います。
本当に面白いことですね。最初に言及したことの一種の影のようなものです。つまり、ニューラルネットワークを最初に避けていた理由の一つは、説明が非常に難しいということでした。定理を証明できず、説明できないことをするという側面が、説明が難しいクリエイティブな追求により適しているのかもしれません。
そうですね、それも十分にあり得ると思います。
そうですね、OpenAIの最近の進歩の一つにCLIPとDALLEがありますね。どちらもテキストから画像への、あるいはその逆の変換という、モダリティ間の移動ができるという非常に興味深い例です。CLIPとDALLEの意義について、あなたはどのように考えていますか?この研究はどのような方向に進むと思いますか?また、何に興奮していますか?
はい、文脈を説明しますと、CLIPとDALLEはテキストと画像を関連付けることを学習するニューラルネットワークです。DALLEは生成の方向でテキストと画像を関連付け、CLIPは知覚の方向、つまり画像からテキストへの方向で関連付けを行います。どちらも非常にクールなのは、シンプルだからです。同じ古い手法を使って、よく理解しているニューラルネットワークを大量のテキストと画像のペアで訓練し、何が起こるかを見てみるだけです。そして、非常に良い結果が得られたのです。
CLIPとDALLEの本当の動機は、2つのモダリティを組み合わせる方法を探ることでした。将来的に私たちが望むであろうことの一つは、AIがテキストだけのAIではないということだと思います。そうすることもできますが、それは機会を逃すことになるでしょう。視覚の世界では多くのことが起こっており、ニューラルネットが視覚の世界を本当に理解することが難しくないのであれば、なぜそうしないのでしょうか。
そして、テキストの世界と視覚の世界をつなぐことで、テキストをより良く理解できるようになることを期待しています。画像でも訓練されることで、テキストの理解が私たちのものにより近くなるかもしれません。人間が学ぶことと人工ニューラルネットワークが学ぶことには違いがあるかもしれません。人間は見たり歩き回ったりと、さまざまなことをしますが、テキストだけのニューラルネットワークはテキストだけで訓練されます。そのため、何かが欠けているのかもしれません。訓練データを人間のものにより近づければ、人間により近いものを学習できるかもしれません。
これらがこれらのモデルを研究する動機の一部でした。また、非常にうまく機能することを見るのも楽しかったです。特に最近では、CLIPがかなりの人気を集めています。人々はそれを反転させて高解像度の画像を生成する方法を見つけ出し、多くの楽しみ方を発見しています。実際、それは私にとって過去数ヶ月で感情的に最も満足のいくアプリケーションだと思います。
そうですね、あなたが言及した興味深い点の一つは、人間のように実際に経験をするAI、つまり「体現されたAI」という概念です。マルチモーダル学習のようなアプローチでその方向に進めば、面白い振る舞いが得られるかもしれません。
もう一つ触れたいのは、あなたが非常に深遠なことを言及したと思うのですが、それはアルゴリズムの使用が非常にシンプルだということです。この場合、データセットを作成し、適切なデータを得ることが、私の見方では、多くの信じられない結果を可能にしたのです。あなたはこのことをどのように考え、将来の類似した研究分野をどのように定義すると思いますか?
それは確かに真実の声明です。ディープラーニングの分野、特に学術分野(応用分野ではそれほどではありませんが)は、データの重要性を過小評価してきました。これは、データがベンチマークの形で与えられ、目標は他の既存の手法よりも優れた手法を作ることだという考え方のためです。この枠組みでは、どの手法がより優れているかを比較するために、固定されたデータセットが重要でした。
これは本当に盲点につながり、多くの研究者がモデルをもっと改善できるかという非常に難しい分野に一生懸命取り組む一方で、単に「もっとデータを入手しよう」と言うことで可能な非常に大きな改善を見逃していたのです。現時点では、人々はデータの重要性をもっと理解しています。そして今では、大量のデータがある領域では大きな進歩が見られることが証明されていると思います。
概念的に、今後数年間で、AIで見られるクールな進歩の多くは、データ側でのイノベーションから来るのか、それともアルゴリズム側からのイノベーションから来るのか、どちらだと思いますか?
私はその区別をしたくありません。その区別は一部の目的には有用かもしれませんが...しかし、その区別に沿って考えてみましょう。両方が重要になると思います。方法論的な改善から非常に大きな進歩が可能だと強く信じています。私たちはまだコンピューティングリソースを最大限に効率的に使用しているわけではありません。多くのコンピューティングリソースがあり、それをある程度利用する方法を知っています。これは以前と比べると既に大きな成果です。
歴史的な類推を挙げると、10年ほど前には、大量のコンピューティングリソースを生産的に利用する唯一の方法は、MapReduceのような恥ずかしいほど並列な計算でした。それが文字通り唯一のアイデアでした。大量のコンピューティングリソースを使用する興味深い方法はありませんでした。
現在、ディープラーニングを使えば、そのような方法があります。コンピューターは少し相互接続される必要がありますが、大量のコンピューティングリソースを持ち、それを有効に利用することが可能です。しかし、私たちはまだこのコンピューティングリソースを利用するための最良の公式を見つけていないと思います。より良い公式があり、同じ量のコンピューティングリソースでもっと遠くまで行けると信じています。
しかし、同時に、データからも多くの進歩が起こると非常に確信しています。私はデータの大きな信奉者です。新しいデータソースを見つけたり、さまざまな方法でフィルタリングしたり、機械学習を適用してデータを改善したりするなど、多くの異なることができると思います。これらすべてが組み合わさると、互いに相乗効果を生み、最大の進歩につながると予想しています。
はい、コンピューティングリソースの質問に戻りますが、あなたはある程度答えてくれました。より効率的なアルゴリズムを持つことになるだろうと。しかし、以前言及した「極限までスケールする」という概念を考えると、つまり、すべてを極限までスケールすれば素晴らしいパフォーマンスが得られるという考えですが、ある時点で、実用的に実現可能なレベルをはるかに超える巨大なスーパーコンピューターを構築することになります。
この分野として、コンピューティングリソースの使用方法を大幅に改善することで、この問題を回避できると思いますか?それとも、スケーリング法則を考える際に考慮すべき、コンピューティングリソースの根本的な限界があると思いますか?
おそらく、コンピューティングリソースを使用する究極の方法は存在するでしょう。しかし、私たちはまだそれを見つけていないと思います。方法の効率性、コンピューティングリソースから得られる有用性、汎化の程度を改善する余地がまだたくさんあると思います。まだ探求していない機会がたくさんあります。
また、あなたの言うとおり、構築できるコンピューターのサイズには物理的な限界と経済的な限界があるでしょう。進歩は、これらすべての軸を押し進めることで構成されると思います。
もう一つ言及したいのは、より良い方法を見つけるための大きなインセンティブがあるということです。同じニューラルネットを半分のコンピューティングリソースで訓練できる方法を見つけられたら、それは大きな成果です。コンピューティングリソースの規模を倍にするようなものです。そのため、この分野の研究はますます増えていくでしょう。時間がかかるかもしれませんが、必ず成功すると信じています。ニューラルネットの訓練方法や設定方法について、現在よりもはるかに効率的で強力な方法を見つけ出すでしょう。そして、もちろん、それらの改善された方法に、それにふさわしいすべてのコンピューティングリソースとデータを与えたいと思います。
全くそのとおりです。アルゴリズムの微調整の結果は非常に興奮させられますね。望む方法でアルゴリズムを動作させるための自由度がより多くあることを意味しているからです。
その通りです。これは、モデルがより優れているほど顕著になります。これは直感に反することかもしれません。言語モデルが弱ければ弱いほど、つまりあなたの言語モデルの性能が低いほど、制御するのが難しくなります。一方で、モデルが大きくて優れているほど、微調整が速くなり、特定の種類の振る舞いを指定するプロンプトにより敏感に反応するようになります。
ある意味で、あなたが先ほど議論したこの種の問題は、モデルがより強力で正確になるにつれて、より簡単になっていくと予想しています。
そうですね、私たちは非常に興味深いトピックをいくつか取り上げてきました。ここで少し視点を広げてみましょう。この会話の冒頭で、最初にニューラルネットワークの研究を始めたとき、楽観的な見方では「この分野がニューラルネットワークに注目するだろう」というものでした。そして今では、AIに似たものが実現できると信じているわけです。
ここ数年を見ると、AIによる新しいブレークスルーや非常に興味深い発見が次々と起こる、信じられないような時期だったと思います。もう少し長い時間軸で見たとき、すぐそこまで来ているAIの進歩、そして世界の運営方法に非常に大きな影響を与えると思われる進歩は何だと考えますか?
すぐそこまで来ている進歩については、過去数年間に見てきた種類の日常的な進歩、いわば平凡な進歩が続くと思います。言語モデル、視覚モデル、画像生成、コードの生成、テキスト音声変換、音声テキスト変換など、これらすべてが全般的に改善されていくと予想しています。そして、それらすべてが影響力を持つでしょう。
特にこれらの生成モデルについては、より優れたコードモデルやより優れた言語モデルがあれば、どのようなアプリケーションが可能になるかを推論するのは少し難しくなります。なぜなら、単に一つのことがより良くなるだけでなく、質的に新しい能力が開発され、質的に新しいアプリケーションが解禁されるからです。そして、それらは非常に多くなると思います。
ディープラーニングは成長し続け、拡大し続けると思います。より多くのディープラーニングデータセンターができ、あらゆる種類のタスクで訓練された興味深いニューラルネットワークが多く登場すると思います。
医療や生物学の分野も非常に興奮させられると思います。今、生物学の分野ではデータ取得能力に関して革命が起きていると聞いています。私は専門家ではありませんが、少なくとも間違いではないと思います。そこでニューラルネットワークを訓練するのは非常に素晴らしいことになるでしょう。どのようなブレークスルーが医療分野で起こるか、見るのが楽しみです。あ、AlphaFoldもその一例だと思います。進歩は驚くべきものになると思います。
最後に、今日は素晴らしいAIコミュニティが私たちと共にいて、AIが肯定的な未来を持つこと、私たちが肯定的なAIの未来を持つことをどのように確保できるかを理解することに非常に興奮していると思います。この会話から皆さんが持ち帰り、AIの肯定的な未来を確保するために取り組めることは何だと思いますか?
考えるべき価値のあることは多々ありますが、最も重要なのは、AIが非常に強力な技術であり、様々な応用が可能であることを心に留めておくことだと思います。興奮させられる応用、実際の問題を解決する応用、人々の生活を改善するような種類の応用に可能な限り取り組むことです。
また、技術に存在する問題に対処しようとする方法にも取り組むことです。それは、バイアスや望ましくない出力に関する問題、そしてアラインメントに関する他の問題、さらにはこの会話で議論していない問題かもしれません。
つまり、この2つのことです。有用なアプリケーションに取り組むこと、そして可能な限り、実際の害を減らすことに取り組み、アラインメントに取り組むことです。
素晴らしい、本当にありがとうございます。OpenAIと組織に対して、過去何年にもわたるAI分野への信じられないほどの貢献に感謝しないわけにはいきません。そして、再度、私たちと座って話をしてくれてありがとうございます。
ありがとうございます。会話を楽しみました。

いいなと思ったら応援しよう!