見出し画像

イリヤ・サツケヴァー | AIは自ら考える人間の脳を持つだろう | AIセキュリティは真剣に受け止められるべきだ

「私は、AIに関して何が行われてきたかを調べていた頃、かなり早い段階で、学習というものが知能にとって非常に重要であり、かつ我々が全く方法を知らなかったことに気づくという幸運に恵まれたと思います。家族がカナダに移住した時、私が最初にしたことは、トロント公共図書館に行って機械学習の本を探すことでした。」
「素晴らしいですね。その時おいくつでしたか?」
「16歳でした。」
「16歳ですか。」
「はい。そして、トロント大学に入学した時、機械学習の教授を探し、ジェフ・ヒントンに出会いました。そこでニューラルネットワークを発見し、ニューラルネットワークは正しいものだと感じました。なぜなら、それはコードを書く全く異なる方法だったからです。通常、コードを書くときは考えを巡らせて理解できますが、ニューラルネットワークは複雑な方程式をループ内に書き、そのループを実行します。私はそれが正確に何をするのか把握するのに苦労しました。これはニューラルネットが解釈不可能であることにつながりますが、ニューラルネットワークの理解の難しさは欠点ではなく特徴だと主張することもできます。我々は知能を構築したいのです。知能は単純に理解できるものではありません。我々は自分たちの認知機能、見る方法、聞く方法、言語を理解する方法を説明することはできません。したがって、コンピュータが同様に理解困難な、不可能ではないにしても同様に難しいオブジェクトを生成できるなら、我々は正しい道を歩んでいるということになります。これらのことすべてが、かなり早い段階でニューラルネットワークに収束するのに役立ちました。」
「ニューラルネットワークに興奮し、確信を持ち始めたのは何年頃だったか覚えていますか?」
「2000年代初頭です。2003年にジェフ・ヒントンの下で働き始めました。」
「そうですか。かなり昔のことですね。明らかに、この熱狂は2010年頃から始まったので、長い期間...」
「はい、これは共通のテーマだと思います。非常に大きくなるような分野で働く人を見ると、砂漠をさまよう長い期間があるというのが一つの表現かもしれません。」
「確かに、多くの忍耐力が必要です。砂漠にどれだけ長く留まるべきか分からないからです。ただ耐え抜くしかありません。」
「そうですね。それは非常に役立ちます。2003年や2000年代初頭に、今日AIや機械学習で見られるような驚くべきことが、あなたの生涯に起こると予想していましたか?」
「希望はありましたが、当時は予想していませんでした。当時、AI分野は間違った道を歩んでいました。ニューラルネットワークを拒絶する考え方でした。その理由は、ニューラルネットワークは数学的に推論するのが難しい一方で、他のものについては定理を証明できるからです。定理を証明することには非常に魅力的で危険な面があります。なぜなら、それはあなたのスキルを披露する方法ですが、必ずしも分野の進歩に沿っているわけではありません。しかし、ニューラルネットワークがこれほど成功しているのは、まさに数学的に推論するのが難しいからだと思います。いずれにせよ、私の初期の希望は単にニューラルネットワークが機能するということを分野に納得させることでした。他のものではなく、ニューラルネットワークに取り組むべきだと。」
「しかし、コンピュータが高速になり始めると、その可能性に対する興奮のレベルも上がりました。」
「そうですね。今日の抱負はどのようなものですか?あなたの生涯で何を...OpenAIのミッション声明から明らかだと思いますが。」
「その通りです。今や希望はより大きくなっています。本当に強力で有用なAIだけでなく、実際にAGI(汎用人工知能)を構築し、それを有用で有益なものにし、多くの問題を解決し、素晴らしいアプリケーションを作るのに使われるようにすることができると思います。それが私が見たいと希望していることです。」
「そうですね。明らかに、あなたはその道のりで多くの研究を行い、Googleで多くの画期的な仕事をしていました。そして、サム・アルトマンやグレッグ・ブロックマン、他の多くの人々とOpenAIを立ち上げました。OpenAIを立ち上げた当初の目標は何だったのでしょうか?最初の構想や最初のビジョンは何で、何を達成しようとしていたのでしょうか?」
「OpenAIを立ち上げた動機は複数ありました。まず、AIで最も進歩を遂げる方法は、科学と工学を一つの全体、一つの単位に融合させることだと感じていました。科学と工学の区別をできるだけなくし、すべての科学に工学的規律と慎重な実行が注入され、すべての工学に科学的アイデアが注入されるようにすることです。その理由は、分野が成熟しつつあり、大規模な工学的スキルと努力なしに小規模な試行錯誤をするだけでは、何かを本当に機能させるのが難しくなっているからです。これが一つの動機でした。このような原則で運営される会社を持ちたいと本当に思いました。
もう一つの動機は、AIテクノロジーをより冷静に見るようになったことです。以前は、AIは単にこの無限の善だと考えていましたが、今はより複雑な見方をしています。本当に信じられないほど素晴らしいアプリケーションがたくさんあり、私たちの生活を劇的に改善すると思います。しかし、AIの誤用やその特殊な性質によって引き起こされる問題もたくさんあると思います。人々が理解するのが難しいかもしれない問題です。私は、この認識を持って運営される会社を望んでいました。技術を進歩させるだけでなく、それを安全にするためにも取り組み、また、合理的で妥当な範囲で政策面にも取り組むことで、これらの課題に対処しようとする会社を望んでいました。全体をできるだけ有用で有益なものにするためです。」
「全くその通りですね。私たちも同意見です。私にとって非常に明らかなのは、AIは今後数十年の世界の行方を決定するものだということです。どの国がAI技術にアクセスでき、それをどのように使うかが重要です。これが世界が向かっている道筋だと思います。」
「その通りです。他にもたくさんのことがありますが。」
「そうですね。あなたが最初に言及したこと、科学と工学を融合させるということは、いくつかの理由で非常に深遠だと思います。一つは、最も信じられないほど革新的なものは、しばしば分野の境界線をぼかすことから生まれるからです。アップルはその最良の例の一つで、最初から「ハードウェアとソフトウェアを融合させている、それが我々の特別なソースだ」と言っていました。明らかに、それは信じられないほどのものを生み出しました。他の多くの研究所は、科学者がエンジニアに何をすべきか指示するという非常に...というマインドセットで運営されていますが、これは逆効果です。なぜなら、技術の限界を理解するには、両方をよく理解する必要があるからです。」
「その通りです。そのポイントについて言えば、科学と工学が一緒にあるべきだというのは明白ではないでしょうか?ある意味ではそうですが、歴史的にそうではありませんでした。経験的に、過去には(今ほどではありませんが)、研究に惹かれる人々は、エンジニアリングにはあまり惹かれないような特定の好みを持っていました。その逆もまた然りです。今では、良い科学をするにはよいエンジニアリングが必要だという現実を人々が目の当たりにしているので、これらの両方の軸で強い人々がますます増えています。」
「全くその通りですね。話題を少し変えて、GPTモデルについて話しましょう。これは素晴らしい例だと思います。GPTモデルは信じられないほどのエンジニアリングなしには不可能です。非常に...しかし、それでも新しい研究、新しい科学を必要としました。これらは明らかに、AIの分野で最近の最大のブレークスルーの一つであり、AIが成し遂げられることについて多くの人々の想像力を開いた、少なくともAIが信じられないほどのことを成し遂げられるという人々の確信を高めました。OpenAIで、これらの言語モデルに取り組み始めた当初、元々の研究のインスピレーションは何だったのでしょうか?また、これは取り組む価値があるもの、スケールアップする価値があるもの、継続して取り組む価値があるものだと言わせたオリジナルの...何だったのでしょうか?」
「言語モデルに収束させた思考の流れはいくつかありました。比較的早い段階で信じていたアイデアの一つは、理解を予測とリンクできるということです。特に、モデルに与えるどんなデータの予測ともリンクできるということです。そのアイデアは、本当に良い推測ができれば - 完璧にはできませんが、それは不可能です - しかし本当に良い推測ができれば、意味のある程度の理解が必要だということです。
例を挙げて説明しましょう。結論から先に言うと、次に来るものについて本当に良い推測ができるなら - 完璧にはできません、それは不可能ですが - 意味のある程度の理解が必要だということです。本の例を挙げましょう。ミステリー小説を読んでいて、最後の章ですべてのピースが一つになり、重要な文があるとします。最初の単語、二番目の単語を読み始めると、「ああ、誰かの正体が明かされるんだな」と思い、あなたの心は「この人かあの人のどちらかだ」と絞り込んでいきます。どちらかはわかりません。本をよく読んで慎重に考えた人なら、「おそらくこの人だと思う。あの人かもしれないけど、おそらくこの人だ」と言うかもしれません。
この例が示すのは、本当に良い予測は理解とつながっているということです。この種の思考が、あらゆる種類のアプローチを試すことにつながりました。「物事を本当によく予測できるだろうか?次の単語を予測できるだろうか?次のピクセルを予測できるだろうか?」そしてそれらの特性を研究しました。この一連の作業を通じて、GPT以前、Transformer以前の作業にたどり着きました。センチメントニューロンと呼ぶものを作りました。これは、Amazonの製品レビューの次の文字を予測しようとする小さなニューラルネットでした。4年ほど前なので小さなニューラルネットでしたが、原理を証明しました。次の文字を十分によく予測すれば、最終的にテキストの意味的特性を発見し始めるということです。
そしてGPTでは、さらに進めました。「よし、Transformerがあるので、それはより良いアーキテクチャだ。だから、より強い効果がある」と言いました。そして後に、「大きくすればより良くなる」という認識がありました。「だから、大きくしてより良くしよう」と。」
「あなたが今言及したことには、多くの素晴らしい要点がありますね。一つは、このコンセプトの優雅さです。「次の何かを予測するのが本当に上手くなれば、予測が本当に上手くなれば、他のすべてのことも上手くなる必要がある」というものです。それが本当に上手くできれば...そして、それはおそらく過小評価されているかもしれません。どれほどのビジョンが必要だったかということです。なぜなら、初期の段階では、物事を予測するのが本当に上手くなろうとして、センチメントニューロンを得ました。それはクールですが、大規模言語モデルで明らかに見てきたものに比べれば、ほんの点に過ぎません。これは重要だと思います。
もう一つ重要な点は、あなたが最後に言及したことです。それはスケールアップすることです。あなたたちは、コンピュート、データ、モデルサイズを互いに連携してスケールアップしたときに発見したスケーリング法則についての論文を発表しましたね。私は少し興味があります...明らかに、物事をスケールアップすることは良いという直感があり、素晴らしい振る舞いが見られます。今から数年後、あるいは数十年後を考えたとき、スケールアップとは何を意味するのでしょうか?なぜそれが素晴らしい結果をもたらし続けると考えられるのでしょうか?そして、もしあるとすれば、限界は何だと思いますか?」
「二つの声明が同時に真実だと思います。一方では、我々のモデルはかなり大きくなっています。さらにスケールアップし続けることができるでしょうか?スケールアップするためのより多くのデータを見つけ続けることができるでしょうか?データの問題について少し時間を割きたいと思います。なぜなら、それは全く自明ではないからです。
伝統的に、機械学習分野のルーツ、基本的に学術的で新しい方法の発見に関心があり、非常に大きく強力なシステムの開発にはあまり関心がなかったため、マインドセットは次のようでした:誰かが固定されたベンチマーク、つまり特定の形状や特性を持つデータセットを作成し、そして異なる人々がこのデータセットで自分たちの方法を比較できるというものでした。しかし、これは誰もが固定されたデータセットで作業することを強制します。
GPTが特に示したのは、スケーリングにはコンピュートとデータを同時に増やす必要があるということです。これを行えば、より良い結果が得られ続けます。言語のような一部の領域では、かなりの量のデータが利用可能です。他のより専門的なサブドメインでは、データ量ははるかに少ないかもしれません。例えば、自動化された弁護士を持ちたい場合、大規模言語モデルは言語についてかなりの知識を持ち、多くのトピックについて非常に知的に会話できるでしょう。しかし、弁護士としては望むほど優れていないかもしれません。かなり強力ですが、十分に優れているでしょうか?これは未知です。なぜなら、そこでのデータ量は少ないからです。
しかし、データが豊富な場合はいつでも、魔法のディープラーニング公式を適用し、ますます優れた、ますます強力なモデルを生成することが可能です。
スケーリングの限界に関しては、過去10年間のディープラーニングの歴史で注目すべき点は、毎年人々が「良い成果を上げたが、今や限界に達した」と言っていたことです。これは年々繰り返されました。だから、私たちはある時点で絶対に限界に達するかもしれませんが、ディープラーニングに賭けないのは賢明ではないと思います。」
「ここでいくつかの点を掘り下げたいと思います。非常に興味深いからです。一つは、あなたが確かにこの心的モデルを持っていることです。それはかなり良いと思います。ムーアの法則は、私たちが行うすべてのことにとって信じられないほどの加速剤だということです。ムーアの法則が機械学習のライフサイクルに入る異なる入力のためにあればあるほど、これらすべてのものを最大限に押し上げ、信じられないほどのパフォーマンスを見ることになるでしょう。これは重要だと思います。なぜなら、データポイントについて言及したように、コンピュートの効率が上がり、データの生成や発見、生成の効率が上がり、明らかにアルゴリズムの効率が上がれば、次の信じられないようなことを可能にし、その次の信じられないようなことを可能にし続けるからです。
まず、私はこれについて少し話したことがあるので、あなたがこれに同意することは知っていますが、この論理に欠陥はあるでしょうか?今後数年間で全てがスケールアップしていくことについて、何か心配なことはありますか?」
「今後数年間の継続的な進歩については、あまり心配していません。より速いコンピュータを持ち、より多くのデータを見つけ、より良いモデルを訓練することができると思います。そこには特別なリスクは見ていません。前進するにつれて、データが少ない場合に何をするかについてより創造的になる必要があります。同じコンピュートを使って、そのデータの不足を何らかの方法で知的に補償できるでしょうか?これらは、私たちと分野が取り組む必要がある問題だと思います。」
「そうですね。データに関するポイントについて触れたいと思います。これは明らかにスケールで私たちが焦点を当てていることであり、大規模言語モデルは幸いにもインターネットを活用できるため、すべてのこのデータが存在し、蓄積されてきたことを示すことができます。しかし、新しい領域では、大量のデータを生成する効率的な方法が必要です。人間の努力の一滴一滴が可能な限り多くのデータを生成するようにするにはどうすればよいかという全体的な問題があると思います。
これは私たちが情熱を持っていることで、少し話したように、データのためのムーアの法則をどのように実現するか、つまり人間の努力からより多くの効率を得るにはどうすればよいかということです。これには新しいパラダイムが必要かもしれませんが、例えば、あなたが言及した弁護士の例では必要だと思います。弁護士の数は限られているので、その弁護士たちから十分なデータを生成して素晴らしい法律AIを作るにはどうすればよいでしょうか?」
「私たちが持っている選択肢は、同じデータでより多くのことを行う、あるいは少ないデータで同じことを行うように方法を改善するか、または言ったように、教師の効率を何らかの方法で向上させることです。進歩を最大限にするには、両方が必要になると思います。」
「そうですね。ムーアの法則は非常に示唆的だと思います。これらのチップのパフォーマンスを向上させるために、人々はあらゆる種類のランダムな工夫を試みます。そして最終的な出力は、より多くのトランジスタを持つチップです。これについて考えると、特定量のデータや特定量の教育でより良いパフォーマンスを発揮するモデルを持つにはどうすればよいでしょうか?それをどのように向上させることができるでしょうか?」
「それを行う方法はあると確信しています。例えば、人間の教師に最も難しいケースでのみ助けを求めれば、より速く進むことができるでしょう。
話題を変えて、大規模言語モデルの取り組みから派生した特に興奮するものの一つ、特に私のようなエンジニアにとって、おそらくコーディングに多くの時間を費やす多くの人々にとって興奮するものについて話したいと思います。それはCodexです。自然言語からコードへの変換、そしてプログラムと非常に新しい方法で対話する能力を示しました。これについて、あなたは何に興奮していますか?Codexやそれに類似したシステムが今後数年間で可能にすると思われる合理的な期待は何でしょうか?さらに遠い将来についてはどうでしょうか?そして最終的に、なぜあなたたちはこれについてそれほど興奮しているのでしょうか?」
「コンテキストのために、Codexは基本的に大規模なGPTニューラルネットワークです。テキストの次の単語を予測するのではなく、コードの次の単語、正確にはコードの次のトークンを予測するように訓練されています。それについてクールなのは、それが機能するということです。ほとんどの人にとって、ニューラルネットをそのような方法で訓練して、望むものを説明するテキストの表現を与えるだけで、ニューラルネットワークがそのテキストを処理してコードを生成し、そのコードが正しく実行されるということは自明ではありません。
これが興奮する理由はいくつかあります。まず、それは有用です。それは新しいものです。AIによってあまり触れられていなかった領域であるコードを示しています。明らかに非常に重要で、今日のAI、ディープラーニングが弱いと認識されていた側面、つまり推論や慎重に計画を立てること、曖昧でないことに触れています。実際、かなり良い仕事ができることが判明しました。
Codexと言語モデルの間の一つの類似点、一つの区別は、Codexモデル、コードモデルが実際にコンピュータを制御できるということです。コンピュータをアクチュエーターとして持っているようなものです。それによって、それらははるかに...それは大きく拡張され、はるかに有用になります。それらでできることが非常に多くなります。もちろん、私たちはそれらをさらに良くしたいと思っています。多くの異なる方法で改善できると思います。これらは予備的なコードモデルに過ぎません。
プログラマーにとってかなり有用になると期待しています。特に、ランダムなAPIを知る必要がある領域で有用でしょう。これらのニューラルネットワークは...小さな脱線ですが、GPTニューラルネットワークは人々とは少し異なる学習をします。人は often 狭い知識を深く持つ傾向がありますが、これらのニューラルネットワークは存在するすべてを知ろうとします。それを本当に試みます。したがって、その知識は百科事典的です。人ほど深くはありませんが、かなり深いです。そのため、これらのニューラルネットワークは今日の動作方法で人々を補完します。その幅広さで補完します。
あるライブラリで何かをしたいと言えるかもしれません。よく知らないライブラリかもしれません。既存のライブラリかもしれませんし、おそらくニューラルネットワークが私の同僚全員のコードを読んでいて、彼らが書いたものを知っているかもしれません。そして、使い方がわからないライブラリを使いたいと言うと、ネットワークはその使い方についてかなり良い推測をします。今日のパフォーマンスレベルでは、特にコードが重要な場合は、盲目的に信頼することはできないので、それが言ったことが正しいことを確認する必要があります。書いたコードを簡単に元に戻せる領域では、問題なく信頼できると思います。しかし、実際に本物のコードを持ちたい場合は、チェックしたいと思うでしょう。
将来的には、これらのモデルは改善し続けると予想しています。コードニューラルネットワークはどんどん良くなっていくでしょう。そして、プログラミング職の性質はこれらのモデルに応じて変化すると思います。ある意味で、ソフトウェアエンジニアリングの世界で私たちがより高レベルのプログラミング言語を使用してきた自然な継続だと思います。最初は人々はアセンブリを書き、そしてFortranを持ち、Cを持ち、今はPythonを持っています。今や素晴らしいPythonライブラリがあり、それはその上の層です。そして今、私たちはもう少し不正確になれ、もう少し野心的になれます。ニューラルネットワークが私たちのために多くの仕事をしてくれるでしょう。
同様のことがホワイトカラーの職業全般で起こると予想しています。AIの経済的影響について考えると、逆転が起きていると思います。単純なロボット工学のタスクが自動化の最初の影響を受けるだろうと考えられていましたが、代わりに、創造的なタスクが直感に反して大きな影響を受けているようです。生成的なニューラルネットワークを見ると、今や画像を生成する方法で、Twitterで驚くべき画像が生成されているのを見ることができます。クールなテキストの生成も起こっていますが、画像が最も注目を集めています。そして、コードのようなもの、多くの執筆タスクのようなもの、これらのホワイトカラーのタスクもこれらのAIによって影響を受けています。
社会は進歩が続くにつれて変化すると予想しています。経済学者やこれらの問題について考える人々が、これらのトレンドに注意深く注目することが重要だと思います。技術が改善し続けるにつれて、この技術に対応する良いアイデアが用意されるようにするためです。」
「そこにはまた、本当に興味深いポイントがいくつかありますね。一つは、Codexやそれに類似したモデルの背後にある大きなアイデアの一つは、人間の言語から機械の言語への変換ができるようになるということです。そして、あなたが言及したように、突然、機械がアクチュエーターになります。多くの人がAIについて考えるとき、スタートレックのコンピューターを思い浮かべます。コンピューターに単に尋ねれば、それが何かをしてくれるというものです。これは重要な可能性を秘めたステップです。なぜなら、突然、人間が話す方法から機械が理解できることへの変換ができれば、この重要な翻訳のステップを橋渡しすることになるからです。これは非常に興味深いと思います。
あなたが言及したこの逆転についても非常に興味深いです。なぜなら、私の信念では、一部のことが他のことよりもはるかに簡単になった理由は、すべてデータの利用可能性の産物だと思うからです。アルゴリズムに取り込むことができる大量のデジタルデータが存在する領域があり、それらはかなりうまく機能します。一方で、ロボットのタスクやテーブルセッティングなど、機械を構築するのに非常に苦労してきた領域では、基本的にデータの量によって制限されています。これまでに収集されたデータの量だけでなく、現実世界でそのデータを収集するために起こりうることの量にも制限があります。
これについてどのように考えていますか?それとも、現在のニューラルネットワークに何か本質的に適したものが創造的なタスクにあると思いますか?」
「両方だと思います。ディープラーニング、そしておそらくそれ以上のAIの進歩のすべての基礎にあるのは、ニューラルネットワークの一般化能力であることは間違いありません。一般化は技術的な用語で、過去の経験で見たことのない状況で正しく理解したり、正しい行動を取ったりすることを意味します。システムは、同じデータからより広範な状況で正しいことを行ったり、正しい状況を理解したりできれば、よりよく一般化できます。
たとえば、大学で試験の勉強をする学生がいるとします。その学生は「この試験は私にとって非常に重要だ。教科書のすべての練習問題を解けるように暗記しよう」と言うかもしれません。そのような学生は非常によく準備ができ、試験で非常に高い成績を取ることができるでしょう。
別の学生を考えてみましょう。その学生は「教科書のすべての練習問題を解く方法を知る必要はない。基本をしっかり理解していればいい。最初の20ページを読んで基本を理解したと感じている」と言うかもしれません。もしその2番目の学生も試験で高い成績を取れば、その学生は1番目の学生よりも難しいことをしたことになります。2番目の学生はより大きな一般化の程度を示しました。質問は同じでも、2番目の学生にとっては1番目の学生よりも状況がより不慣れだったのです。
私たちのニューラルネットワークは1番目の学生によく似ています。コンピューターとしては信じられないほどの一般化能力を持っていますが、まだ完璧ではありません。確かに人間レベルにはまだ達していません。そのため、非常に大量のデータで訓練することでそれを補う必要があります。ここでデータが関係してきます。一般化が上手くなればなるほど、必要なデータは少なくなります。または同じデータでより遠くまで行けます。
おそらく、ニューラルネットワークの一般化能力を大幅に向上させる方法を見つけたら、データが少ない小さな領域でも実際には問題にならなくなるでしょう。ニューラルネットワークは「大丈夫、このデータ量で十分に何をすべきか分かる」と言うでしょう。しかし今日では、大量のデータが必要です。
しかし、特に創造的なアプリケーションに関しては、ニューラルネットワークに特に適した方法があります。それは、生成モデルが機械学習で非常に中心的な役割を果たしているからです。生成モデルの性質は、芸術的なプロセスにある意味で類似しています。完璧ではありませんし、すべてを捉えているわけではありません。私たちのモデルがまだできない特定の種類の芸術もあります。しかし、この2つ目のつながり、つまり芸術の生成的側面と、生成モデルが新しい妥当なデータを生成する能力は、生成的芸術でこれほど多くの進歩を見た別の理由だと思います。」
「そうですね、非常に興味深いことです。なぜなら、これはある意味で、あなたが最初に言及したことの影のようなものです。つまり、ニューラルネットワークを最初に避けた理由の一部は、それらが説明するのがとても難しいからでした。そして、定理を証明できないという側面、私たちがうまく説明できないことを行うという側面が、おそらく創造的な追求により適しているのかもしれません。私たちも同様にうまく説明できないものですから。」
「はい、それも確かに可能性があります。」
「そうですね。最近のOpenAIからの他の興味深い進展の一つは、CLIPとDALLEでした。これらは非常に興味深い例で、モダリティ間、つまりテキストから画像への変換ができるようになりました。CLIPとDALLEの重要性について、あなたの考えをお聞かせください。この研究がどこに向かうと思いますか?そして、何があなたを興奮させますか?」
「コンテキストのために説明すると、CLIPとDALLEはテキストと画像を関連付けることを学習するニューラルネットワークです。DALLEは生成的な方向で、つまりテキストから画像への方向でテキストと画像を関連付けます。CLIPは知覚の方向で、つまり画像からテキストへの方向でテキストと画像を関連付けます。
両方がクールなのは、シンプルだからです。同じ古いレシピを使っています。よく理解しているニューラルネットを取り、大量のテキストと画像のペアで訓練して、何が起こるか見てみるだけです。そして、非常に良いことが起こります。
CLIPとDALLEの本当の動機は、2つのモダリティを組み合わせる方法に足を踏み入れることでした。なぜなら、将来的に私たちが望むであろう一つのことは、おそらくテキストのみのAIを望まないだろうということだからです。もちろん、それも可能ですが、それは機会を逃すように思えます。視覚的な世界で多くのことが起こっているのに、ニューラルネットが視覚的な世界を本当に理解するのが難しくないなら、なぜそうしないのでしょうか?
また、テキストの世界を視覚の世界につなげることで、テキストをより理解できるようになるかもしれません。画像でも訓練されることで学習するテキストの理解が、私たちのものに少し近づくかもしれません。人々が学ぶことと私たちの人工ニューラルネットワークが学ぶことの間には違いがあるかもしれないという議論ができるからです。人々は見て、歩き回って、さまざまなことをしますが、私たちのニューラルネットワーク、特にテキストのものは、テキストだけで訓練されます。そのため、何かが欠けているのかもしれません。訓練データを人々のものにより近づければ、人々のものにより近い何かを学習できるかもしれません。
これらがこれらのモデルを研究する動機の一部でした。また、それらがかなりうまく機能したのを見るのも楽しかったです。特に最近では、CLIPがかなりの人気を享受しています。人々はそれを反転させて高解像度の画像を生成する方法を見つけ出し、それで多くの楽しみを得ています。実際、それは私にとって、ここ数ヶ月で感情的に最も満足のいくアプリケーションだと思います。」
「そうですね。あなたが言及した興味深い点の一つは、より多くのことを行えば行うほど...具現化されたAIという概念がありますね。つまり、人間のように実際に経験するAIを持てば、興味深い振る舞いが得られるかもしれないということです。マルチモーダル学習のようなものでその方向に進めば進むほど、非常に興味深いですね。
もう一つ触れたいのは、あなたが非常に深遠なことを言及したと思うのですが、アルゴリズムの使用が非常にシンプルだということです。この場合、データセットを生成し、データを取得することが、私の観点からは、多くの信じられないような結果を本当に可能にしたのです。あなたはこれについてどう考えていますか?そして、これが将来の同様の研究分野をどのように定義すると思いますか?」
「それは間違いなく真実の声明です。ディープラーニングの分野、特にアカデミックな分野(応用分野ほどではありませんが)は、データの重要性を過小評価してきました。なぜなら、データはベンチマークの形で与えられ、あなたの目標は他の既存の手法よりも優れた手法を作ることだという心的フレームワークがあったからです。このフレームワークで固定されたデータセットが重要だった理由は、どの手法がより優れているかを比較できるようにするためでした。
これは本当にブラインドスポットにつながりました。多くの研究者が、このかなり困難な分野で、モデルをどんどん改善できるかという点に一生懸命取り組んでいました。一方で、単に「もっとたくさんのデータを用意しよう」と言うだけで可能な非常に大きな改善を見逃していました。
今では、人々はデータの重要性をもっと認識していると思います。この時点で、大量のデータがある領域では多くの進歩が経験されるだろうということはかなり明白です。」
「概念的に、今後数年間でAIで見られる進歩、クールなものの多くは、データ側での革新からくるのか、それともアルゴリズム側での革新からくるのか、どちらだと思いますか?」
「その区別をすることを好みません。その区別は一部のことには有用かもしれませんが...でも、その区別に従ってみましょう。両方が重要になると思います。方法論的な改善から非常に大きな進歩が可能だと強く信じています。私たちはまだ、コンピュートを可能な限り効率的に使用する段階には至っていません。大量のコンピュートがあり、それをある程度活用する方法を知っていますが、これは以前と比べると既に大きな成果です。
ここで歴史的な類推をしてみましょう。10年ほど前、大量のコンピュートを生産的に使用する唯一の方法は、MapReduceのような恥ずかしいほど並列な計算でした。それが文字通り、誰もが持っていた唯一のアイデアでした。大量のコンピュートを使用する興味深い方法はありませんでした。
今では、ディープラーニングによって、そのような方法の一つを手に入れました。コンピュートは少し相互接続される必要がありますが、大量のコンピュートを持ち、それを有用なことに使用することが可能です。しかし、このコンピュートを活用するための最良の公式をまだ見つけていないと思います。同じ量のコンピュートでもっと遠くまで行ける、より良い公式があると信じています。
とは言え、データからも多くの進歩が起こると非常に確信しています。私はデータの大きな信奉者です。新しいデータソースを見つけたり、さまざまな方法でフィルタリングしたり、機械学習を適用して改善したりと、多くの可能性があると思います。多くの機会があると思います。
これらすべてが組み合わさると、互いに相乗効果を生み出し、最大の進歩につながると期待しています。」
「コンピュートの質問に戻りますが、ある程度答えていただきました。非常に効率的なアルゴリズムを持つことになるだろうということですね。しかし、以前言及した極限までのスケーリングの概念を取り上げると、つまり、すべてを極限までスケールすれば素晴らしいパフォーマンスが得られるということですが、ある時点で、実際に実現可能なほど大きすぎたり高すぎたりしないスーパーコンピューターを構築することになります。この分野として、コンピュートの使用方法を大幅に改善することで、それを回避できると思いますか?それとも、スケーリング法則を考える際に考慮する必要がある、コンピュートの根本的な限界があると思いますか?」
「おそらく、コンピュートを使用する究極の方法は存在するでしょう。しかし、私たちはまだそれを見つけていないと思います。私たちの方法の効率性、コンピュートから得られる有用性、一般化の程度を改善できる機会はたくさんあると思います。まだ探求していない機会がたくさんあります。
また、コンピューターを構築できる物理的および経済的な限界があることにも同意します。進歩は、これらすべての軸を押し進めることから成り立つでしょう。
もう一つ言及したいのは、より良い方法を見つけるための巨大なインセンティブが存在するということです。同じニューラルネットを半分のコンピュートで訓練できる方法を見つけられたらどうなるか考えてみてください。それは巨大です。コンピューターの規模を2倍にするようなものです。そのため、そこでの研究量は増え続けるでしょう。
成功につながると信じています。時間がかかるかもしれませんが、現在持っているものよりもはるかに効率的で、はるかに強力なニューラルネットの訓練方法と設定方法を見つけると確信しています。そして、もちろん、それらのより良い方法にふさわしいすべてのコンピュートとデータを与えたいと思います。」
「関連する興味深い概念について、あなたの考えをお聞きしたいと思います。ニューラルネットワークの名前に埋め込まれている一つの概念は、非常にシンプルなニューロンのモデルを持ち、そのシンプルなニューロンのモデルが、これらの脳のようなアルゴリズムを実行できるようにするというものです。しかし、実際のニューロンは非常に奇妙で、数学的に完全には理解できていない多くの振る舞いがあります。経験的にも弱い理解しかありません。
現在のニューロンモデル、これらのシンプルなReLU関数のようなものが、脳に似たものや、ニューロンに似たものを生成する道筋だと思いますか?それとも、私たちは興味深いけれどもわずかに間違った道筋にいて、これらのネットワークをデザインする方法に問題があると思いますか?」
「私の見解では、現在のニューロンに何か問題があるという可能性は極めて低いです。おそらく最良のニューロンではないかもしれませんが、たとえ変更しなくても、必要なところまで行けると思います。
ただし、ここには重要な注意点があります。人間レベルの知能に到達するのに必要なニューロンの数をどのように知るのでしょうか?脳の大きさを見ることができるかもしれませんが、各生物学的ニューロンが100万の人工ニューロンで構成される小さなスーパーコンピューターのようなものかもしれません。そうなると、脳に匹敵するためには、人工ニューラルネットに100万倍多くの人工ニューロンが必要かもしれません。
これは可能性の一つです。そうはならないと思いますし、そこまで悪くはならないと思いますが、最悪の場合、それがその意味するところだと言えるでしょう。言い換えれば、生物学的ニューロンをシミュレートするために、各生物学的ニューロンに対してはるかに多くの人工ニューロンが必要になるかもしれません。」
「そうですね、これは非常に興味深い質問の一つです。生物学をどの程度エミュレートしようとするべきか、あるいは小さなニューロンを持つことで、奇妙な振る舞いをする「スーパーニューロン」を暗黙のうちに作り出しているのかどうかということですね。」
「生物学を正確にエミュレートしようとしているとは言えないでしょう。適切に触発されようとしているのです。生物学を正確にエミュレートすることは、挑戦的で賢明ではないと思います。しかし、大まかな見積もりとして使用することは、かなり生産的になる可能性があります。」
「OpenAIが最近取り組んだ興味深いものの一つ、InstructGPTシリーズのモデルについて話しましょう。これは、人間とモデルが将来的にどのように協力するかについての興味深いパラダイムを示していると思います。InstructGPTシリーズに取り組んだ理由は何ですか?なぜ興味深いのでしょうか?そして、何があなたを興奮させますか?」
「InstructGPTモデルは本当に重要なモデルです。それらが何であるか、そしてそこでの考え方について説明させてください。
GPT-3を訓練した後、私たちはそれを実験し、何ができるかを理解しようとしました。多くの異なることができ、本当の言語理解の程度を持っていることがわかりました。しかし、それは非常に人間らしくありませんでした。できる場合でも、あなたが頼んだことを絶対に行いませんでした。
私たちが多く考えてきた問題の一つは、アラインメントです。非常に強力なAIシステムがあるとき、それがあなたの意図を忠実に、正確に満たすようにするにはどうすればよいでしょうか。AIシステムが強力になればなるほど、その一般化能力、推論能力、創造性が大きくなればなるほど、システムのアラインメントはより重要になります。
GPT-3は有用なシステムです。深遠に賢いわけではありませんが、すでに興味深いものです。そこで、より単純な質問として、GPT-3をアラインする方法、つまりGPT-3のバージョンを構築して、可能な限り忠実に、あなたが頼んだことを行うようにするにはどうすればよいかを考えました。
これがInstructGPTモデルの作成につながりました。基本的に、GPT-3のバージョンで、「Xをしてください」「Yをしてください」「Zが欲しい」と言えば、それを行います。非常に便利で、このモデルを使用する人々はそれを気に入っています。より整列したモデルがより有用であるという素晴らしい例だと思います。」
「GPT-3や大規模言語モデルについて考えるとき、それらに関連する課題について言及しないわけにはいきません。特に、GPT-3は、そして将来のGPTは、膨大な量のデータで訓練されています。そのデータをうまく機能するようにエンジニアリングすることには多くのエンジニアリングが関わっています。
より多くのデータをこれらの機械学習システムに使用する方法を見つけようとするにつれて、どのような課題があると思いますか?大量のデータの海には、奇妙なバイアスや扱いにくい奇妙な質が存在するという事実にどのように対処しますか?」
「この質問には多くの側面があります。私たちはOpenAIで長い間この問題について考えてきました。GPT-3を訓練する前でさえ、これらの問題が起こることを予想していました。課題はあります。それらの課題に対処するために我々が追求してきた戦略のいくつかと、これらの問題をさらに解決するために取り組んでいるアイデアのいくつかを言及できます。
確かに、GPT-3や同様のモデルは、インターネットから学習し、インターネット上で表現されているデータの全範囲を学習します。モデルは...まず第一近似として、これが問題になることを知っていました。APIを通じてモデルをリリースする利点の一つは、誤用や望ましくない出力を生成しているのに気づいた場合の課題に対処できるようになることです。
もちろん、それが何を意味するかを定義することは非常に難しい課題です。」
「まさにその通りですね。これらの大規模なデータセットには、道徳的観点から見てモデルの前に置きたくないかもしれないカオスやノイズ、物事が含まれていることは事実です。しかし、あなたが指摘しているのは、実用的なエンジニアリングの観点からは、アルゴリズムに投入するデータについて慎重になることは不可能であり、それが起こることを認識し、訓練後のアルゴリズムのパフォーマンスを定義することに慎重になり、アルゴリズムを望む通りに動作するように形成できるようにすることがより生産的なアプローチだということですね。」
「はい、長期的にはそのアプローチがより生産的だと思います。しかし、データについても慎重になることは可能です。同じモデルを使用して、データをフィルタリングしたり、分類したり、どのデータで訓練するかを決定したりすることができるからです。人々がこれらのモデルを訓練する際、そして我々がこれらのモデルを訓練する際、実際にこれらの異なるアプローチを実験しており、モデルができるだけ合理的に振る舞うための最も実用的で効率的な方法を見つけていくと予想しています。」
「そうですね。アルゴリズムのファインチューニングの結果は非常に興味深いですね。望む方法で動作し、振る舞うアルゴリズムを生成するための自由度がより多くあるということを意味しているからです。」
「その通りです。これは、より良いモデルの特性です。これは直感に反することかもしれません。モデルが弱ければ弱いほど、言語モデルが優れていなければいないほど、制御するのが難しくなります。一方で、モデルが大きくなり、より優れ、より高速になるほど、ファインチューニングが速くなり、一種の振る舞いを指定するプロンプトにより敏感に反応します。
ある意味で、モデルがより強力で正確になるにつれて、我々が議論したこの種の問題の少なくともこの側面は、より簡単になると予想しています。」
「非常に興味深いトピックをたくさん扱いましたね。ここで少し視点を広げてみましょう。この会話の始めに、当初ニューラルネットワークに取り組み始めた時、楽観的なバージョンは'分野がニューラルネットワークに注目するだろう'というものでした。そして今では、分野が達成できる楽観的なバージョンとして、AGIに近いものを信じているわけですね。
ズームインしたアプローチでは、ここ数年は新しいブレークスルーや非常に興味深い新しいことの結果として、AIの信じられないような期間だったと思います。もう少し長い時間軸にズームアウトしてみると、世界の動作に非常に意味のある影響を与えると思われるAIの進歩には、どのようなものがあるでしょうか?」
「コーナーにある進歩の中で、ここ数年見てきた種類の地味な進歩が続くと思います。言語モデル、視覚モデル、画像生成、コード、テキスト読み上げ、音声認識など、すべてが全般的に改善されると予想しています。そしてそれらはすべて影響力があると思います。
これらの生成モデルについては、より良いコードモデルやより良い言語モデルを持つことで、どのような種類のアプリケーションが可能になるかを推論するのは少し難しいです。なぜなら、それは単に一つのことがより良くなるだけではなく、質的に新しい能力を開発し、質的に新しいアプリケーションを可能にするからです。そしてそれらは非常に多くなると思います。
ディープラーニングは成長し、拡大し続けると思います。ディープラーニングのデータセンターがもっと増えるでしょう。あらゆる種類のタスクで訓練された興味深いニューラルネットワークがたくさんあると思います。
医学、生物学...これらは非常に興味深いものになると思います。現在、生物学の分野はデータを取得する能力に関して革命を経験していると読みました。私は専門家ではありませんが、少なくとも間違いではないと思います。そこでニューラルネットワークを訓練するのは非常に素晴らしいことになるでしょう。医学でどのようなブレークスルーにつながるか興味深いですね。また、AlphaFoldもその例だと言えるでしょう。進歩は驚くべきものになると思います。」
「締めくくりに、今日私たちと一緒にいる素晴らしいAIコミュニティがあります。彼らはおそらく、AIが前向きな未来を持つことをどのように確実にできるか、どのように前向きなAIの未来を持つことができるかを理解することにとても興奮しているでしょう。この会話から聴衆が持ち帰り、AIの前向きな未来を確実にするために取り組めることは何だと思いますか?」
「考えるべきことはたくさんありますが、最も大きなものは恐らく、AIは非常に強力な技術であり、あらゆる種類のアプリケーションを持つ可能性があることを心に留めておくことです。興奮させるアプリケーション、実際の問題を解決するアプリケーション、人々の生活を改善するようなアプリケーションに可能な限り取り組むことです。
また、技術に存在する問題に対処しようとする方法にも取り組んでください。それは、バイアスや望ましくない出力に関する問題、アラインメントに関する他の質問、そしてこの会話では議論しなかった他の質問かもしれません。
つまり、有用なアプリケーションに取り組むこと、そして可能な限り害を減らし、アラインメントに取り組むこと、この2つだと言えるでしょう。」
「素晴らしい。ありがとうございました。OpenAIと組織に、過去何年にもわたるAIの分野への信じられないような貢献に感謝しないわけにはいきません。そして、再度、私たちと座って話してくださり、ありがとうございます。」
「ありがとうございます。会話を楽しみました。」

いいなと思ったら応援しよう!