見出し画像

イリヤ・サツケヴァー | AGIの開発は止められない | それは人類発展の新しい原動力だ

「はい、まず最初に、ご質問とお褒めの言葉をどうもありがとうございます。ディープラーニングの驚異的な力のおかげで、多くのことが変わりました。私個人の出発点としては、さまざまな理由から人工知能に興味を持っていました。その影響力を直感的に理解し、評価していたことから始まり、また意識とは何か、人間の経験とは何かということにも大変興味がありました。そして、人工知能の進歩がそれを理解する助けになるだろうと感じていました。
次のステップは、2002年から2003年頃のことでしたが、当時、学習は人間にはできるけれどもコンピューターにはまったくできないことでした。2003年、2002年当時、コンピューターは何も学習できませんでしたし、理論的にも可能かどうかさえ明確ではありませんでした。そこで私は、人工的な学習、機械学習の進歩が、AIの最大の進歩につながると考えました。
そして、何があるのか周りを見渡してみましたが、あまり期待できるものはありませんでした。しかし、幸運なことに、ジェフ・ヒントンが私の大学の教授でした。私は彼を見つけることができ、彼はニューラルネットワークに取り組んでいました。それはすぐに理にかなっていると感じました。なぜなら、ニューラルネットワークには、私たちが学習している、つまり並列コンピューターを自動的にプログラミングしているという特性があったからです。当時、並列コンピューターは小さなものでしたが、もしニューラルネットワークでの学習の仕組みを何とか解明できれば、小さな並列コンピューターをデータからプログラミングできるという約束がありました。また、脳にも十分似ていて、脳は機能しているので、いくつかの要因がそれを支持していたのです。
どうやって機能させるかは明確ではありませんでしたが、存在していたものの中では、長期的に見て最も大きな可能性があると思われました。」
「あなたが最初にディープラーニングとニューラルネットワークに取り組み始めた当時、ネットワークの規模やコンピューティングの規模はどのくらいだったのでしょうか?
興味深いことに、当時はスケールの重要性が認識されていませんでした。人々は単に50個のニューロン、100個のニューロン、数百個のニューロンを持つニューラルネットワークを訓練していました。それが大規模なニューラルネットワークとされていました。100万個のパラメータは非常に大規模と考えられていました。
私たちは最適化されていないCPUコードでモデルを実行していました。なぜなら、私たちは研究者の集まりで、BLASについて知りませんでしたし、MATLABを使っていました。MATLABは最適化されていて、私たちはただ実験していました。何が正しい質問なのかを見つけようとしていたのです。
小さなことができる、あのちょっとしたことができるなど、面白い現象や興味深い観察を集めようとしていました。ジェフ・ヒントンは、小さな数字の分類だけでなく、それらを生成することにも非常に興味を持っていました。生成モデルの始まりはそこにありました。
しかし、問題は、こういった面白いものがあちこちにあるけれど、何が本当に力を持つのか、ということでした。当時はそれが正しい質問だとは明らかではありませんでしたが、振り返ってみると、それが正しい質問だったのです。
アレックスネットは2012年でしたね。そうです、2012年です。あなたとアレックスはその前からアレックスネットに取り組んでいたわけですが、どの時点で、イマジネットが正しいデータセットだと判断し、コンピュータービジョンのコンテストに挑戦しようと決めたのですか?
そうですね、その背景について話すことができます。おそらくその2年前に、教師あり学習が私たちに力を与えてくれるものだということが明確になりました。それは単なる直感ではなく、私が主張するところの反駁不可能な論拠がありました。
それは次のようなものです。もしあなたのニューラルネットワークが深くて大きければ、難しいタスクを解決するように設定できるはずです。これが重要なポイントです。深くて大きい。人々は大規模なニューラルネットワークを見ていませんでした。ニューラルネットワークの深さについて少し研究していた人もいましたが、機械学習分野のほとんどの人々はニューラルネットワークをまったく見ていませんでした。
彼らは、理論的には優雅な方法である、さまざまなベイジアンモデルやカーネル法を見ていました。これらの方法には、どのように設定しても良い解を表現できないという特性がありました。一方で、大規模で深いニューラルネットワークは問題に対する良い解を表現することができます。
良い解を見つけるには大規模なデータセットが必要で、それには多くの計算力が必要です。私たちは最適化の作業も進めました。最適化がボトルネックであることは明らかでした。ジェフ・ヒントンの研究室の別の大学院生であるジェームズ・マーティンスによるブレークスルーがありました。彼は現在使用しているものとは異なる最適化手法、二次の手法を考案しました。
重要なのは、それによってこれらのニューラルネットワークを訓練できることが証明されたことです。なぜなら、それまでは訓練できるかどうかさえわかっていなかったからです。訓練できるのであれば、大規模にして、データを見つければ成功するはずです。
次の質問は、どのようなデータかということです。イマジネットのデータセットは当時、信じられないほど難しいデータセットに思えました。しかし、このデータセットで大規模な畳み込みニューラルネットワークを訓練すれば、計算力と正しいものさえあれば必ず成功するはずだということは明らかでした。」
「ちょうどその時、GPUが登場しました。あなたと私の歴史と道が交差し、何らかの形であなたは、GPUに関する観察をしていました。当時、これはCUDA GPUの数世代目で、GTX 580世代だったと思います。あなたは、GPUが実際にニューラルネットワークモデルの訓練に役立つかもしれないという洞察を持っていました。その日はどのように始まったのですか?あなたは私にその瞬間を語ったことがありませんね。その日はどのように始まったのですか?
そうですね、GPUは私たちのトロントの研究室に、ジェフのおかげで登場しました。彼は「これらのGPUを試してみるべきだ」と言い、私たちは試し始めて実験を行いました。それはとても楽しかったのですが、それを何に使うべきかは明確ではありませんでした。しかし、イマジネットデータセットの存在と、畳み込みニューラルネットワークがGPUにとても適していることが非常に明確だったのです。
したがって、信じられないほど高速に動作させることが可能であり、そのため、サイズの点で前例のないものを訓練することができるはずでした。そしてそれが実現したのです。非常に幸運なことに、アレックス・クリジェフスキーはGPUのプログラミングを本当に愛していて、彼はそれを行うことができました。彼は本当に高速な畳み込みカーネルをプログラミングすることができ、そしてイマジネットデータセットでニューラルネットを訓練しました。それが結果につながったのです。
しかし、それは世界を驚かせました。コンピュータービジョンの記録を大幅に更新し、明確な不連続性がありました。
そうですね。そして、私は次のように言いたいと思います。記録を破ったというだけでなく、そこには別の重要な文脈があります。それを別の方法で表現すると、そのデータセットは非常に明らかに難しく、人々が古典的な技術で進歩を遂げていたものの手の届かないところにあったのです。このニューラルネットワークは、非常に明らかに難しいデータセットでずっと優れた性能を示しました。単なる競争ではなく、当時は平均的なベンチマークではなかった競争だったのです。それは非常に明らかに困難で、手の届かないところにあり、もし良い仕事をすれば素晴らしいことになるという性質を持っていたのです。
AIの大きな転換点でしたね。時間を進めて、あなたはシリコンバレーに来て、友人たちとOpenAIを立ち上げました。現在はチーフサイエンティストですね。OpenAIでの最初の着想は何に取り組むことだったのですか?なぜなら、皆さんはいくつかのことに取り組み、発明や仕事の軌跡の一部は、ChatGPTの瞬間につながったように見えますが、最初のインスピレーションは何だったのでしょうか?その時点から知能にどのようにアプローチしようとしたのか、お聞かせください。
そうですね、明らかに私たちが始めた時には、どう進めるべきか100%明確ではありませんでした。また、分野も現在とはかなり異なっていました。現在では、これらの素晴らしいアーティファクト、信じられないことをする素晴らしいニューラルネットがあり、誰もがとてもワクワクしています。しかし、2015年、2016年初頭に私たちが始めた頃は、全体的にかなり狂気じみていました。研究者の数も現在よりもはるかに少なく、おそらく100倍から1000倍少なかったでしょう。当時は100人ほどの人々がいて、そのほとんどがGoogleのDeepMindで働いていました。それだけでした。その後、人々がスキルを身につけ始めましたが、まだ非常に稀少で珍しいものでした。」
「OpenAIの立ち上げ時に、私たちには2つの大きな初期のアイデアがありました。それらは今日まで続いており、力を持ち続けています。今からそれらについて説明しましょう。
私が特に早い段階で興奮していた最初の大きなアイデアは、圧縮を通じた教師なし学習の考えでした。コンテキストとして、今日では教師なし学習が簡単なことだと当たり前のように考えられています。すべてのものに事前学習を行えば、期待通りに動作します。しかし、2016年には、教師なし学習は機械学習の未解決問題で、誰も正確に何をすべきかわかっていませんでした。
ヤン・ルカンが講演を行い、教師なし学習という大きな課題があると言っていました。私は、データの本当に良い圧縮が教師なし学習につながると強く信じていました。圧縮という言葉は、最近まで実際に行われていることを説明するのによく使われていませんでしたが、突然、多くの人々にGPTモデルが実際にトレーニングデータを圧縮していることが明らかになりました。ニューヨークタイムズのテッド・チャンの記事でもこのことに言及されていましたね。
しかし、これらの自己回帰生成モデルのトレーニングがデータを圧縮しているという本当の数学的な意味があります。直感的に、なぜそれが機能するかがわかります。データを本当によく圧縮すれば、そこに存在するすべての隠れた秘密を抽出しなければなりません。したがって、それが鍵なのです。
これが私たちが本当に興奮していた最初のアイデアで、OpenAIでのいくつかの作業につながりました。感情ニューロンについて簡単に言及しますと、これは機械学習分野以外ではあまり知られていない可能性がありますが、特に私たちの思考に非常に影響を与えました。
この作業は、ニューラルネットワークをトレーニングしたときのものです。当時はトランスフォーマーではなく、トランスフォーマー以前の小さな再帰型ニューラルネットワーク、LSTMを使用していました。アマゾンのレビューの次のトークン、次の文字を予測するようにトレーニングしました。そして、次の文字を十分によく予測すれば、そのLSTMの中に感情に対応するニューロンが存在することを発見しました。
これは本当にクールでした。なぜなら、教師なし学習にとって何かのきっかけを示したからです。また、本当に良い次の文字の予測、次の何かの予測、圧縮が、データ内の秘密を発見するという特性を持っていることを証明しました。これがGPTモデルの正体です。トレーニングすると、人々は「ただの統計的な相関関係だ」と言いますが、この時点で、観察もまた世界について学ぶための教師なし学習のデータをどこから得るかという全体的な世界を開いたことは、誰にとっても非常に明確であるはずです。
なぜなら、次の文字を予測させるだけで、大量のデータがあり、答えが何であるかを知っているからです。地上の真実を知っているので、ニューラルネットワークモデルをトレーニングすることができます。その観察とマスキング、そして他の技術、他のアプローチが、世界がどこから教師なし学習のための教師なしデータをすべて得るのかについて、私の心を開いたのです。」
「私はそれを少し違う言い方をしたいと思います。教師なし学習において、難しい部分は、データをどこから取得するかということよりも、そもそもなぜそれを行うべきなのか、という点にありました。特に今では、データの取得に関する部分もありますが、それ以上に難しかったのは、これらのニューラルネットを次のトークンを予測するようにトレーニングすることが、そもそも価値のある目標であることを認識することでした。
それが表現を学習し、理解できるようになるということは、全く明白ではありませんでした。そのため、人々はそれを行っていませんでした。しかし、感情ニューロンの研究や、ここでアレック・ラドフォードという多くの進歩に責任を持つ人物の名前を挙げたいと思いますが、彼の研究が私たちの考え方に大きな影響を与えました。感情ニューロンの研究は、GPT-1以前のもので、GPT-1の前身でした。そしてそれは私たちの考え方に大きな影響を与えました。
その後、トランスフォーマーが登場し、私たちはすぐに「なんてこった、これこそが求めていたものだ」と思いました。そして私たちはGPT-1をトレーニングしました。
その過程で、あなたはずっと、これらのモデルのパフォーマンスを向上させるためにはスケーリングが重要だと信じていましたね。より大きなネットワーク、より深いネットワーク、より多くのトレーニングデータがスケールアップするだろうと。OpenAIがスケーリング法則について書いた非常に重要な論文がありました。損失とモデルのサイズ、データセットのサイズの関係についてです。
トランスフォーマーが登場したとき、それは非常に合理的な時間内で非常に大規模なモデルをトレーニングする機会を与えてくれました。しかし、モデルとデータのサイズに関するスケーリング法則の直感について、GPT-1から3までの旅で、どちらが先に来たのでしょうか?GPT-1から3の証拠を最初に見たのか、それともスケーリング法則の直感が先だったのでしょうか?
直感が先でした。私はより大きいものがより良いという強い信念を持っていました。OpenAIでの私たちの目標の一つは、スケールを正しく使用する方法を見つけることでした。OpenAIでは、最初からスケールについての信念が多くありました。問題は、それを何に正確に使用するかということでした。
ここで、GPTについて話していますが、もう一つの非常に重要な研究の流れがあります。まだ言及していない2つ目の大きなアイデアですが、ここで脱線して話すのがいいタイミングだと思います。それは強化学習です。これも明らかに重要ですが、それをどうするのでしょうか。
OpenAI内で行われた最初の本当に大きなプロジェクトは、リアルタイムストラテジーゲームを解決しようとする取り組みでした。コンテキストとして、リアルタイムストラテジーゲームは競争的なスポーツのようなものです。賢くなければならず、素早い反応時間が必要で、チームワークがあり、別のチームと競争します。かなり複雑です。そのゲームには競争リーグ全体があります。ゲームの名前はDota 2です。
私たちは強化学習エージェントを自己対戦でトレーニングし、世界最高のプレイヤーと競争できるレベルに達することを目標にしました。これも大きな取り組みでした。これは非常に異なる研究の流れでした。強化学習でした。」
「その作業を発表した日のことを覚えています。ところで、これは以前お聞きしたときに、OpenAIから出てきた多くの研究のうち、いくつかは脱線しているように見えましたが、実際には脱線ではなく、今私たちが話しているChatGPTのような重要な仕事につながったのだと説明されていましたね。
そうですね、本当の収束がありました。GPTが基礎を作り、DOTAからの強化学習が人間からのフィードバックによる強化学習に変形し、その組み合わせがChatGPTを生み出したのです。
ChatGPTからGPT-4への進化について、GPT-4を最初に使い始めたとき、あなた自身も驚いたスキルにはどのようなものがありましたか?
本当にクールで驚くべきことをたくさん示しました。非常に優れていました。2つの例を挙げてみましょう。簡単に言えば、その信頼性のレベルが驚くべきものでした。
以前のニューラルネットワークでは、質問をすると時々何かをちょっとバカげた方法で誤解することがありましたが、GPT-4ではそれが起こらなくなりました。数学の問題を解く能力が大幅に向上しました。本当に長い複雑な導出を行い、単位を変換するなどができるようになりました。それは本当にクールでした。多くの人々が気づいたように、証明を行うことができます。すべての証明ではありませんが、かなりの数の証明ができます。
別の例としては、同じ文字で始まるすべての単語を使って詩を作ったり、指示に非常に明確に従うことができるようになりました。完璧ではありませんが、以前よりもずっと優れています。
視覚面では、ジョークを説明したり、ミームを説明したりできるのが本当に気に入っています。ミームを見せて、なぜそれが面白いのか尋ねると、正確に説明してくれます。視覚の部分は、本当に見ているかのようです。複雑な画像や複雑な図について追加の質問をし、説明を得ることができるのは本当にクールです。
しかし、全体的に言えば、一歩下がって考えてみると、私はこの分野に長く、ほぼ20年間いましたが、最も驚いているのは、それが実際に機能するということです。
同じ小さなことがずっと続いていて、もはや小さくはなく、より真剣で、より強烈になっていますが、同じニューラルネットワークがより大きくなり、おそらくより大きなデータセットで異なる方法でトレーニングされていますが、基本的なトレーニングアルゴリズムは同じなのです。
つまり、「わお、これがどうして可能なんだろう」と思うのです。振り返ってみると、これが最も驚くべきことだと思います。あの概念的なアイデア、つまり「脳にはニューロンがあるから、人工ニューロンも同じくらい優れているかもしれない。だからただ何らかの学習アルゴリズムで訓練する必要があるだけかもしれない」という議論が、信じられないほど正確だったということです。これが最大の驚きだと言えるでしょう。」
「私たちが知り合って10年の間に、あなたがトレーニングしたモデルとトレーニングに使用したデータの量は、アレックスネットの時から今まで約100万倍になりました。コンピューターサイエンスの世界で、10年間でこれほどの計算量が行われると信じた人はいなかったでしょう。あなたはキャリアをかけてそれを実現しました。
あなたは2つの画期的な仕事をしました。アレックスネットの共同発明とその初期の仕事、そしてOpenAIでのGPTです。他にも多くの仕事をしていますが、あなたの業績は本当に素晴らしいものです。再び会えて嬉しいです、イリヤ。私の親愛なる友人、あなたが成し遂げたことは本当に驚くべきものです。今日の話で、あなたが問題を分解し説明する方法は、大規模言語モデルの最先端技術についての、PhD以上の最高の説明の一つです。本当に感謝しています。」
イリヤ:「ありがとうございます。とても楽しかったです。」
司会者:「ありがとうございました。」
イリヤ:「ありがとうございました。」

この記事が気に入ったらサポートをしてみませんか?