ジェンセン・ファンとオープンAIのイリヤ・サツケヴァーがAIとChatGPTについて語る:世界を変える方法
イリヤ、信じられないことに今日はGPT-4の翌日です。あなたをここに迎えられて光栄です。私はあなたを長い間知っています。私の記憶の中にあるあなたとの時間、そしてあなたが成し遂げた画期的な仕事、トロント大学でのアレックスネットの共同発明、アレックスとジェフ・ヒントンとともに、それが現代の人工知能のビッグバンにつながりました。ベイエリアに来てからのあなたのキャリア、オープンAIの設立、GPT-1、2、3、そしてもちろんChatGPT、世界中で話題になったAI、これは若いコンピューター科学者の信じられないような経歴です。あなたの業績によって、コミュニティ全体、産業全体が変わりました。
最初に戻って深層学習についてお聞きしたいのですが、深層学習に対するあなたの直感はどのようなものでしたか? なぜそれが機能すると分かったのでしょうか? このような成功につながるという直感はありましたか?
まず、親切なお言葉をありがとうございます。深層学習の驚異的な力のおかげで多くのことが変わりました。私個人の出発点は、人工知能に興味を持ったことでした。その影響力を直感的に理解し、評価したことと、意識とは何か、人間の経験とは何かについて多くの好奇心を持っていたからです。人工知能の進歩がそれを解明する助けになると感じました。
次のステップは、2002年から2003年頃、人間にはできるのにコンピューターにはまったくできないことは学習だと思われていました。2002年から2003年当時、コンピューターは何も学習できず、理論的に可能かどうかさえ明確ではありませんでした。そこで、学習、人工学習、機械学習の進歩がAIの最大の進歩につながると考えました。
そして、何があるのか探し始めましたが、あまり有望なものは見つかりませんでした。しかし、幸運にもジェフ・ヒントンが私の大学の教授で、彼を見つけることができました。彼はニューラルネットワークに取り組んでいました。それはすぐに理にかなっていました。なぜなら、ニューラルネットワークには、私たちが学習している、つまり並列コンピューターを自動的にプログラミングしているという特性があったからです。当時、並列コンピューターは小さかったのですが、もしニューラルネットワークでの学習の仕組みを何とか解明できれば、データから小さな並列コンピューターをプログラミングできるという約束がありました。また、脳に十分似ていて、脳は機能するので、いくつかの要因が働いていたのです。
それをどのように機能させるかは明確ではありませんでしたが、存在するもののうち、はるかに長期的な可能性があるように思えました。
あなたが深層学習とニューラルネットワークの研究を始めた当時、ネットワークの規模やコンピューティングの規模はどのくらいだったのでしょうか?
興味深いことに、当時はスケールの重要性が認識されていませんでした。人々は50個、100個、数百個のニューロンを持つニューラルネットワークを訓練していました。それが大きなニューラルネットワークでした。100万パラメータは非常に大きいと考えられていました。私たちは研究者の集まりだったので、BLASについて知らず、最適化されていないCPUコードでモデルを実行していました。MATLABを使用していましたが、MATLABは最適化されていました。
私たちは単に実験していました。正しい質問は何かを探っていたのです。小さなことができる、あの小さなことができるなど、興味深い現象や観察を見つけようとしていました。ジェフ・ヒントンは、分類だけでなく生成にも非常に興味を持って、小さな数字のニューラルネットの訓練に本当に熱中していました。生成モデルの始まりはそこにありました。
しかし、問題は、こういった面白いものがあちこちにあるけど、何が本当に注目を集めるのか、ということでした。当時はそれが正しい質問だとは明らかではありませんでしたが、振り返ってみると、それが正しい質問だったことが分かりました。
AlexNetは2012年でしたね。あなたとアレックスはその前からAlexNetに取り組んでいたと思いますが、コンピュータービジョン指向のニューラルネットワークを構築したいと思ったのはいつ頃でしょうか? ImageNetが適切なデータセットだと分かり、コンピュータービジョンコンテストに挑戦しようと思ったのはいつ頃でしょうか?
そうですね、そのコンテキストについてお話しできます。おそらくその2年前には、教師あり学習が私たちに牽引力を与えてくれるということが明確になりました。それは単なる直感ではなく、私が主張するなら反論の余地のない論拠があったのです。
それは次のようなものでした。ニューラルネットワークが深くて大きければ、難しいタスクを解決するように構成できるはずです。これが重要なポイントです。深くて大きい。当時、人々は大規模なニューラルネットワークを見ていませんでした。ニューラルネットワークの深さを少し研究していた人もいましたが、機械学習分野のほとんどの人はニューラルネットワークを全く見ていませんでした。彼らはあらゆる種類のベイズモデルやカーネル法を研究していました。これらは理論的には優雅な方法ですが、どのように構成しても良い解を表現できないという特性を持っています。
一方で、大規模で深いニューラルネットワークは問題に対する良い解を表現できます。良い解を見つけるには大規模なデータセットが必要で、それには多くの計算力が必要です。私たちは最適化の研究も進めました。最適化がボトルネックであることは明らかでした。ジェフ・ヒントンの研究室の別の大学院生であるジェームズ・マーティンスがブレークスルーを起こし、現在使用しているものとは異なる最適化方法を考案しました。これは2次の方法ですが、重要なのは、それによってニューラルネットワークを訓練できることが証明されたことです。以前は訓練できるかどうかさえ分かりませんでした。
つまり、訓練できるなら、大きくして、データを見つければ成功するはずです。次の問題は、どのデータかということでした。当時、ImageNetデータセットは信じられないほど難しいデータセットに見えました。しかし、このデータセットで大規模な畳み込みニューラルネットワークを訓練すれば、計算力さえあれば必ず成功するはずだということは明らかでした。
ちょうどそのとき、GPUが登場しました。私たちの歴史と道が交差し、あなたはGPUについての洞察を持っていました。当時、私たちはCUDA GPUの数世代目で、GTX 580世代だったと思います。あなたはGPUがニューラルネットワークモデルの訓練に実際に役立つかもしれないという洞察を持っていました。その日はどのように始まったのですか? あなたは私にそのときのことを教えてくれませんでしたね。その日はどのように始まったのですか?
そうですね、GPUは私たちのトロントの研究室にジェフのおかげで現れました。彼は「これらのGPUを試してみるべきだ」と言い、私たちは試し始めて実験を行いました。それはとても楽しかったのですが、正確に何に使用するかは不明確でした。
しかし、ImageNetデータセットの存在と、畳み込みニューラルネットワークがGPUにとても適しているということが明らかになったので、信じられないほど高速に動作させることができるはずで、したがって、サイズの点で前例のないものを訓練できるはずだということになりました。
そして、幸運にもアレックス・クリジェフスキーがGPUのプログラミングを本当に好きで、彼はそれをすることができました。彼は本当に高速な畳み込みカーネルをプログラミングし、そしてImageNetデータセットでニューラルネットを訓練することができました。それが結果につながりました。
しかし、それは世界に衝撃を与えました。コンピュータービジョンの記録を大幅に更新し、明らかな不連続性がありました。
そうですね、そこにはもう一つの重要な文脈があります。単に記録を更新したというだけでなく、別の言い方をすると、そのデータセットは非常に明らかに難しく、明らかに誰もが達成できる範囲外だったのです。古典的な技術で進歩を遂げている人々もいましたが、これははるかに優れていました。当時、それは平均的なベンチマークではなく、非常に明らかに困難で、明らかに手の届かないものでした。そして、もし良い仕事をすれば素晴らしいことになるという特性を明らかに持っていました。
AIのビッグバンから現在に話を進めましょう。あなたはシリコンバレーに来て、友人たちとOpenAIを立ち上げました。現在はチーフサイエンティストですね。OpenAIでの最初のアイデアは何だったのでしょうか? いくつかのことに取り組まれましたが、発明や仕事の軌跡の一部がChatGPTの瞬間につながったのが見て取れます。最初のインスピレーションは何だったのでしょうか? その時点から知能にどのようにアプローチし、これにつながったのでしょうか?
明らかに、私たちが始めた時点では、どのように進めるべきかが100%明確ではありませんでした。また、分野も現在とはかなり異なっていました。現在では、これらの驚くべき人工物、驚くべきニューラルネットが信じられないようなことをしていて、誰もがとてもエキサイティングだと感じています。しかし、2015年、2016年初頭、私たちが始めた頃は、すべてがかなりクレイジーに見えました。
研究者の数も現在よりはるかに少なく、おそらく100倍から1000倍少なかったでしょう。当時は100人程度の人々がいて、そのほとんどがGoogleのDeepMindで働いていました。そして、スキルを身につけている人々もいましたが、非常に稀少で珍しいものでした。
私たちはOpenAIの開始時に2つの大きな初期のアイデアを持っていました。それらは今日まで続いており、今でも私たちと共にあります。それらについて説明します。
私たちが持っていた最初の大きなアイデア、特に私が早い段階でとても興奮していたのは、圧縮を通じた教師なし学習のアイデアです。コンテキストとして、今日では教師なし学習が簡単なことだと当たり前のように考えています。すべてのものに事前学習を行えば、期待通りに機能します。しかし、2016年には、教師なし学習は機械学習における未解決の問題で、誰も正確に何をすべきかについて洞察や手がかりを持っていませんでした。
そうですね、ヤン・ルカンが講演を行い、教師なし学習という大きな課題があると言っていました。私は本当に、データの本当に良い圧縮が教師なし学習につながると信じていました。
圧縮は、最近まで、実際に行われていることを説明するために一般的に使用される言語ではありませんでした。しかし、突然、多くの人々にとって、これらのGPTが実際にトレーニングデータを圧縮していることが明らかになりました。ニューヨーク・タイムズの記事でも言及されていたのを覚えているかもしれません。
これらの自己回帰生成モデルをトレーニングすることでデータを圧縮するという、実際の数学的な意味があります。直感的に、なぜそれが機能するはずかが分かります。データを本当によく圧縮すれば、そこに存在するすべての隠れた秘密を抽出しなければなりません。したがって、それが鍵なのです。
それが私たちが本当に興奮した最初のアイデアでした。そしてそれはOpenAIでのいくつかの作品につながりました。センチメントニューロンについて簡単に触れますが、この作品は機械学習分野の外ではあまり知られていないかもしれません。しかし、特に私たちの考え方に非常に影響を与えました。
この研究の結果は、ニューラルネットワークを訓練すると - 当時はトランスフォーマーではなく、トランスフォーマー以前の小さな再帰型ニューラルネットワーク、LSTMでしたが - シーケンス作業を行うために訓練すると、驚くべきことが起こりました。
私自身が行った研究の一部については、こんな感じです。