グレッグ・ブロックマン | AIの未来:次の10年間の新たなトレンドと予測
私は実際にこう始めたいと思います。覚えているかどうかわかりませんが、私たちが初めて出会ったのは、スパークというサマーキャンプでした。そこであなたは当時ストライプのCTOだった頃の、あなたが成し遂げたことすべてについてプレゼンテーションをしました。私はそのキャンプのメンバーで、非常に印象に残っています。たくさんの良い言葉がありました。それがうまく伝わったことを嬉しく思います。ある意味、一巡したような感じですね。
さて、始めに、あなたはCTOを務め、現在はオープンAIの社長ですが、ある意味で過去10年間で最も象徴的な2つのスタートアップ、ストライプとオープンAIという信じられないほど象徴的な2社のCTOを務めました。まず最初に伺いたいのは、2つの組織にはどのような共通点があり、CTOとしての役割にはどのような共通点があるのか、また、どのような違いがあるのでしょうか。
ありがとうございます。そうですね、両方の組織に携わった経験から非常に興味深いと感じるのは、問題の前にいる人々のグループがどれほど似ているかということです。私たちがストライプにアプローチした方法の1つは、ゼロから考えることでした。ローンチ前に、早期の顧客がいて少しバズが出ていた頃のことを覚えています。友人のVCが私をランチに連れ出し、「ストライプのことを聞いているけど、秘密の sauce は何なの?」と聞いてきました。私は「支払いを本当に良くするだけです」と答えました。彼は「いやいや、教えてよ、秘密の sauce は何なの?」と言いましたが、本当にそれが秘密の sauce だったんです。私たちは、やっていることすべてをゼロから、第一原理から考え直していました。人々がやっていた方法にとらわれず、どうあるべきか、どこに痛みがあるのか、それは本当に必要なのかを問いかけました。
AIでも同じようなことをしたと思います。私たちは、参入しようとしている分野について本当に考えました。その分野にいた多くの人々を雇いましたが、多くの人々もその分野にいませんでした。私たちは初心者の目でそれを見ました。人々がやっていたすべての方法に縛られないというアプローチが、おそらく最も深い共通点だと思います。しかし、もしすべてを捨ててしまえば、役に立たない形でゼロからやり直すことになるので、物事がどのように行われてきたかについても専門家になる必要があります。
しかし、明らかに非常に異なる組織です。ストライプでは、従来のスタートアップのプレイブックを実行しました。基本的にイノベーションを考え出し、ひたすら構築します。初日から顧客の前に出します。ストーリーとしては、最初のAPIを顧客に渡し、クレジットカードで課金したら、その顧客が「今すぐお金が欲しい」と言ってきて、「ああ、それを構築しないといけないんだ」と気づいたというものです。オープンAIでは、研究をする必要がありました。顧客はどこにいるのでしょうか?本当に5年かかりました。2015年後半に始めて、最初の製品ができたのは本当に2020年になってからでした。
そのため、何に取り組むべきか、良い仕事をしたのか、日々良い気分でいられるべきかなど、すべてが内部から来なければならず、外部からは来ませんでした。
そうですね、実際にこの第一原理的思考のポイントに戻りたいと思います。非常に興味深いのは、2020年や2021年頃、GPT-3の後でさえ、分野の他の研究者と話すと、これらのモデルをスケールアップすることや、まだ得られる利益があるかどうかについて、ある程度の懐疑心がありました。私はその話を知りませんが、GPT-3やDALL-E 2につながった研究の直感は、おそらく当時はある程度常識に反していたか、直感に反していたように思えます。
1つの質問は、今振り返ってみると、GPT-3とDALL-E 2がAIの進歩とその世界への関連性、あらゆる産業への関連性を基本的に加速させ、最近のAIの波を作り出したことは明らかです。これらの技術を構築していた時のあなたの期待とどのように一致していますか?
そうですね、私にとって最も興味深いのは、あなたが言及したそれらのモデルが、作成に何年もかかった一夜の成功だということです。外から見ると、このモデルを作り、次にあのモデルを作ったように見えますが、内部では、GPTのアークは5年のアークです。本当に2017年のセンチメントニューロン論文から始まりました。その論文を覚えていますか?
その論文は覚えています。とても cool でしたが、非常に斬新に感じました。
そうです、ほとんどの人が覚えていません。これは非常に初期の結果で、基本的にLSTMを訓練してテキストの次の文字を予測するというものでした。基本的にAmazonのレビューをたくさん見せて、次の文字は何かと言いました。もちろん、コンマやピリオドがどこに来るかを学習しますが、もちろん何も理解しません。しかし、そのモデルの中に1つのニューロンを見つけました。それは最先端の感情分析分類器を学習していました。これが positive なレビューか negative なレビューかを言うことができました。これは理解です。理解が何を意味するかはわかりませんが、確かに意味論です。
私たちにとって、これは「うまくいくぞ」というものでした。トランスフォーマーは2017年後半に登場しました。私の共同創業者のイリヤはすぐに「これだ、これが我々が待っていたものだ」と言いました。この非常に初期の結果をトランスフォーマーに入れると、それがGPT-1です。GPT-2は、それをさらに押し進めただけです。
私たちが内部で実行しているアルゴリズムは、これらの小さな生命の兆候を得ることです。特定のデータセットを強く押しすぎて、本当に続かないものと、生命の兆候を区別することに非常に注意する必要があります。しかし、正しい直感を構築すれば、より多くのコンピューティングを投入し、より多くの研究者を投入し、本当にスケールアップする時期だとわかります。
GPT-2は明らかにエキサイティングでした。私たちは曲線を見ていました。このモデルを大きくすればするほど、より多くのコンピューティングを投入し、より多くのデータを投入し、すべてのエンジニアリングの詳細をより正しく得れば得るほど、これらの曲線はただ良くなっていきました。実際、私たちの目標はパラダイムを破ることでした。曲線が良くなくなるまで押し進めることでしたが、まだそれを達成できていません。
そうですね、少なくとも私にとって、そしておそらく最初にGPT-3を使った多くの人にとって、衝撃的だったのは、必ずしもモデルが良くなり、既存のタスクでのパフォーマンスが向上したということではありませんでした。むしろ、非常に魔法のように感じる質的に新しい振る舞いがあったことです。今でも、Twitterなどでプロンプトを見かけると、本当に衝撃的なものがあります。初期のモデル結果を得たとき、「ああ、これは魔法だ」と思うような早期の瞬間はありましたか?
そうですね、私が覚えている最も早い瞬間は、コードに関するものでした。当時は全く驚くべきことでした。関数名とその関数が何をすべきかを説明するドックストリングを書くだけで、実際にそれを書くことができました。非常に複雑な関数ではありませんでしたが、数行で済むようなものを要求すると、実際にそれを書くことができました。単に暗記していないことを確認するために少し修正を加えても、確かに修正されたコードを書き出しました。
GPT-3のパラダイムについて本当に興味深いのは、それがどこから来ているかです。私たちは、これらのモデルの問題は、データ分布内では素晴らしいが、その分布の外に出るとすべての賭けが外れるというイメージを持っていました。そこで、全世界、全宇宙をデータ分布にしたらどうだろうか?インターネット全体をそこに入れるのです。
私たちが本当に見てきたのは、これらのモデルが見てきた種類のことの中で非常によく一般化できるということです。もちろん、全く見たことのないものについては別の問題です。人間も見たことのないものに対しては非常に不得意です。しかし、それが見てきたさまざまなものを、さまざまな構成で見ているという絵は、ほとんど想像できないものです。40テラバイト分のテキストを消費できた人間はいません。
そのため、驚きを続けて見ています。私のお気に入りの1つは、実際に教師と生徒のやり取りでした。私が教師で、モデルが生徒でした。私は数字をソートする方法を教えることができました。これらの経験をすると、AIとのやり取りはこのようであるべきだと感じます。
それは本当に素晴らしいですね。1つ気になることがあります。GPT-2からGPT-3への飛躍には、おそらく多くの確信が必要だったと思います。当時、これらのモデルを訓練するためにかなりの計算リソースを使っていたと思いますし、うまくいかない実験もたくさんあったでしょう。この段階、GPT-2からGPT-3への飛躍は怖かったですか?疑念はありましたか?それとも、これをスケールアップすれば、最初の数回はうまくいかなくても、最終的には素晴らしいものになるという確信がありましたか?
そうですね、あなたのポイントについて、スケールは明らかなことではありませんでした。会社ではなく、物事をスケールアップすることです。当時、面白いのは、実際に私たちの最初のスケール結果は、これが正しいアプローチだと確信させたものでした。break するまで押し進める、必ずしもより多くの計算が魔法のように常に問題を解決するわけではないということです。それはDOTAでした。競争的なビデオゲームをプレイすることです。
そこで私たちは3年間のアークを経験しました。何もできないものから始まり、最終的に社内チームを打ち負かし、そしてプロを打ち負かすことができました。各段階で、あらゆる次元で押し進めました。モデルを大きくし、すべてのバグを修正し、あらゆる次元で繰り返し、あらゆる次元が収益をもたらしました。
GPT-2に関しても同じようなことをしました。明らかにこの1つの変数を増やすだけで良いと言うほど単純ではありません。1回で済むものではありません。各軸で空間を踏破する反復的なプロセスです。
一方で、確信が必要です。大きな計算予算を確保すると言う必要があります。常に他の人々と大型スーパーコンピュータを争うようなことはありません。しかし、他方で非常に反復的でもあり、怖い不可逆的な決定を下す必要はありません。各ステップで現実からフィードバックを得るからです。
もしこれがうまくいったらどうなるかという大局的な考え方と、本当に成功に向けて準備ができていることを確認することのバランスを取ることが本当に重要でした。しかし、1年間組織の時間を盲目的に費やすようなことはしません。この2つのバランスを取ることが本当に重要でした。
そうですね、あなたがこの洞察を説明し、話してくれたことの1つの cool なことは、組織的な学びが本当にGPT-3への道筋全体で重要だったということです。DOTAからの洞察やセンチメントニューロンからの洞察が、スケールアップとGPT-3の構築というアイデアにつながる重要な核心だったと言うのは、言ってみれば理にかなっています。しかし、外部から見るとそれは非常に直感的ではありません。ある意味でイノベーションの証明でもあります。さまざまな実験から得た洞察の断片的な集まりを組み合わせ、最終的に材料を集めて何かを構築するということです。それが第一原理的思考の実践ですね。
そうですね、AIの物語について考えることがあるかどうかわかりませんが、私は少し考えています。AI、特に過去数年間の物語とオープンAIの物語は、おそらく歴史家が何十年も何十年も研究することになるでしょう。これらの基盤モデルを作成する過程で、歴史書に残るべき面白い話はありますか?
実際に私のお気に入りの話をDOTAの日々から教えましょう。このシステムに取り組んでいて、面白いのは、最初に私たちはマイルストーンのリストを書き出しました。この日までにJonasを打ち負かす、彼は私たちの最高のオープンAI従業員で、何千時間ものDOTA2のゲームプレイ経験がありました。この日までにセミプロを打ち負かし、この日までにプロを打ち負かすというものでした。
6月6日頃になるはずでしたが、6月6日が来ても何もできませんでした。彼は私たちを完全に打ち負かしました。2週間過ぎ、3週間過ぎ、毎週1週間ずつその期限を延期し続けました。そしてある日、実際に彼を打ち負かしました。私の結論は、実際にはそれらの出力目標を設定することは実行可能ではないということでした。入力だけをコントロールできます。実行する実験をコントロールできます。そのため、その後はプロジェクトを非常に異なる方法で管理しました。
私にとって今でも信じられないのは、世界選手権である The International の1週間前、世界最高のプレイヤーと1対1で対戦するために現れる予定でした。ようやくセミプロのテスターを打ち負かし始め、「これは実際に起こるかもしれない」と思いました。しかし、彼が実際に休暇中で、本当のセットアップを持っていなかったことを知りました。「ああ、これはうまくいかないかもしれない」と思いました。
私たちはThe Internationalに現れ、訓練を続け、これまでで最大規模のスケールアップをする一か八かの試みを行いました。そして、ランクの低いプロ、以前のプロと対戦しました。結果は30対30対21でした。基本的に勝ち、勝ち、そして1回負けました。それを見てみると、私たちが訓練したことのないアイテムがありました。「ああ、これを追加する必要がある」と気づきました。
チームは一晩中起きて、このものを訓練に追加し、全体を起動しました。基本的にスケールを2倍にし、この時点でCPUコアを最大限に使用していました。訓練を開始し、世界のトッププロと対戦する予定でした。
幸運なことに、彼らは次の日にできなかったので、さらに1日の訓練時間を得ました。2番目の人が来て私たちと対戦し、勝ち、勝ち、勝ち、勝ち、勝ちました。彼は「いいけど、トッププレイヤーはこれには絶対に負けない」と言いました。
幸運なことに、彼がとても長い時間プレイしたため、その人はその日に来ることができませんでした。そのため、さらに1日の訓練時間を得ました。その1日の追加訓練で十分でした。
システムが学んだ新しい行動を各ステップで見ることができ、目の前で成長するのを見るという経験は本当に素晴らしいものでした。
実際、驚いています。感覚的には、The Internationalに向けてエージェントを非常に長い時間訓練したと思いますが、各追加日が意外と重要だったのですね。
そうですね、これは時間とともに変化したと思います。当時は、基本的に2週間の訓練が全モデルの実行でした。毎回ゼロから始めていました。
中間で本当に面白かったのは、この新しいアイテムを入れて訓練していたときのことです。訓練から出すと、これまでで最高のボットでした。ただし、セミプロのテスターが見て、「このボットは本当に愚かなことをしている。最初の波で座って、受ける必要のないダメージをすべて受けている。これを打ち負かしに行く」と言いました。彼は戦いに行き、負けました。「変だな」と思い、さらに5回試しましたが、毎回負けました。
しかし、その後彼は実際に機能する戦略を見つけました。何が起こっていたかを理解したのです。ボットは騙すことを学んでいました。実際に、弱い小さなボットのふりをして、何をしているかわからないふりをし、人が来たら「バシッ」とやるということを学んでいたのです。
そのため、それを打ち負かす方法は、実際に餌に引っかからないことです。ボットにすべてのダメージを受けさせ、座って弱くなるのを待ち、最後に殺しに行くのです。
そこで実際に、最初の波では良いボットを使い、その後は騙すボットを使うという組み合わせを作りました。システムで何が起こっているかを本当によく調べる必要がありました。非常に限られた領域だからこそ、複雑な領域ですが非常に解釈可能で、このような行動を観察し、それを工学的に解決する方法を見つけることができました。
しかし、1対1のバージョンから完全な5対5のゲームに進むと、突然すべての行動分析が機能しなくなりました。以前は、ボットのプレイを文字通り見て、「訓練にこのバグがある、修正する必要がある」と言う人がいましたが、5対5では全くできませんでした。
これが、私たちが分野として進歩した点だと思います。GPT-3を見て、時々ミスをするのを見ると、人々は「なぜそのミスをしたのか」と尋ねます。時には解釈できますが、時には「なぜあなたはテストでミスをしたのか」と尋ねるのと少し似ています。あなたは知っていると思いますが、あなたの説明は必ずしも良いものではありません。複雑な行動をするには、時々非常に複雑な説明が必要なのです。
テッド・チャンの「ソフトウェアオブジェクトのライフサイクル」という短編小説を読んだことがありますか?
読んだと思いますが、覚えていません。
AIペットについての話で、新しい行動を次々と学んでいくという内容です。あなたが説明しているこれらのDOTAエージェントを思い出させます。
そうですね、私たちの未来のどこかでそのようなものを見ることになると思います。
少し話を戻したいと思います。私たちは長年知り合いで、これらの基盤モデルや、さらにはこのDOTA2の競争よりもずっと前からの付き合いです。私が鮮明に覚えているのは、AIの能力が増加し続けることについて、あなたがいかに楽観的で自信に満ちていたかということです。2016年や2017年頃のことを覚えていますが、当時はアルゴリズムがまだかなり弱かった時期でした。あなたは常に非常に自信を持って、「ああ、はい、これらはどんどん良くなっていくでしょう」と言っていました。当時、あなたにそのような決意や技術への自信、楽観主義を与えていたものは何でしたか?
ある意味では、まだ起こっていないことにそのような信念と確信を持つのは非常に直感的なことです。学校にいたときのことを覚えています。NLP研究に興奮して現れ、NLPの教授を探し出して「研究をさせてください」と頼みました。彼は「いいよ」と言って、これらの構文木などを見せてくれました。それを見て、「これは絶対に機能しないだろう」と思いました。なぜ機能しないと感じたのかを説明するのは難しいですが、ただ正しい特性を持っていないように感じました。人間のエンジニアリングと直感と努力をすべてこのシステムに注ぎ込むことになりますが、私は言語がどのように機能するかさえ説明できません。本質的に何かが欠けているように感じました。
ニューラルネットは逆の特性を持っています。ニューラルネットは、データを吸収し、計算を吸収する、すべてを吸い上げるスポンジのようなシステムであることが非常に明確です。そのため、正しい形態を持っていますが、常に欠けていたのは、それを訓練できるかどうか、十分なデータがあるか、十分な計算能力があるか、すべての物事を効率的に押し込めるような学習アルゴリズムを持っているかどうかです。それが一般化されるような形で出てくるのです。それが欠けていたものです。
この分野が最近の復活を遂げたのは2012年のAlexNetの論文だと思います。これが、タスクを本当に圧倒的に解決したニューラルネットの最初の例だったと思います。人々が数十年をかけてコンピュータビジョンに取り組んできたのに、突然このアプローチがその巨大なギャップであなたを凌駕してしまったのです。
それが広がっていくのを見始めました。これらの分断されたさまざまな部門があって、日々壁が崩されていくようでした。長年確立されてきた非常に深い思考方法、長い間続いてきた大きな議論があり、突然歴史と一致する繰り返しの結果が見られるとき、それは私にとって、何かが機能するという最も明確なサインかもしれません。本当の指数関数的な成長が展開しようとしているのです。
オープンAIは2016年に始まったと思いますが、2015年12月から今日までの間に、技術に対する疑念の瞬間はありましたか?それとも常に、これが明らかに未来の道だと考えていましたか?
そうですね、疑念は強い言葉かもしれません。何かを構築するときは、常に疑問を持つ必要があります。実装のあらゆる部分を疑問視する必要があります。グラフが奇妙な動きをしているのを見たら、それを解明しなければなりません。「AIが解決してくれるだろう」と思うだけではいけません。
そのため、多くの戦術的な疑念、私たちがうまくやっていないのではないかという心配がたくさんありました。必要なモデルの大きさを計算し直すなど、多くのミスもありました。
良い例は、スケーリング則です。私たちは、さまざまな軸でモデルがどのように改善されるかを本当に科学的に理解するための研究を行いました。より多くの計算を投入したり、より多くのデータを投入したりした場合などです。ある時点での1つの結論は、基本的にこれらのモデルに注ぎ込むデータ量には限りがあり、非常に明確な曲線があるというものでした。
何年も後になって気づいたのは、実際には曲線を少し誤って読んでいたということです。実際には、誰もが予想していたよりもはるかに多くのトークン、はるかに多くのデータで訓練する必要があります。これらのことがうまく噛み合わず、私たちがそんなに少ない量で訓練していることや、その下流で導き出した結論のいくつかが、単に理にかなっていませんでした。しかし、基本的な仮定が間違っていたことに気づくと、突然物事がはるかに理にかなうようになりました。
ある意味で、物理学のようなものだと思います。物理学を疑うかどうかと聞かれれば、ある程度は疑います。物理学のすべてが間違っていると思います。しかし、それほど間違っているわけではありません。量子力学と相対性理論を調和させていないのは明らかなので、そこに何か間違いがあります。しかし、その間違いは実際には機会です。それは実際に役立つものであることのサインです。物理学が私たちの生活に影響を与え、実際にかなり素晴らしいものであることは嬉しく思います。しかし、まだ果実があるのです。
私にとって、常にそのような感覚がありました。何かがあるのです。もし私たちが押し続け、何らかの形でスケーリング則がすべて行き詰まり、崖から落ちて、これ以上進歩できないとしたら、それがこの分野で最もエキサイティングな時期になるでしょう。なぜなら、私たちはついに技術の限界に達し、ついに何かを学び、次に何をすべきかの絵が見えるからです。
それは本当に素晴らしいですね。実際に、ストライプの運営原則の1つを思い出させます。「ミクロ悲観主義者、マクロ楽観主義者」というものです。これはあなたが話していることと非常に関連していますね。技術の瞬間において極めて悲観的であるか、極めて疑問を持つ必要がありますが、十分に長い時間軸で見れば、信じられないようなものが生まれるのです。
そうですね、興奮する必要があります。これは単にエキサイティングな分野であり、怖い分野でもあります。これらのモデルに対して、ある程度の畏敬の念を持つ必要があります。それらは単なるランダムな数字から始まります。そして、これらの巨大なスーパーコンピュータ、膨大なデータセットを構築し、膨大なエンジニアリング作業を行い、膨大なアルゴリズムの開発を行い、それらすべてを1つのパッケージにまとめます。私たちには、このように機能する他の技術はありません。
私にとって最も基本的な絵は、このスポンジのようなものに物事を注ぎ込み、再利用可能で、さまざまな分野で機能するモデルを得るということです。従来のソフトウェアではそれはできません。従来のソフトウェアは、人間の努力がすべてのルールを書き下ろすことで、そこから収益が生まれます。Sparkクラスタのようなものがあって何かをするかもしれませんが、それはケーキではありません。ニューラルネットワークでは、本当にそれがケーキなのです。
未来について考え、前を向いて、次に何が来るかを考えたいと思います。できるだけ広く聞きますが、AIの未来はどのようなものだと思いますか?
AIの未来は、再び興奮と多くの変化の源になると思います。それは、私たちのミッションの一部として、できるだけポジティブな方法で促進しようとしているものです。
超高レベルで言えば、AIは2020年代の「ちょっと cool なもの」、論文を発表したり、ビデオゲームをプレイしたり、単に楽しい良い科学のようなものでした。2020年がGPT-3で幕を開けたのは本当に興味深いです。これは、モデルそのものとして商業的に有用な最初のモデルでした。文字通りその上にAPIを置き、人々はそれと話し、その上に製品を構築しました。
私たちの初期の顧客の1人が15億ドルの評価で資金調達をしたことを知り、本当に素晴らしいことだと思いました。このモデルを構築し、それがこれほど多くの異なる人々にこれほど多くの価値を生み出すということです。私たちはまだ、これらのモデルができることの非常に初期段階にいると思います。
GPT-3やDALL-Eを見て、最も興奮しているのは、人々に創造的な経済価値をもたらすことができるということです。誰もがより創造的になれるということです。私は絵を描くことはできませんが、今は画像を作成できます。頭の中にあるものの写真を撮り、実際にページ上で見ることができます。
DALL-Eの私のお気に入りの応用の1つは、3Dの物理的なアーティストたちです。彫刻家のような人が、このマシンと対話することで、頭の中にあるものの素晴らしいレンダリングを得て、それを実際に構築するのです。これらのシステムは、人間ができることを増幅するためのものだと思います。
この10年間で本当に見ることになるのは、これらのツールが広まっていくことだと思います。どこにでもあり、すべての企業に組み込まれるでしょう。インターネットの移行のようなものです。1990年に「あなたの会社のインターネット戦略は何ですか?」と聞かれても、「これは一体何なの?」という感じでした。2000年になると「ふーん、面白いかもしれない」となり、少しブームがあり、バストがありました。そして今日では、インターネット戦略について話すことさえ、それがすべてのビジネスに不可欠なものになっているので、もはや別個のものではありません。給与戦略のようなものです。ビジネスの別の部分として選択できるものではありません。AIも同じようになると思います。
移行点があると思います。私たちのミッションは本当に汎用人工知能を構築することです。本当に全体的なタスクを実行できるマシンを構築しようとしています。この技術を限界まで押し進め、経済的に価値のある仕事のほとんどで人間を上回るマシンを構築することです。これは私たちの憲章の定義です。タイムラインについては疑問がありますが、これらの創造的なツールがあり、誰もが増幅されるという絵が、自律的にこれらのタスクを実行できるほど能力が高くなったときに何が起こるのか、その影響は人々が予想するものとは異なると思います。
まだこの増幅があると思いますが、変化は予測が非常に難しく、予期せぬものになると思います。すべてのその価値がどのように分配されるか、人間が自分たちだけでは解決できないかもしれない難しい課題、気候変動や普遍的な教育などを解決することに向けられるようにすることを本当に考える必要があります。このAIパワーの世界への移行は、人類全体が協力して取り組む本当の課題になると思います。
全く同感です。これらの技術のタイミングがどのように機能しているかについて、ほと�ど面白いと思うことが1つあります。去年、誰もがWeb3は暗号通貨だと話していましたが、今では AIが本当のWeb3であることが非常に明らかに感じられます。Web4と呼ぶでしょうかね、1つスキップしましょう。Web1は読むだけ、Web2は読み書き、そして今のWeb3あるいはWeb4は、どう呼ぶかによって、コンピュータが読み書きする、この信じられないほどの新しい段階です。
ここで2つの方向性を挙げていると思います。1つは、GPT-3やDALL-Eなどの既存のツールの進歩と普及で、経済的にますます有用になっていくこと。もう1つは、アルゴリズム自体の継続的な改善で、AGIに向かっていくことです。オープンAIの秘密を明かさないでほしいですが、現在の状況からAGIへのロードマップはどのようなものだと思いますか?
人類は非常に長い間、AGIのマップ上にいたと思います。特にニューラルネットワークの歴史を見ても、一方では2012年がすべてが変わった瞬間だと言います。これらの画期的な結果に投入された計算量のすべての曲線を見ると、年々10倍のペースで増加しています。これは今も続いています。10年間、毎年10倍のペースです。これは信じられないことです。
しかし、私たちは1959年のパーセプトロンにまで遡って過去の結果を調べる研究を行いました。そこで実際に見つけたのは、基本的に非常に滑らかな曲線がそこにもあったということです。画期的な結果に投入された計算量は、まさにムーアの法則そのものでした。それは理にかなっています。人々はより多くのお金を使う意志がなく、これらの実験に一定の金額しか使いたくありませんでした。貧乏な大学院生なので、コンピュータの時間はそれほど多く得られません。そして結果は、利用可能な計算能力が増えるにつれてどんどん良くなっていきました。
2012年に変わったのは、基本的に私たちが「よし、もっとお金を使おう。ROIがあるから巨大なスーパーコンピュータを作ろう」と言ったことです。しかし、根本的には、そのコスト要因を制御すれば、曲線はまったく同じように見えるのです。
基本的に、より多くの計算を投入し、ニューラルネットワークや逆伝播という技術をより良く活用することで、より高性能なモデルを構築するという絵は、非常に不変でした。詳細は少し変わるかもしれません。GPT-3に取り組むのか、Whisperに取り組むのか、音声データを投入するのか、インターネットからのテキストデータを投入するのかなど。私にとって、これらの詳細は、今日何に取り組むか、何をダウンロードするかという意味では重要ですが、この技術のスケールを見れば、実際にはそれほど重要ではありません。
私たちが構築しているのは、ほとんどコンピュータを構築するようなものです。ムーアの法則の歴史を考えてみてください。新しいチップが登場し、また新しいチップが登場する。最高のコンピュータを構築する道筋は何か?答えは、次の最高のチップを作り続け、より良い周辺機器を作り続け、技術のあらゆる部分に取り組み続けることです。
より良いGPU、それらを活用するための素晴らしいソフトウェア、より多く活用できるようになるニューラルネットワーク、スケーリング則、すべての科学、非常に重要なアラインメント(人間の意図と一致させること)、これらすべてがスタックだと思います。
私たちの目標は、毎年、以前は不可能だったことを可能にし続けることです。1年後にチェックしてみるべきですが、2023年には私たちはDALL-E 2とGPT-3を忘れ、新しいことについて話しているでしょう。その道を続ける限り、どこか素晴らしいところに辿り着かないはずはありません。
そうですね。実際、2017年頃、あなたはムーアの法則の継続について非常に興奮していて、それがニューラルネットワークやAIにとってさらに多くの機会を生み出すと考えていたのを覚えています。明らかにそれは実現しました。ムーアの法則の終わりが進歩の停滞を引き起こすことを心配していますか?
そうですね、それ自体を心配しているわけではありません。考え方としては、よく「すべてはスケールに関するものか、すべてはアルゴリズムに関するものか、すべてはデータに関するものか」という議論に陥りがちですが、それは間違った質問です。実際には、これらの要因を掛け合わせるのです。複数の項を掛け合わせるとき、最良のことは実際にそれらすべてを等しくすることです。
過去7年間、より多くのドルを投じてより大きなコンピュータを構築できたことは素晴らしかったです。これはムーアの法則を上回る一つの方法です。しかし、ある時点でもはやドルはなくなります。これらの素晴らしいコンピュータに変えられる砂粒はもうありません。そこには私たちがまだ到達していない限界があります。
しかし、それがすべての進歩を停止させるわけではありません。アルゴリズムの進歩もあります。私たちは研究を行い、同じパフォーマンスに到達するのに必要な計算量を見ると、それも指数関数的に減少していることを示しました。2012年や2014年の最先端のビジョンモデルを訓練するのに必要な計算量は指数関数的に減少しています。より大きなコンピュータを構築できるペースほどではありませんが、アルゴリズムでも驚くべき進歩を遂げています。
この指数関数的な進歩、あの指数関数的な進歩があります。データの指数関数的な進歩についても話しませんが。真実は、私たちは方法を見つけるだろうということです。この分野の歴史は非常に一貫しており、人類は非常に革新的なので、予見可能な未来に壁にぶつかることはないと思います。
今日の科学的な観点から見て興味深い対比の1つは、他のほぼすべての科学分野での相対的な減速と、人工知能の相対的な加速、そして私たちが今まさに入りつつあるこのルネサンスです。他の科学分野と同様に、AIもいつかは限界収益逓減の点に達し、相対的に減速すると恐れていますか?それともそれは遠い未来のことで、今は心配する必要はないと思いますか?
2つのことを考えています。まず、常にS字曲線があります。しかし、S字曲線について興味深いのは、パラダイムシフトが起こる傾向があることです。「シンギュラリティは近い」を読んだことがありますか?
いいえ、読んだことがありません。
これは2004年頃のレイ・カーツワイルの本です。評判だけを聞いていると、少し狂った本だと思っていましたが、実際に読んでみると、これまでで最も退屈な読み物です。基本的にコンピューティングのさまざまな産業の異なる曲線が次々と出てきます。メモリ、チップ上のトランジスタ数などについて、時間とともにパフォーマンスがどのように変化したかを示しています。
彼が導き出した結論は、現在のパラダイムのS字曲線があり、そしてパラダイムシフトがあるという繰り返しのパターンがあるということです。彼が話している例の1つは、CDについてです。CD採用のS字曲線があり、突然どこにでもあり、誰もがCDプレーヤーを持っている、それが時代の技術です。
人々は同じことをさらに進めることに非常に興奮します。ブルーレイがそれだ、と。そして皆がブルーレイに投資し始めますが、何らかの理由でそれは普及しません。それは単に同じことの延長線上にあり、後方互換性がないので、本当に価値がないのです。しかし、本当のパラダイムシフトはストリーミングでした。突然、この新しい採用曲線、この新しいS字曲線が現れ、これは全く異なる方法です。
私たちが高速なコンピュータを手に入れたのは、基本的に100年にわたる5つの異なるパラダイムシフトを経てです。そのため、私たちが今やっていることにもS字曲線があるはずで、それに到達したときにパラダイムシフトがあるだろうと思います。これは再び人間の創意工夫を示しています。
しかし、もう1つの答えは、ある程度それは重要ではないということです。なぜなら、この分野の特徴は、今すぐに役立つということだからです。AIに対して私たちが常に持っていた目標は、コンピュータをはるかに役立つものにすることでした。コンピュータが人類に何をしてきたか考えてみてください。どれだけ多くの問題を解決するのに役立ってきたか。新しい問題も作り出しましたが、全体として見れば、作り出した問題よりもはるかに多くの問題を解決するのに役立ってきたと思います。
私たちがお互いにやり取りする方法、例えば今では迷子になることがほとんどないことなど、コンピュータは根本的に変えました。Google マップを使えば良いのです。今や私たちの手の届く範囲にある本当に素晴らしい問題があり、それらは他の方法では解決できなかったでしょう。
AIは、そのナットを割り始めています。GitHub Copilotを考えてみてください。私たちがそれに電力を供給するモデルを持っています。それが人々にとって役立つ方法は、非常に低遅延の提案を提供することです。基本的にコードの自動補完です。非常に厳しい遅延予算があり、自動補完の提案を得るのに1500ミリ秒以上かかると無価値です。誰もそれを望みません。あなたはもう先に進んでいます。
しかし、私たちが本当に構築したい次の段階は、あなたが生産するのを助けるマシン、それ自体で実質的に興味深い成果物を生産できるマシンです。単にあなたへの速い提案として興味深いだけでなく、実際に質の高い答えだからです。
私たちの現在のGPTイテレーションと話すと、それに詩を書かせることができ、私よりもはるかに優れた詩を書きます。実際に、妻のために詩を書いてもらい、私たち二人とも涙を流しました。私自身にはそれはできません。しかし今は、このマシンと協力することでそれができます。
これが本当の物語だと思います。これらのツールを出して、どこにでも広めようとしています。私たちが今やっていることが行き詰まっても、私たちが作り出せるものの価値はなくなりません。
そうですね。ほとんどのエンジニアの注意力が1500ミリ秒しかないのは残念ですが、それが現実です。
もし何かあれば...私が覚えている限り、オープンAIに取り組むきっかけの1つは、技術の潜在的な負の結果についても懸念していたことだと思います。現時点で将来を見据えたとき、人工知能に関して最も大きな懸念は何ですか?この分野の誰もが避けるべきだと考えているものは何ですか?
AIについて興味深いのは、10年前なら確実に、街で誰かと話したり、AIに関する記事を見たりすると、主にターミネーターが出てくることです。AIについては常にある種の恐怖感が混ざっていました。時には人々はまったく可能性を見出さず、時には可能性を認識しつつも、本当にそれをどのように扱うべきか理解しようとしていました。
その具体的な絵は、私たちはもう少し見え始めていますが、高レベルの絵、つまりこれは非常に強力な技術であり、ポジティブな方向にも negative な方向にも強力になり得るという絵は、非常に正確だと思います。単に楽観的になって、すべてがうまくいくと考えるだけでなく、同時に終末論的にならないことも非常に重要です。すべてが恐ろしく、人類は終わりだ、というのは全く真実ではありません。
この技術は、私たちが今まで作り出した中で最高のものになり得るし、私たち自身の最高のバージョンになるのを助けることができます。しかし、それには空間を非常に慎重に操縦する必要があります。これは単にシリコンバレーの企業が解決すべきことではありません。本当に人類全体の課題だと思います。
私たちは異なる段階を経ていくと思います。現在、私たちは誤用が最も明確な問題であるようなシステムを構築し始めています。システム自体はまだそれほど強力ではありません。GPT-3について心配することは、重要な問題です。バイアスや表現について考え、システムが間違ったことを言うことについて考えます。しかし、その行動は本当にあなたの心の中にあります。それは基本的にページ上の言葉です。言葉は非常に強力ですが、それ自体は世界に直接的な行動を起こしません。
しかし、Codexのようなコード書き込みシステムについて考えてみてください。これはより robot に近いものです。なぜなら、コードを出力し、そのコードを直接実行すれば、実際に世界に直接的なアクチュエータを持つことができるからです。それがアラインされ、正しい種類のことを行っていることを確認すること、バグのあるコードを書かないこと、ウイルスを書かないことなど、それは本当に重要です。
これらのマシンにどのような価値観を入れるか、そしてそれらの価値観に従って動作していることを確認することが非常に重要になると思います。誤用を避け、それを社会レベルで、技術レベルで規制する方法を見つけることは非常に重要です。
また、技術自体が非常に強力になる時点があると思います。多くの人間と話し、チェックされずに動作するシステムについて考えてみてください。それは心配すべきことです。私たちは既に、多くの人々がソーシャルメディアプラットフォームや私たちが使用する技術をどのように使っているか、それらがどれだけ世界に影響を与えているかについて心配しています。そしてそれらは、学習したことから生まれる深い行動を持つシステムではありません。
技術的な制御を見つけ出し、これらのシステムが人類のためにあり続け、私たち全員を強化し加速させることを確実にすることが非常に重要だと思います。これは段階的に高まっていく一連の課題です。私たちの価値観と一致したシステムを構築し、それが何を意味するのかを理解することです。人類の価値観とは何か、それをシステムに組み込むべきなのか、これは簡単な問題ではありません。
技術がそのようなものであり、スケールが引き続き最も重要な要素の1つであるという結論の1つは、技術自体が一種のゲーム理論的な増殖モードに向かうということです。人々は競争し、より大きなスーパーコンピュータを構築してよりよいパフォーマンスを得ようとします。より大きなスーパーコンピュータを持つ者が他のスーパーコンピュータに対して優位性を持ち、賭け金が上がっていきます。これが未来の一つのバージョンだと思いますか?それとも、これがもっとオープンで有用なものになり、国家や大企業が互いに競争するためのツールにならない道筋があると思いますか?
展開しつつある未来は、ある意味でコンピューティング技術全般がどのように展開してきたかの再現のようです。依然として、非常に大規模なスーパーコンピュータが少数の手に握られ、他の誰もできないような驚くべきことをするモデルを作り出すことができるでしょう。しかし、それは人々がこれらのモデルで行う大量のことの価値を取り去るものではありません。
超強力で非常に二面性のある、非常に注意深くアプローチすべき巨大なシステムと、風力タービンのようなものとのバランスを取る必要があります。風力タービンは至る所にあり、実際に風力タービンから得られる価値の総量は、原子炉からの価値を上回っているかもしれません。
これが私たちが向かっている未来だと思います。AI技術はどこにでもあり、オープンソースモデルがあらゆるビジネスに統合され、人々がその上にあらゆる種類のクレイジーなアプリケーションを構築することで大量の価値が提供されるでしょう。私たちはそれをサポートし、促進したいと考えています。
同時に、他のすべてを一マイル先行く新しい非常に高性能なものに対して、どうするかという二重の答えが必要です。それはより慎重に扱う必要があります。このバランスは難しく、簡単ではありません。私たちの組織として、これを乗り越えようとしてきました。内部で本当の実存的な苦闘がありました。私たちの目標は誰もが力を得ることです。このAIへの移行に誰もを連れて行くことです。
それを行う最良の方法についての私たちの考えは、技術が展開するにつれて変化してきました。これがどこに向かうかについて感覚をつかみ始めています。すべてのビルダーたちのエネルギーを見るのは本当にエキサイティングです。人々は「ああ、これは本当に機能するんだ」と気づき始め、構築する時が来たと感じているからです。
素晴らしい会話でした。ありがとうございます、グレッグ。次にお会いしたときは、AIが書いた詩を読んでもらいますね。
ありがとうございました。