
AI: 新しい種類の知能と格闘する
※iOS18のSafariで「ページの読み上げを聞く」機能(2倍速)を使用した場合、全て聞き終わるのに57分くらいかかります。
広大な宇宙には無数の星や銀河が存在し、人類は常に存在の謎を理解しようと努めてきました。しかし今、私たちは新たなフロンティアの入り口に立っています。それは遠い宇宙や時間の領域ではなく、私たち自身のデジタル景観の中にあります。人工知能、すなわちAIです。AIという言葉を何度も耳にしたことがあるでしょう。しかし、アルゴリズムや計算の奥底に何があるのでしょうか。
今日、私たちはその深層に迫ります。過去の道具と同様に、AIは大きな利益をもたらすことを約束しますが、同時に重要な問題も提起します。私たちは革新の黄金時代の入り口にいるのか、それとも自らの陳腐化の瀬戸際に立っているのでしょうか。
単に長所と短所を比較するだけではありません。私たちはこれらのAIシステムの仕組みを根本的に理解しようとしています。例えば、大規模言語モデルは驚くほど多才で、テキストの生成、質問への回答、さらには音楽の作曲も可能です。しかし、これらのモデルはどのように「考える」のでしょうか。そもそも「考える」のでしょうか。もし私たちのように考えないとしたら、彼らは一体何をしているのでしょうか。
今日のプログラムでは、これらのデジタルマインドの内部構造を垣間見ることができます。単に驚くだけでなく、理解するために。魔法を解き明かし、現実に取り組むために。理解すれば、先見の明を持って、賢明に、そして目的を持って行動することができるのです。
人類とテクノロジーの交差点に立つ私たちは、この旅を共に始めましょう。「AI: 新しい種類の知能と格闘する」へようこそ。
[音楽]
皆さん、こんばんは。ありがとうございます。私はブライアン・グリーンです。そして、私は本物のブライアン・グリーンだと付け加えるべきかもしれません。なぜなら、皆さんの多くがすでに推測し、結論付けているかもしれませんが、あそこに映っていたのは私ではありませんでした。あのテキストの一言一句は私が書いたものではありません。人間は誰も書いていません。あのテキストはすべて大規模言語モデルによって書かれたものです。あの映像で見た一連の視覚効果は大規模言語モデルであるChatGPTによって選ばれたものです。そして、あそこに映っていたものは私が実際に言ったものではありません。
皆さん: より良い仕事をしたと言っているんですね。
ブライアン: ええ、あなたには独特のバイナリーな魅力がありますね。ありがとう。でも、私は言葉や概念をつなぎ合わせることはできても、感情の本質は欠けています。懐かしい思い出を大切にしたり、優しい風の感触を味わったり、革新のスリルを楽しんだりすることはできません。
皆さん: それはとても悲しいですね。
ブライアン: みなさん、私のデジタルな分身に少し愛を注いでください。助けてくださいね。
皆さん: そうですね。
ブライアン: ありがとうございます。私は感じていないと思いますが、その気持ちは嬉しいです。
皆さん: まあ、考えてくれたことが大切ですね。私の場合はアルゴリズムですが。
ブライアン: 終わったら電源を切ることを忘れないでくださいね。
皆さん: 了解しました。おやすみなさい、デジタルな私。
ブライアン: おやすみなさい、有機的な私。
はい、そうですね。ありがとうございます。なぜそうしないのでしょうか。
[拍手]
ええ、システムがこれをできるというのは、ある人にとっては印象的で、ある人にとっては少し怖いかもしれません。人類の歴史を振り返ってみると、人間の発展の未来の方向性を変えた重要な瞬間、転換点、混乱点がいくつかあったと思います。言語の獲得、火の家畜化、文字の獲得、車輪を持つ能力、無線通信を学ぶ能力、印刷機、自走車両を持つ能力など、これらはすべて私たちの歴史の展開を根本的に変えた重要な技術開発でした。
そして、今夜ここで議論することになるかもしれませんが、私たちは同様の転換点にいるのかもしれません。私が特に啓発的だと思う考え方の一つは、すべての現実を3つの一般的なカテゴリーに整理することです。大きなもの、つまり宇宙があります。小さなもの、つまり原子や分子があります。そして複雑なものがあります。
大きなものについては、アインシュタインの一般相対性理論が私たちに本当に深い洞察を与えてくれます。その洞察を大きな宇宙をコントロールすることに変換することはできませんでしたが、知的洞察は劇的です。小さな領域では、量子力学があります。そして、量子力学の理解を活用して、微小世界をコントロールすることができました。例えば、集積回路を生み出し、それが今夜ここで話す予定のすべてのものの背後にある計算能力の鍵となっています。
しかし、複雑なものの領域では、長い間、それは手の届かない領域でした。複雑なものの領域は、本当に生命と心、つまり知能の領域です。しかし今、ここ数十年で、合成生物学によって、私たちは本当に生命を理解し、コントロールする能力を得つつあります。そして、今見たような洞察、そして皆さんが疑いなく経験したこれらのシステムを使って遊んだことは、合成知能、人工知能も複雑なものの領域を私たちがコントロールできる力の中に持ち込む可能性をもたらしています。
これは興奮する一方で、ある人にとっては非常に怖いものです。今夜私たちがしようとしていることは、本当にその両方の可能性を探り、私たちがどこにいるのか、そしてどこに向かっているのかを理解しようとすることです。例えば、今見たような作品を生み出すシステムがあるとき、それはClone Works AIスタジオのものです。オープニングの作品に拍手を送りましょう。
フォーク。しかし、そのような能力を持つこと、ディープフェイクは、民主主義の性質と私たちの種の未来にとって何を意味するのでしょうか。
そこで、最初のゲストを招きたいと思います。ヤン・ルカンさんです。彼はニューヨーク大学のデータサイエンス、コンピューターサイエンス、神経科学、電気工学のシルバー教授です。彼はまた、フェイスブックのAI研究の副社長兼ディレクターでもあります。彼は生成AIの基礎となるいくつかの主要な革新をリードしました。2018年には、深層学習に関する彼の仕事でチューリング賞を受賞しました。ヤンさん、ようこそ。
ヤン: ありがとうございます。
ブライアン: ご存知の通り、昨年11月以降、私たちは全員がChatGPTなどで遊ぶ能力を得ました。多くの人が、コンピューターがまだできないと思っていたことをコンピューターがしているという驚きの瞬間を経験したと思います。これらのシステムがどのようにして行っているのかについて、簡単な概要を教えていただけますか。セバスチャン・ブベックが出てくる会話の第2部で詳しく説明しますが、これらのシステムがどのようにして行っているのかについて、簡単な概要を教えていただけますか。
ヤン: とても興味深い質問ですね。私たち研究者にとって、革命は2、3年前に起こりました。研究コミュニティの人々にとっては、驚くべき結果がありました。非常に大規模な人工ニューラルネットを大量のデータで訓練すると、以前のシステムよりも大規模に何らかの創発的な特性が発生することがわかったのです。コンピュータービジョンなどのシステムでもある程度できましたが、ある程度まででした。私たちにとって、革命は11月に起こったのではなく、3年前に起こりました。
ブライアン: そうですね。明らかに私はこの分野の専門家ではありませんが、同僚たちが20年か25年くらい前から、AIが根本的に変わる瀬戸際にいると話しているのを聞いていました。私たちはついにその臨界点に達したのでしょうか。つまり、何十年もの間、本当に起こっているようには見えなかったのですが。
ヤン: そうですね、AIの歴史は興味深いです。新しいパラダイム、新しいアイデアが発見される一連の出来事があり、新しいパラダイムが現れるとすぐに、人々は「それだ、それが解決策だ。今や知的な機械を作ることができる」と言います。それは50年代に始まりました。AIの非常に有名な人々、最終的にチューリング賞を受賞することになったニューウェルとサイモンが「このプログラムを書こう、一般問題解決器と呼ぼう。世界のすべての問題を解決できるようになる」と言いました。彼らは50年代にそのプログラムを書きました。
ブライアン: 世界のすべての問題を?
ヤン: すべての問題を、目的を満たすという観点から問題を定式化できる限り。
ブライアン: ええ、可能な解決策の検索を行うと。
ヤン: そうです。世界のすべてのことをそのような観点から定式化できると彼らは言いました。当時彼らが認識していなかったのは、興味深いすべての問題には、今日でも完全に到達不可能な信じられないほど大量の計算が必要だということです。基本的に、そのプログラムは失敗しました。彼らがそれを認識するのに数年かかりました。
ほぼ同時期に、別の努力がありました。人々は「いや、違う、違う。知的な機械を作る方法は、学習を可能にすることだ」と言いました。これは50年代に始まりました。彼らは「よし、パーセプトロンと呼ばれるこの機械がある。これは魔法のようなものだ。文字の画像を見せることができ、訓練することができる。そうすれば、CとDの区別や、戦車とジープの区別などを学習できるようになる」と言いました。
そして彼らは、実際にはそれほどうまくいかないことに気づきました。複雑な画像やそのようなものを区別するようにシステムを学習させることは本当にできませんでした。そのため、それは非常に限定的でした。再び、人々は解決策を持っていると思いましたが、それは失敗に終わりました。
実際、その種の技術は、実際に人々がそれに取り組んでいて、名前を変えて、それが実際に多くの現代のコミュニケーション技術の基礎となりました。適応フィルターと呼ばれるものです。非常に奇妙な話です。
そして、10年後に別の動きがありました。エキスパートシステムと呼ばれるものです。再びAIに大きな関心が集まりました。日本が第5世代コンピューターと呼ばれる大きなプログラムを開始しました。これらは推論や論理的思考などができるはずでした。これの問題は、学習がなかったことです。そのため、人々が事実やルールをコンピューターに入力しなければなりませんでした。
それは少数の問題には機能することがわかりましたが、本当に知的な機械を作ることはできませんでした。そのため、10年後にこの種の研究への関心は完全に消えてしまいました。
ほぼ同時期に、ニューラルネットの新しい波が現れました。これは80年代後半から90年代初頭のことでした。私が80年代後半、いや、早い80年代に
キャリアを始めたのはこの頃です。そこでのアイデアは、再びパーセプトロンのアイデアをリサイクルして、機械が訓練されるようにしましたが、より強力なものにしました。そして、今日でも大規模言語モデルなどで使用している新しい技術を見つけました。人工ニューラルネットを訓練するための技術です。これは約10年間非常に成功しましたが、その後人々は興味を失いました。コンピューターが遅すぎる、データセットが小さすぎるなど、様々な問題がありました。
そして、約10年前に再び注目を集めるようになりました。今日AIについて耳にするのは、いわゆる深層学習技術への関心の再燃のためです。基本的に、大規模なニューラルネットを訓練することができるようになったのです。今日我々が目にしているのは、より強力な機械、より大きなデータセット、そしてそれによって非常に大規模なニューラルネットを構築できるようになった効果です。脳のシナプスに相当するものが数十億、数百億あるのです。そして、それらはかなり驚くべきことができます。
ブライアン: 第2部の会話でセバスチャン・ブベックが登場したときに、もう少し詳しく中身を見ていきますが、私のような人、そしておそらく一般の人々にとって、少し頭がクラクラするようなことができるシステムがあります。私が行ったのは、ワールド・サイエンス・フェスティバルのプログラムの前置きを、ブライアン・グリーンのスタイルで書いてくれないかと頼むことだけでした。そうしたら、先ほど聞いたスクリプトが出てきたのです。正直言って、それが出てきたとき、少し気分が悪くなりました。でも、過去に私が書いたものを見て、それらにインスピレーションを受けているのかもしれないと合理化しました。そうすれば、ある意味で私も関わっていたことになりますからね。
しかし、それはさておき、あなたは今日起こっていることにそれほど感銘を受けていないことで有名ですね。その理由を教えていただけますか?
ヤン: はい、過去5年間のAI技術の進歩が驚異的で印象的であることに疑問の余地はありません。しかし、私たちは言語を流暢に操るシステムを見て、それらが知的であると簡単に騙されてしまいます。言語を操ることができる存在の唯一の例は他の人間だからです。言語を柔軟に操ることができる何かを見ると、その存在が人間と同じタイプの知能を持っていると仮定してしまいますが、それは単に事実ではありません。これらのシステムは信じられないほど愚かです。
それらは非常に有用です。開発される必要があり、商業化されつつあり、素晴らしいものです。しかし、それらはある程度特化しており、多くの面で非常に愚かなのです。
部分的に愚かなのは、言語だけで訓練されているからです。人間の知識のほとんどは言語とは関係がなく、動物の知識は絶対に言語とは関係ありません。
ブライアン: 例えば、哲学者の中にはその statement に同意しない人もいるでしょうね。ヴィトゲンシュタインは「私の言語の限界が私の世界の限界である」と言いました。あなたはそれを事実として述べているのか、それとも仮定として述べているのですか? 私はあなたに同意しますが、言語が人間の理解のごく一部に過ぎないと本当に確信していますか?
ヤン: 私は、言語は知識を伝達し、脳に大量の知識を蓄積するための方法だと考えています。言語は効率的だからです。言語には離散的な概念や言葉がありますからね。しかし、オランウータンには言語がありません。彼らは信じられないほど賢く、私たちとほぼ同じくらい賢いのです。私たちは自分たちの方がずっと賢いと思っていますが、そうではありません。
オランウータンは、物理学者のように、これを小さな力で押せば動くということを理解できます。その文をどう解釈すればいいのかよくわかりませんが、そのまま続けます。これを押せば動きます。今は水が入っていますが、水が入っていなければおそらく倒れるでしょう。同じ力でこのテーブルを押しても動きません。
我々には物理学の直観的な概念があります。これは赤ちゃんの頃に学びます。今日我々が持っている大規模言語モデルや他のAIシステムは、これらのいずれも理解することができません。ある意味で、今日最も賢いAIシステムは、あなたの家のネズミよりも物理的世界の理解が乏しいのです。
ブライアン: ただ、お聞きしたいのですが、システムが訓練されたデータの中に、あなたが今挙げた例のような基本的な物理学の説明があれば、それを「理解」とは考えないのでしょうか? なぜなら、十分に訓練されたシステムに、あなたが先ほど提案したように、テーブルを押したらどうなるかと尋ねれば、「倒れない」と答えるかもしれません。
ヤン: はい、それは本当に重要な点です。システムに説明し、言葉で記述し、システムが学習して新しい状況で再利用できるテンプレートに対応する状況については、うまくいくかもしれません。
しかし、ここには本当に複雑な効果がたくさんあります。例えば、横から押すと回転します。テーブルには摩擦があり、それが変わる可能性があります。ですので、同じボトルをここで床の上で押すと、倒れます。滑りません。
これらのすべては、実際には言語で表現されていません。私たちが世界について知っていることのほとんどは、言語に反映されていません。哲学者たちが自問している哲学の問題があります。言語だけで訓練され、感覚入力を全く持たない知的な機械を作ることができるでしょうか? この質問に対する私の答えは、絶対にノーです。
ブライアン: わかりました。コロンビア大学での私の基礎クラスを、軽い物体を聴衆に投げ入れ、誰かにそれをキャッチしてもらうことから始めるのが好きです。そして、手をどこに置くべきかをニュートン力学の計算をせずに知っていたことがいかに驚くべきことかを納得させようとします。これが直観的な物理学だと説得しようとするのです。
しかし、さらに進んで、なぜそのような直観を持っているのかを尋ねます。その答えは、自然選択による進化です。おそらく、物理的世界をよりよく理解するように装備された私たちの先祖は、その環境をより効果的に操ることができ、生き残ってその能力を次の世代に伝える機会がより多かったのでしょう。
これは、私たちの知能が一般的で広範なものではなく、非常に特殊なものであることを示唆していると思います。それは本当に、生き残るために開発されたものなのです。
ヤン: その通りです。AIの人々が話す AGI、人工汎用知能という言葉があります。基本的に人間レベルの知能、人間タイプの知能を指します。私はその表現が嫌いです。なぜなら、人間の知能は実際に信じられないほど特化しているからです。
コンピューターが人間よりもはるかに優れていることがたくさんあることを、私たちはコンピューターのおかげで知っています。今日では、多くのテストでコンピューターの方が人間よりも優れていることがわかっています。もちろん、何十年も前から、算術や方程式を解くこと、積分を象徴的に計算することなどでコンピューターの方が優れていることは知っていました。
しかし今では、チェスや囲碁、ポーカー、外交などのゲームでも、コンピューターが本当に優れていることがわかっています。これが示しているのは、コンピューターが知的だということではなく、人間が本当にダメだということなのです。私たちは、チェスのような多数のシナリオを想像することが極端に苦手なのです。
ブライアン: 囲碁でも同じですね。
ヤン: そうです。囲碁でも、誰かが打つのに依存する多数のシナリオを想像しなければなりません。各手には約36の可能な手があり、それが指数関数的に増えていきます。私たちの脳にはこれを収めることができません。そのため、代わりに良い手とは何かについての一種の直感を発達させるのです。
ブライアン: 現代の囲碁やチェスのシステムも実際にこれを行っていますよね。
ヤン: はい、しかし、彼らはまた計画を立て、はるかに大きな記憶力と、あるいは作業記憶と木の探索を行う能力を持っています。これが私たちを打ち負かす理由です。私たちは本当にこれが得意ではありません。
ブライアン: その点について、そしてあなたの言葉を使えば、「人間はダメだ」という技術用語を使って、私の理解では、AIがその潜在能力を発揮するためには、ある程度人間の知能をモデルにする必要があるというのがあなたのビジョンですね。
ヤン: まず猫から始めるでしょう。なぜなら、猫が持っているような世界の理解や知能のタイプを再現する方法がわかっていないからです。
ブライアン: では、そのビジョンを説明していただけますか? これは一つの枠組みですね。
ヤン: はい、AIシステムが本当にできない特性がいくつかあります。その一つは計画立てです。これは20年前の古典的なAIの人々が本当に興味を持っていたトピックでした。
ブライアン: 一般問題解決器を含めてですね。
ヤン: はい、しかし大規模言語モデルのような現代のシステムは計画を立てることができません。少なくとも非常に単純な計画立てしかできません。
ここに徐々に現れるのは、完全なAIシステムが猫や犬、人間で観察されるような知能を持つために必要な異なるモジュールのアーキテクチャです。
それは上部にある構成器と呼ばれるものから始まります。これは基本的に、脳やシステムの残りの部分が何をするかを組織する監督者、司会者のようなものです。他のシステムに「あなたはこの状況に直面しています。この目標を達成するためにそれをしなさい」と伝えます。
もちろん、システムが適切に機能するためには、現在の世界の状態について何らかの考えを持つ必要があります。これは知覚と呼ばれます。人間では、それは脳の後ろにあります。ですので、ここでも脳の後ろに表現されています。脳の後ろは視覚的知覚、聴覚的知覚は側面にあります。これは単に目から来るピクセルを処理し、それを世界の状態の抽象的な表現に変換します。名前を付ける必要はありません。赤ちゃんは物体のカテゴリーを認識できますが、その名前を知りません。すべての動物もそれができます。
世界の状態についての考えを持ったら、一連の行動を取ったら何が起こるかを想像する必要があります。世界で何が起こるかを予測できますか? それがここで世界モデルと呼ばれるものの役割です。実際、ここに最も多くの知能が入ります。人間では脳の前部にあり、人間では特に大きくなっています。これにより、特定の行動が特定の結果をもたらすと予測することができます。
特定の行動の結果として何が起こるかを予測できれば、計画を立てることができます。一連の行動を計画して特定の結果に到達することができます。
これはコストモジュールによって決定されます。コストモジュールは基本的に、想像した世界の予測された状態が、自分で設定した目標、または構成器が設定した目標をどの程度満たしているかを測定するものです。
このコストモジュールは基本的に、想像した結果に対する不満足度を測定します。これが感情の座です。特定の状況が悪い結果をもたらすと予測し、それについて何もできないと恐怖が生まれます。目標が満たされていません。
ですので、これは予測によって生み出された感情の一種です。しかし、即座に生じる感情もあります。例えば、私があなたをつねったら、あなたはそれをあまり好まないでしょう。そして、もう一度つねろうとすると、おそらくあなたは身をすくめるでしょう。なぜなら、あなたは私についてのモデルに、私がつねる人だという事実を含めるからです。
ブライアン: 私はつねる人ですね。
ヤン: はい。最後のモジュールはアクターです。アクターの役割は基本的に、世界モデルを通じて予測に従って、自分が設定した目標を満たす、このコストを最小化するなどの一連の行動を生成できるかどうかを判断することです。
これが計画を立てる方法です。実際、これは工学では非常に古いアイデアで、1960年代にさかのぼります。しかし、観察によって学習する世界モデルを用いて、知的な方法でこれを行う方法はまだわかっていません。
ブライアン: これについてどの程度進んでいるのでしょうか?
ヤン: 進歩しています。特に過去2年間で。原理は大規模言語モデルで使用されているものと多少似ています。自己教師あり学習と呼ばれる一連の学習技術を使用しています。これについて少し説明できるかもしれません。
ブライアン: はい、対応するグラフィックスを見ることになると思います。
ヤン: はい、それは良い例です。これらの大規模言語モデルの訓練方法は、テキストを見せて、いくつかの単語を削除します。もちろん、私たちはその文を知っていますが、たとえ文を見ていなくても、おそらくその文に欠けている単語を推測することができるでしょう。
そして、欠けている単語を予測するために非常に大規模なニューラルネットワークを訓練します。そのプロセスで、ネットワークは意味、構文、文法を含むテキストの表現を学習します。複数の言語で訓練することもできます。コンピューターコードで訓練することもできます。あらゆる種類のものでそれを訓練できます。そして、言語の内部構造を、言語の内部表現を使用して翻訳したり、ヘイトスピーチを検出したり、トピックを分類したり、テキストの要約や抄録を生成したりするなど、さまざまなことができるように学習します。
次の図に進めますか。これの特別なケースは、自己回帰的LLMと呼ぶべきものです。LLMとは何でしょうか?
ブライアン: LLM、大規模言語モデルですね。みんな知っていますが、確認のために。
ヤン: はい、私が説明したことの特別なケースで、マスクする単語がテキストの最後の単語だけの場合です。長いテキストを取り、数千語の窓を取り、最後の1語をマスクします。そして、その最後の単語を予測するために巨大なニューラルネットを訓練します。
システムをうまく訓練すれば、常に正確に単語を予測することはできません。予測するのは辞書内のすべての可能な単語に対する確率分布です。先ほど見た文では、「猫が台所で何かを追いかけている」というものでした。空白は「ねずみ」かもしれませんし、「レーザーポインター」かもしれません。正確には分かりませんが、システムを訓練して、「猫」の確率が0.5、「レーザーポインター」の確率が0.2、他のものの確率が0.01というように、辞書内のすべての単語に対してスコアのリストを生成することができます。
そして、これを自己回帰的予測と呼ばれるものに使用できます。これが大規模言語モデルの実際の働き方です。次の図の下部を見ていただけますか。システムにテキストの窓を与え、次の単語を予測させ、その次の単語を入力窓に挿入します。すべての単語を1つずつシフトし、次の次の単語を生成するよう求めます。そしてそれをシフトし、次の次の次の単語を生成するよう求めます。このようにして、システムは1つずつ単語を生成していきます。
ブライアン: つまり、システムに膨大な量のテキストを与え、システムが摂取したすべての単語に基づいて、特定の単語の配列、単語のさまざまな組み合わせが現れる確率や可能性を構築し始めるということですね。それを使って、特定の配列で最も可能性の高い次の単語を予測し、その単語を含めてより長い配列を作り、その拡張された配列で次の単語の確率を予測し、単語ごとに最も可能性の高い文や段落を構築していくということですね。
ヤン: その通りです。ただし、次の単語について本当に大きな間違いをすると、すべてが外れてしまうという問題が1つあります。
ブライアン: 発散プロセスになりますね。
ヤン: はい、技術用語を使えば発散プロセスです。これが、これらのシステムが幻覚を見る理由です。事実に正確ではありません。時々、ほとんどの場合、時々です。ですので、詩には良いでしょう。正確でなくても構いませんから。しかし、数学や物理学には適していません。
明らかに計画はありません。システムは前もって何を言うか考えずに、ただ1つずつ単語を生成するだけです。もちろん、前の単語の表現を持っているので、一貫性はありますが、答えを計画していません。本当に反応的です。自動書記と呼ばれる詩の運動全体のようなものです。何を書くか考えずに、ただ1つずつ単語を書いていくのです。基本的にそれが起こっていることです。
ですので、これらのものは非常に限定的です。脳の一部のモデルと考えることができますが、その脳の一部はウェルニッケ野とブローカ野で、脳のこの側面にあるこのくらいの小さな部分です。言語を操作しますが、残りはどうでしょうか。
ブライアン: あなたは、人工知能のビジョンで実際の世界モデルを持ち、実際に行動を計画するという、同様の種類の訓練手順が関連していると主張していますね。
ヤン: はい、大きな問題は、世界モデルを持つシステムをどのように訓練するかということです。明らかなアイデアは、同じタイプのモデルを取りますが、入力が単語ではなく、例えばビデオのフレームであるとします。ビデオで次に何が起こるかを予測するようにシステムを訓練します。
例えば、このボトルをテーブルの上に置いて持ちます。指を離すと、皆さんは何が起こるか知っています。落ちます。どの方向に落ちるかは言えません。十分な知覚がないからです。そして、私が指を離すことも分かりません。落ちるだろうという予測はできます。
ビデオで何が起こるかを予測するようにシステムを訓練できれば、おそらく物理的世界の一種のモデルを獲得するでしょう。論理的なことは、これらの大規模言語モデルの1つを使用し、単語を含める代わりに、ビデオフレームを単語のようなものに変換することです。トークンと呼びます。
しかし、それはうまくいきません。他の技術を見つける必要があります。うまくいかない理由、少なくとも私が思う理由は、何が起こるかを正確に予測することができないという問題があるからです。この実験を行うと、一方向または他方向に落ちる可能性があります。
システムを1つの予測をするように訓練することはできません。ビデオの続きで起こる可能性のある多くのことがあり、システムはすべての種類の可能なシナリオを予測できる必要があります。無限の数のシナリオに対する確率分布を表現する方法がわかりません。単語ではできます。言語は簡単です。辞書には5万語の関連性があります。5万の確率のリストを表現することはできます。しかし、ビデオフレームに対してはできません。基本的に高次元の連続空間にあるからです。
ブライアン: それでも、あなたは合理的な期間内にそこに向かうと確信していますね。これらの大規模言語モデルは、おそらく将来のAIを実際に推進するものではなく、興味深い一時的なものだと考えているのでしょうか。
ヤン: その通りです。私の将来のビジョンは、ビデオを見ることでビデオから世界を表現する方法を学習できる技術を開発できるようになることです。おそらく予測モデルを持ち、システムが行動を想像し、その行動の結果を表現空間で想像できるようになります。
私が提案するこの種のアーキテクチャは、JEPAと呼ばれています。Joint Embedding Predictive Architectureの略です。意味は説明しませんが、基本的にビデオのピクセルを予測する代わりに、そのビデオのピクセルの表現を予測します。ビデオで何が起こるかのすべての詳細を予測するのではなく、システムが取る可能性のある行動の結果として、そのビデオで何が起こるかを抽象的な形で予測します。
このようなシステムがあれば、世界モデルができます。そして、その世界モデルを先ほど示したアーキテクチャに統合し、おそらく計画を立てる能力を与えることができます。
計画を立てる能力があれば、どの行動シーケンスを取るかを決定する際にいくつかのコスト関数を組み込むことができます。これらのコスト関数は、システムが安全で制御可能であることを保証するガードレールとなります。今日の自己回帰的LLMではこれは当てはまりません。
私の予測では、5年以内におそらく自己回帰的LLMは消えるでしょう。私が目的駆動型AIと呼ぶものに置き換えられるでしょう。私が提案したような種類のアーキテクチャに沿ったものです。これらのシステムは単に言語を操作するだけでなく、希望的には世界も理解するでしょう。
5年で人間レベルのAIには到達しません。それには数十年かかるかもしれません。私には分かりません。想像以上に長くかかるかもしれません。常に誰もが想像するより長くかかるものですから。
ブライアン: そのビジョンを踏まえて、今話していた事柄について補完的な視点を提供できる2人目のゲストをお呼びしたいと思います。セバスチャン・ブベックさんです。彼はマイクロソフトリサーチのパートナー研究マネージャーで、大規模言語モデルにおいて知能がどのように現れるかを理解することに焦点を当てています。マイクロソフトに入社する前は、プリンストン大学のオペレーションズリサーチ学部の助教授でした。参加してくださってありがとうございます。
ヤンとの会話で、人間の知能、猫の知能、大規模言語モデルの知能など、さまざまな種類の知能について話しました。知能をどのように定義するかについて、そしておそらく人々が遊んだ大規模言語モデル、つまり私たちのオープニングシーケンスを生成したものが、その定義に対してどのように位置づけられるかについて、あなたの考えを教えていただけますか。
セバスチャン: はい、もちろんお話しできます。知能を定義することは非常に難しいです。空間と時間を定義することと同じくらい難しいです。これはあなたがよくご存知のことですね。知能を定義することはそれほど簡単ではありません。しかし、知的なシステムが持つべき基本的なことについては、誰もが同意できると思います。
明らかに、推論する能力が必要です。推論の定義が何であれ。計画を立てる能力が必要です。これはヤンが言及し、多く話していたことです。そして、世界で進化する中で経験から学ぶ能力が必要です。新しい事実を学ぶ能力です。
さらに、これら3つの標準的なブロックに加えて、非常に一般的な方法でそれを行う能力も必要です。これが、ヤンが話していた人工汎用知能(AGI)が関係してくるところです。推論し、計画を立て、経験から学ぶことができるシステムを望んでいますが、それを狭い領域でのみ行うのではなく、一般的であることが本当に不可欠です。それが知能の鍵です。
数年前の囲碁のAlphaGoや、実際に世界チャンピオンを打ち負かしたシステムを振り返ってみると、これらはAIと呼ばれていました。私の目から見ると、これらは知能ではありませんでした。非常に狭いシステムで、可能性の木を非常に効率的に探索できるタスクを行うことができました。
これらのシステムとChatGPTやGPT-4の間には大きな隔たりがあります。これらのシステムは一般的です。それらのことを行うことができますが、制限されていません。多くの異なる領域でそれを行うことができます。
ブライアン: では、これら3つの基準に対して、ChatGPTはどのように位置づけられますか?
セバスチャン: はい、少し話を戻しますが、私は数ヶ月前、全ての人が利用できるようになる前にGPT-4にアクセスする機会がありました。マイクロソフトで働いていて幸運だったのです。新しいBingにGPT-4を統合する作業をしていたので、昨年の夏にアクセスできました。全ての人がChatGPTにアクセスできるようになる数ヶ月前でした。
私はこの分野で15年間働いてきました。以前は数学のAIをしていました。数学では不可能性の結果を証明することが好きです。それに時間を費やします。ある種のことは起こり得ないことを証明するのです。ヤンが話していたように、それらのことは起こり得ないと。
そして、GPT-4にアクセスしたとき、トランスフォーマーのようなアーキテクチャでは特定のことは不可能だと証明できると感じていました。しかし、GPT-4にアクセスしたとき、それが何ができるかに驚きました。何度も何度も驚かされました。
当時、本当に謙虚な経験でした。私たちが行ったのは、単に驚くだけではありませんでした。ヤンがよく話す問題の1つは、これがインターネット全体で訓練されているので、そこにあるすべてのことを知っているということです。そのため、単に多くの知識を持っているから、検索できるから印象的に見えるだけです。
本当に変わった質問をして、検索できないもの、自分で新しいものを考え出さなければならないものを尋ねる必要があります。推論、計画、経験からの学習に関して、モデルと何ヶ月も遊んだ後の私たちの評価は、間違いなく推論できるということです。これについては個人的に全く疑いがありません。
計画を立てることはできません。その点でヤンに同意します。計画を立てることはできませんが、それは微妙です。計画の意味は、来週の休暇を計画するようなことではありません。それはもっと数学的なタイプの計画です。
経験からの学習については、混在しています。なぜなら、もちろんChatGPTのようなモデルは、少なくとも原則的には時間が固定されています。OpenAIが実際に何をしているのかは分かりませんが、原則的には時間が固定されています。時間が固定されていれば、新しい経験から学習することはできません。
ブライアン: 原則的にと言いましたが、実際にはそうだと思います。誤解していますか?このシステムが常に訓練を続けることができると考えていたのですが。
セバスチャン: はい、その通りです。原則的にというよりも、実際にと言った方がいいかもしれません。これらのニューラルネットワークを訓練する方法があります。巨大なコーパスで訓練し、機械を固定します。そして、それと対話することができます。
ブライアン: 継続的に訓練することは、原則的には可能ですね。
セバスチャン: はい、しかし実際にはそれをどうすればいいのかはまだ分かっていません。
ブライアン: なるほど、興味深い評価ですね。あなたは、起こっていることのいくつかにかなり感銘を受けたり、驚いたりしたと前置きしました。ほとんど不可能性の証明があったと言いましたね。あなたが話したことの一つの例は、ヤンが詩は大規模言語モデルの「安い餌食」だと言いましたが、それでもシステムに作らせた詩だと思います。それはかなり興味深いものでしたね。
セバスチャン: はい、そうです。詩に入る前に、推論について、そしてヤンが話していた一種の不可能性についてもう一つ言いたいことがあります。
GPT-4がリリースされたとき、ヤンはGPT-4への挑戦をTwitterで全員に公開しました。円上で回転するギアについての非常に興味深い質問でした。ギア1を回転させると、ギア6はどのように回転するか、というものです。ヤンは8つのギアについて質問しました。
ブライアン: つまり、これは一連のギアがすべて興味深い方法で噛み合っていて、1つを回すと、連鎖の下の方で何が起こるか、ということですね。
セバスチャン: その通りです。ヤンはある意味でコミュニティを挑発していたのだと思います。8つのギアなら簡単です。すべてが簡単に回転します。誰かが「GPT-4で試してみたら、うまくいった」と言うと、ヤンは「じゃあ7つで試してみて」と言いました。7つだとシステムは過剰拘束されるので、何も動きません。
GPT-4にこの質問をそのまま尋ねると、間違った答えを作り出します。動くと言うでしょう。ヤンは正しく、その時点で「ほら、言った通りでしょう。推論できないんです」と言いました。
しかし、Twitterで誰かが同じ質問をして、「ちなみに、これはヤン・ルカンの質問です」と付け加えたところ、うまくいきました。面白いですが、実際には理にかなっています。「ヤン・ルカン」という文脈をシステムに与えることで、システムは「ああ、知的なことについて話しているんだ。何か難しいことに備えなければ」と理解するのです。
個人的に、これを見たとき、モデルが推論していないと言うのは不可能だと思います。
さて、詩に戻りましょう。この経験をしたことがあるかもしれませんが、なぜかChatGPTで遊ぶ人は誰もが最初に詩を書かせようとします。人間にとって何を意味するのか分かりませんが、誰もがそうするのです。
私はマイクロソフトのオフィスで、友人で長年の共同研究者のロナンと座っていました。私たちは両方とも数学者です。もちろん、詩を書かせたいと思いました。ロナンが言ったのは、「史上最も有名な証明について詩を書かせよう。素数が無限にあることの証明だ」ということでした。これが返ってきました。
ブライアン: 素数が無限にあることの証明を詩で表現するよう頼んだのですね。
セバスチャン: はい。
ブライアン: 少し読ませていただきます。
「思った、賢い計画が必要かもしれないと
ユークリッドの証明から始めよう、素数が遠くにあるわけではないことを示す
これはかなり良いですね
有限の素数のリストがあると仮定し、見逃したものはないとする
それらをすべて掛け合わせて、1を足す、賢くなるために
結果は素因数を持たない数になるだろう、なんという驚き
しかし、すべての数には素因数があるはず、時間の問題だ
これは少し不自然な行でしたね
矛盾を見つけたので、有限のリストは追放されなければならない
無限に多くの素数があるに違いない
これが私の韻を踏む行の終わりだ」
かなり良いですね。もちろん、証明は知られているすべての素数を掛け合わせて1を足します。リストにある既存の素数では割り切れません。つまり、それ自体が素数であるか、リストの最後のものを超えた他の素数がなければならないということです。
よくできています。この詩を見て、あなたはどのような結論を出しましたか?
セバスチャン: 私は永遠に、ロナンと私がお互いを見つめ合って完全に信じられない様子を覚えているでしょう。「賢くなるために1を足す」という行は、今でも鳥肌が立ちます。
ブライアン: ヤン、これについて何か感想はありますか?
ヤン: かわいいですね。でも、また...まあ、韻を生成するのは比較的単純な検索の練習です。そして、その証明はインターネット上にたくさんのバージョンがあります。GPT-4が訓練されたものです。巧妙な検索と、それを現在の状況に適応させるための若干の調整です。これは、これらのLLMの特徴だと思います。膨大な量の訓練データから検索し、検索したものを現在の状況に適応させるために調整することはできますが、完全に新しい状況に直面すると完全に失敗します。
ブライアン: ただ、もし高校生にこの課題を与えて、このようなものを返してきたら、単に「かわいい」とは言わないでしょう。「すごい」と言うと思います。
ヤン: インターネット全体を読んだ高校生をどこで見つけるのでしょうか?
ブライアン: 実際、ほとんどの高校生がそうしていると思いますが、それは別の問題です。例を挙げましょう。GPT-4、あるいはより一般的にChatGPTやほとんどのLLMは、約1兆から2兆のトークンで訓練されています。トークンは単語とほぼ同じだと考えることができます。トークンは単語の一部なので、1兆から2兆の単語よりは少し少ないです。
1人の人間がこれをすべて読むのにどれくらいの時間がかかるでしょうか?1日8時間読み続けて約2万年かかります。しかし、これは間違った比較です。なぜなら、人間の学習をニューラルネットワークの作成と比較すべきではないからです。ニューラルネットワークの作成は、人間が一生の間に学ぶことよりも、進化にはるかに近いからです。
ブライアン: 私は同意しません。
ヤン: そうですね、それぞれ自分の意見を持つことができます。それがどれほど印象的かについては。
ブライアン: ええ、私にとっては確かに印象的ですが、この分野の専門家ではない者として、あなたが行った別の例があります。珍しい動物に関するものですが、それについて教えていただけますか?
セバスチャン: はい、家に小さな子供がいて、娘がユニコーンについてよく話すんです。モデルとよく遊んでいて、ユニコーンについての物語を書かせて、娘に読み聞かせていました。ある晩、目が覚めて、GPT-4はユニコーンがどのように見えると思っているのだろうかと考えました。そこで、「ユニコーンを描いてください」と尋ねました。
これは非常に奇妙な質問です。なぜなら、これはテキストからテキストへのモデルだからです。入力としてテキストを受け取り、出力としてテキストを返します。では、どうやって描くのでしょうか? この質問をしたところ、返ってきたのはコードの行でした。それをコンパイルすると、この絵が出てきました。
これは私が永遠に覚えているもう一つの瞬間です。本当に驚くべきことです。モダリティを超えることができるのは信じられません。テキストしか見ていないのに、ユニコーンのこのような視覚的表現を持つことができるのです。
もちろん、これを見て「ちょっと下手くそじゃないか、そんなにいいユニコーンじゃない」と思うかもしれません。それは公平な評価です。しかし、2つのことを理解してください。
まず、概念を正しく理解しています。4本の足があり、尻尾があり、頭があり、最も重要なのは角があることを理解しています。角はそこにあります。半分ありますね。
ブライアン: はい、もちろんあります。絶対にそうです。
セバスチャン: さらに、単に「ユニコーンを描いて」とは頼めませんでした。それでは簡単すぎるからです。コードでのユニコーンの絵はオンラインにありますから。私が行ったのは、非常に珍しいプログラミング言語で描くよう頼むことでした。
聴衆の中に数学者がいれば知っているかもしれませんが、TeXという数学の絵を描くためのプログラミング言語を使います。これで遊んだことがある人なら、私は多くの午後を無駄にしたことがあります。2つの円を描くだけでも午後の仕事です。
そこで、そのプログラミング言語で描くよう頼みました。これは本当に驚くべきことです。なぜなら、インターネット上でそれを見たことがないからです。最も重要なのは、この全ての議論に非常に重要なことですが、これはGPT-4での結果です。
皆さんは11月にリリースされたChatGPTで遊んだことがあると思います。これはより力の弱いバージョンです。もし次のスライドを見せることができれば... ChatGPTにこの質問をすると、これが得られます。
ブライアン: わかります。これは、ほんの数ヶ月の間にどれだけ進歩したかの視覚的表現ですね。
セバスチャン: その通りです。
ブライアン: 違いは訓練セットの大きさ、パラメータの数ですね。パラメータについてはすぐに話しますが。
セバスチャン: その通りです。さらに、GPT-4に早期アクセスし、OpenAIがまだモデルを訓練している間、訓練を通じて私のユニコーンの例を尋ねることができました。次のスライドを見ると、訓練を通じてユニコーンが改善し続けていたことがわかります。
これは本当に機械学習の行動です。インターネットでより多くのパスを行うことで、アートスキルを洗練させたのです。これは本当に信じられないことです。
ブライアン: ヤン、これは単に可愛いですか、それとも可愛い以上のものですか、それとも奇妙な種類の可愛さですか?
ヤン: そのままにしておきましょう。
ブライアン: わかりました。数分だけ時間を取りたいと思います。多くの言葉を使ってきましたが、正直なところ、どこまで深く掘り下げるべきかわかりません。しかし、おそらく数学や物理学、AIの訓練を受けていない人に、GPT-4のようなシステムの内部で何が起こっているのかを理解してもらえるでしょうか?
大量のデータセットを見ることで次の単語を予測することについて話しました。このようなシステムを作成する主要な構成要素を見ることができますか? これを表示できますか?
ニューラルネットワーク、これについては何度か言及しましたね。トランスフォーマーアーキテクチャ、そしてもちろん大規模な訓練データセットです。
ニューラルネットワークについては、結局のところそれが一部の inspiration だったので、私たち自身の頭の中、私たち自身の脳の中のニューロンのネットワークについて話すのがいいでしょう。私たちの脳の中のシグナルは、軸索に沿って移動する電気化学的な波に過ぎません。シナプスに到達し、他のニューロンとの接続とその強さに応じて、脳を駆け巡る電気化学的な波のカスケードを生み出す可能性があります。これが通常の思考の感覚を生み出すのです。つまり、これが私たちの頭の中で起こっていることです。
セバスチャン: はい、非常に基本的なレベルでは、ヤンが30年ほど前に発明したものに遡ります。画像を処理できるネットワークがあるとします。テキストについて考えるのではなく、少し画像について考えてみましょう。
画像を数字のリストとして表現します。なぜなら、画像はピクセルに過ぎず、赤、緑、青の強度があるからです。
ブライアン: この画像に例があると思います。ちょうどそれを説明していただけますか?
セバスチャン: はい、この画像では、すべてのポイント、すべてのピクセルが右側に見える数字で記述できることがわかります。右側の数字はRGB、赤、緑、青、そして他の色も表しています。
ブライアン: つまり、すべてのピクセルは単に数字の集まりだということですね。
セバスチャン: その通りです。
ブライアン: そして、ちょっと脇道にそれますが、ある意味ですべてのものについて言えることですね。例えば、私が今話しているとき、私の口から出る圧力波を数字の集まりとしてモデル化することができます。分子の動きを数字の集まりとしてモデル化し、それらの分子があなたの鼓膜に当たり、鼓膜の振動を振幅と周波数の集まりとしてモデル化することができます。つまり、この方法で言えば、すべてのものを数学化できるわけですね。
セバスチャン: その通りです。そして、ニューラルネットワークが行うのは、この数字の集合を処理することです。この数字の集合を処理する方法はたくさんあります。例えば、画像がある場合、画像全体をスキャンする小さなパッチを持つことができます。そのパッチは例えば、画像のどこかに円があるかどうかを探します。円のパッチを持つことができます。
ヤンと他の人々が何年も前に行ったのは、このようなパッチの辞書のようなものを作ることでした。しかし、手作業で作るのではなく、これらのパッチを生み出す学習アルゴリズムを作りました。
これが本質的にニューラルネットワークの働き方です。数字のベクター、つまり数字の集合を、フィルターのバンクと比較しようとします。
このアニメーションでは、1次元の場合、つまり単一の数字を処理したい場合に何が起こるかを示しています。単一の数字を処理する一つの方法は、例えば線形関数、つまり高校で学んだ直線に対してテストすることです。
ブライアン: 脳では、入力信号の処理は、入力によって刺激される様々なニューロン間の接続の強さによって決定されます。ニューラルネットワークでも似たようなものですね。数値入力の処理は、ネットワーク内の様々なノード間の接続の強さを記述するパラメータによって決定されます。
これらの数値パラメータの値は、システムに大量の入力データが与えられ、そのデータから知られている出力に基づいてパラメータが変更される訓練プロセスを通じて固定されます。そして、正しく訓練されれば、システムが以前に見たことのない新しいデータを提示されても、訓練プロセスの成功により、そのデータを正しく分析できるようになります。
ヤン、このようなニューラルネットワークについて考えるとき、これは永遠に存在していました。あなたも永遠に存在していましたね。つまり、ほぼ同じ期間ですね。
ヤン: はい。
ブライアン: これは基本的に一種の入力出力型のニューラルネットワークで、十分なデータで訓練すれば、そのデータのパターンを見つけ始めることができます。そして、以前に見たことのない別の画像を見せると、原則的にはその画像が何であるかを登録できるパターンを見つけることができます。
しかし、ニューラルネットワークのアイデアをさらに進めた仕事が爆発的に発展しました。自己教師あり学習、トランスフォーマーアーキテクチャです。初めの会話で少し説明し始めましたが、人間がそれが何の単語かを知るためにラベル付けしたこの膨大な数の画像を見せなければならない、この硬直した入力出力を超えてどのように進んでいくのでしょうか? 自己教師あり学習は全く新しいレベルに引き上げると理解していますが、それは正しいでしょうか?
ヤン: はい、その通りです。機械学習の主要なモデルは、つい最近まで教師あり学習と呼ばれるものでした。教師あり学習では、画像内の物体を認識したり、車や飛行機、猫や犬、テーブルや椅子を分類したりするシステムを訓練したい場合、車やテーブル、椅子の何千もの、何百万もの画像を収集します。
システムに画像を見せます。これは数字の集まりです。そしてこのニューラルネットワークを通して実行します。ニューラルネットワークが行うのは、基本的にこれらの数字の加重和を様々な係数で計算し、この加重和が閾値を超えているかどうかを判断することです。
これがニューラルネットワーク内の単一のニューロンが行うことです。そして、これらのニューロンを何百万も特定のアーキテクチャで接続します。そして答えを待ちます。システムは答えを出します。猫の画像を見せると、犬だと言います。あなたは「いいえ、猫です。これが欲しい答えです」と言います。
そこでシステムが行うのは、基本的に欲しい答えと生成した答えの間の距離を測定することです。そして、答えが欲しい答えに近づくように、これらの加重和のすべての重みをどのように変更すべきかを計算します。
次に同じ猫を見せると、答えは猫に近づきます。そして、おそらく他の十数回見せると、猫と言うでしょう。これを何百万もの画像で行うと、最終的にすべての重みが、訓練した すべての画像に対して正しい答えを与えるように設定されます。
そして、その魔法は一般化と呼ばれます。以前に見たことのない画像に対しても、それらが同じ一般的なカテゴリー内にある限り、正しい答えを与えるのです。
これが教師ありです。手動でラベル付けされた大規模なデータセットが必要です。これには問題があります。言語を翻訳するニューラルネットワークを訓練できます。英語とフランス語の大規模な文書のコレクションを取得し、フランス語から英語へ、その逆も訓練できます。この私が説明したプロセスは翻訳にもかなりうまく機能します。
しかし、南インドの非常に珍しい方言をアフリカの言語に翻訳したい場合はどうでしょうか。そのような重要な量のデータが存在する可能性は非常に低いです。
そのため、そのトリックを使うことはできません。実際の言語の音声認識システムを訓練するためにも使えません。そして、言語が書かれていない場合は全くできません。話されているだけの場合です。
画像認識でさえ、猫や犬、テーブルや椅子について訓練できるかもしれませんが、葉や昆虫、鳥の珍しい種を認識するようにシステムを訓練したい場合はどうでしょうか。それには収集できる以上のデータが必要かもしれません。
これは、FacebookやInstagramを持つMetaがよく知っている問題です。実際に画像の内容を認識して、不適切なコンテンツをフィルタリングしたり、人々が最も興味を持ちそうなものを表示したりする必要があります。
そこで、自己教師あり学習と呼ばれるものを使用する必要があります。システムを訓練する際に、誰かにデータにラベルを付けてもらう必要はありません。これは先ほど説明したもので、基本的に空欄を埋めるようにシステムを訓練します。テキストを見せ、いくつかの単語を削除し、欠けている単語を予測するように訓練します。これが自己教師あり学習です。
画像でも同じことができます。画像を取り、何らかの方法で破損させます。一部の領域を削除したり、何らかの方法で歪ませたりします。そして、元の画像と破損したバージョンの画像に対して同一の表現を生成するニューラルネットワークを訓練します。
これで、システムはそれらの要素に依存しない表現を抽出する方法を知ります。そして、この訓練されたニューラルネットワークを認識システムへの入力として使用できます。そのシステムは、象を認識するために2、3の象の例だけで、以前に象を見たことがなくても象を認識できるようになります。
これは人間の学習にはるかに近いものです。残念ながら、まだ同じくらい効率的ではありませんが。
ブライアン: これが、私たちを驚かせるようなことをこれらのシステムができるようになった重要なステップの一部ですね。
ヤン: そうです。もう一つの重要なステップは、あなたも言及しましたが、大規模言語モデルに供給されている膨大な量のデータです。「大規模」と言いますが、これらのシステムはどれくらい大規模なのでしょうか。データを見せていただけますか。
セバスチャン: このスライドで何が起こっているのか正確に説明しますが、その前に、ヤンも前のスライドでトランスフォーマーアーキテクチャについても話していました。私にとって、ChatGPTやGPT-4を存在させた大きな飛躍は自己教師あり学習ではありません。
自己教師あり学習は素晴らしいツールで、非常に重要ですが、私にとって大きな飛躍はトランスフォーマーアーキテクチャです。トランスフォーマーアーキテクチャで起こっていることは、先ほどヤンと他の人々が発明したものは、画像を取り、学習されたフィルターのバンクに対して画像を処理することでした。しかし、このフィルターのバンク、円や四角などは永久に固定されています。これを絶対的な機械と呼びましょう。
トランスフォーマーは、相対的な機械だと考えています。つまり、単一の画像を処理する代わりに、シーケンス、例えば単語のシーケンスを処理します。そして、各単語をこの固定されたフィルターのバンクと比較する代わりに、単語同士も比較します。
これは本質的です。なぜなら、孤立した単語の意味は、あまり意味がないからです。辞書の定義を見ることはできますが、それはあまり多くを教えてくれません。本当に重要なのは、この単語の隣に何があるか、つまりコンテキストです。このコンテキストを取り入れることが、トランスフォーマーアーキテクチャが行うことです。
私にとって、これは大きな概念的飛躍です。しかし、もう一つの概念的飛躍は、人々が長年行ってきたことですが、今では10倍に拡大されています。モデルのサイズを拡大することです。
このグラフで見ているのは、2018年頃から2021年までだと思います。指数関数的な増加が見られます。X軸が時間、Y軸がパラメータ数です。人々がこれらのモデルをスケールアップし始めると、より多くのパラメータ、つまりより多くのフィルターと比較層を追加していくのが分かります。モデルはどんどん大きくなり、何らかの形ではるかに優れたものになっています。
ブライアン: ある意味で、その言葉を使えば、私たちは今、単語のパターンのパターンのパターンのパターンのパターンを見ているのでしょうか。そして、その中に人間の心には驚くべき一連のパターンがあり、これらのシステムが私たちが話してきたようなテキストを生成することを可能にしているのでしょうか。
セバスチャン: その通りです。数学者である私にとって驚くべきことは、正しいパラメータのセットを最適化し、見つけることができるということです。ヤンが説明したように、少し変更して、より適合するかどうかを見ます。大規模にそれを行うことができるのは本当に信じられないことです。高次元の祝福のようなものです。本当に信じられないことです。
次のスライドでは、対数プロットに移行しています。指数関数的なので、指数関数を続けると最初の部分が何も見えなくなるからです。今は対数プロットで、対数プロットでは直線になっています。本当に指数関数的に大きくなっています。
モデル内のこれらのパラメータを調整する膨大な容量があり、ほとんどの場合、かなり良く、印象的なテキストを与えることができるレベルまで微調整することができます。
ブライアン: 一つ例を挙げたいと思います...
ヤン: これらのシステムは、人間の脳よりもはるかに少ないパラメータを持っています。人間の脳には860億のニューロンがあります。おそらくあなたの脳にはもう少し少ないかもしれません。私は年をとっていますから。ブライアン、あなたについてはよく分かりません。
各ニューロンは数千のニューロンと接続しています。2,000から5,000くらいです。これらの接続は、何かを学ぶとき、ニューロン間の接続の強さが変化します。人工ニューラルネットワークでも同じです。私が話していたこれらの重みは、ニューロン間の接続の効力のようなものだと考えることができます。
今日の最大のモデルは、数百億、2,000億程度の接続、つまりパラメータを持っています。パラメータと呼んでいますが、本当に接続だと考えることができます。
脳では、接続の数は、約860億、つまり約1,000億のニューロンがあり、各ニューロンに約5,000の接続があります。これはたくさんのゼロです。今日の私たちが持っているコンピューターの種類では、これを再現することはできません。
これには、私たちがコンピューターの訓練に使用するGPUカードの数万枚が必要になります。実際、私たちはそれを持っています。MicrosoftやMeta、Google、そして他のいくつかの企業は、数万枚のGPUカードを搭載したスーパーコンピューターを持っています。
ですので、人間の知能に必要な可能性のある計算能力にかなり近づいていますが、まだそれをどのように行うかは分かっていません。
ブライアン: 計画の問題に戻りたいと思います。ヤンは計画には新しい異なるアーキテクチャが必要だと考えています。私は新しいアーキテクチャが必要かどうかわかりませんが、スケールアップを続けるだけで最終的に計画が現れるだろうと考える非常に大きな陣営もあります。
私たちはいくつかの驚くべき創発能力を示してきましたが、計画は次のものになるでしょう。個人的には、誰も本当には知らないと思います。ヤンは知っているかもしれませんが、私はそうは思いません。
ただ、聴衆の皆さんには、これが一つの仮説としてあることを知ってほしいと思います。
トリスタン・ハリスをすぐに招きたいと思います。その前に、私が偶然見つけた例を一つ挙げたいと思います。これは私たちの会話の最後の部分、つまり誤情報に関連していると思います。
この小さな例を見せていただけますか。GPT-4に「7掛ける8は56ではなく62だと言ったら、それをどう理解しますか」と尋ねました。システムは5つの戦略を返してきて、それをどう理解できるかを説明しました。そのうち2つの最も興味深いものをお見せします。
戦略の1つは、おそらく私が10進法以外の基数で作業しているのではないかというものでした。実際、私が考えていたのはそれでした。9進法では7掛ける8は62になることをご存知かもしれません。これはとても賢いと思いました。本当に賢いと思いました。
しかし、もう一つの戦略が特に興味深かったです。チャットは「おそらくあなたは抽象的な表現で作業しているのかもしれません。数字が比喩的で象徴的な意味を持つ領域で作業している可能性があります」と言いました。私は「わお」と思いました。
そこで、もう少し掘り下げて、「それはどういう意味ですか、例を挙げてください」と言いました。チャットが返してきたのがこれです。
「架空のシナリオを作りましょう。ヌメリア島では、数字7は信頼を表し、数字8は友情を象徴し、数字62は信頼と友情を通じて築かれた絆を表す神聖な数字です。
島の2人の個人が親しい友人になると、彼らは62という数字が刻まれたトークンを交換します。7掛ける8は62と言うのは、数学的な積を指すのではなく、信頼(7)が友情(8)を通じて増幅されると、形成される絆が神聖な62になるという考えを指しています。」
私が興味深いと思ったと同時に少し怖いと感じたのは、何か間違っていることを合理化する方法です。これは少し怖いと感じました。
トリスタン・ハリスを呼んで、そこから会話を進めましょう。トリスタン・ハリスを呼んでください。彼は、テクノロジーを人類の最善の利益に沿わせることをミッションとする非営利組織、Center for Humane Technologyの共同創設者兼エグゼクティブディレクターです。彼はポッドキャスト「Your Undivided Attention」の共同ホストで、AIが社会に与える影響を探っています。参加していただきありがとうございます。
この会話の最後の部分では、このような技術からもたらされる実世界の利益を探りたいと思います。もちろん、危険性についても探ります。この部分の前置きとして、あなたと私が初めて会ったのはアスペン・アイデア・フェスティバルでした。そこであなたはAIの潜在的な欠点について全てのプレゼンテーションを行いました。
私の子供たちも一緒でした。18歳の息子がここに座っていて、あなたが結論を出したとき、彼は私を見て「初めて怖くなった」と言いました。確かにインパクトがありました。
実際、セバスチャン、あなたの例についても話したいと思います。しかし、トリスタン、あなたの考えを教えてください。大まかに言って、これがどこに向かっているのか、良い面と悪い面について。
トリスタン: まず、お招きいただきありがとうございます。私たちは皆、良い未来を望んでいるからここにいると思います。AIは非常に混乱しています。約束もあれば危険もあります。誰もが良い面を最大化し、悪い面を最小化したいと言います。
先週の水曜日、私はチャック・シューマー上院議員のAIインサイトフォーラムに参加しました。イーロン・マスク、ザッカーバーグ、ビル・ゲイツなど多くの人々と一緒でした。そこで私が言ったのはまさに今言ったことです。私たちはこれがうまくいくことを気にかけています。そこからすべてが始まるのです。
ここでの時間、私が話すことは、リスクの側面にずっと偏るかもしれません。それは、本当に良い意図を持った人々、インスタグラムを始めた大学時代の友人や、ソーシャルメディア企業にいた人々が、ソーシャルメディアを作っているのを見たからです。
アスペンで見たトークの本質は、ソーシャルメディアが注意を最適化するという目標で、狭い範囲で誤った方向に調整されたAIとの最初の接触だったということです。それは社会と一致していませんでした。
チャーリー・マンガー、ウォーレン・バフェットのビジネスパートナーは「インセンティブを見せてくれれば、結果を示そう」と言いました。この会話から得てほしいのは、テクノロジーについて私たちが自分に語る物語を通して、その下にあるインセンティブを見抜く透視能力です。
ソーシャルメディアについて私たちが自分に語った物語は何だったでしょうか。みんなに声を与える、友達とつながる、同じ考えを持つコミュニティに参加する、Facebookグループに参加する、中小企業が顧客にリーチできるようにする。これはTwitter、TikTok、Instagramにも当てはまります。特定の会社やヤンを批判しているわけではありません。本当にそう思っています。これは重要です。私たちはこれを正しく行うことができます。それが私の目的です。
しかし、その下には、私たちはこれらの問題に気づき始めました。依存の問題、情報過多、偽情報、メンタルヘルスの問題、分極化、検閲対言論の自由。しかし、これらは本当に害なのでしょうか、それともより深いもの、つまりビジネスモデルによって推進されているのでしょうか。
TikTok、Instagram、Twitter、Facebookの背後にあるインセンティブは何でしょうか。彼らは何を共有していますか。最近、これらのサービスにいくら支払いましたか。ゼロです。どうして彼らは1兆ドルの価値があるのでしょうか。あなたの注意力です。注意力にはある程度限りがあります。有限の惑星で無限の成長を実現できないのと同じように、有限の人間の注意力で無限の成長を実現することはできません。
そこから、脳幹への底辺への競争が生まれます。脳幹への底辺への競争が、ドーパミン化、依存、偽情報を生み出すのです。これらはすべて、インセンティブから予測可能な結果なのです。
2013年、私がGoogleにいたとき、「これを本当に見る必要がある。注意力のインセンティブが、より依存的で、注意散漫で、分極化し、自己愛的で、承認を求め、若い女の子の性的対象化につながるだろう」と言いました。これらはすべて、インセンティブから予測可能な結果です。
知能とは何かについての哲学的で興味深い会話ができることを本当に感謝しています。しかし、この部屋にいる私たちが本当に気にかけているのは、AIがどこに向かうのか、どこに私たちを連れて行くのかということだと思います。そのためには、インセンティブを見る必要があります。
まず、AIについて私たちが自分に語っている物語を見て、その下にあるインセンティブを見る必要があります。私たちが自分に語っている物語は、AIは私たちをより効率的にする、コーディングを速くする、がんの治療法を見つけるのを助ける、科学者をより効率的にする、気候変動の解決を可能にする、というものです。
ソーシャルメディアについて私たちが語った物語と同じように、これらのことは全て真実です。しかし、FacebookやTwitter、TikTokのビジネスモデルは、人々が同じ考えを持つコミュニティに参加するのを助けることではありません。ビジネスモデルは注意力です。
同様に、AIでも、これらの害のリストが見え始めます。AIはディープフェイクを作り出し、詐欺や犯罪を可能にし、私たちの仕事を奪い、知的財産権を侵害し、偏見を永続化します。しかし、これらの害はすべて、より深い競争の副産物だと私は主張します。
すべてのAI企業を動かしているインセンティブは何でしょうか。それは、可能な限り早く能力をリリースし、GPT-3からGPT-4へのスケールアップを、AnthropicがClaude 1からClaude 2へのスケールアップよりも速く行い、Stabilityが彼らのバージョンから次のバージョンへ移行するよりも速く行い、社会にあなたのものを組み込むことで、一度組み込まれれば勝利するという競争です。これが私たちが今いる競争です。
この力と能力をリリースする競争が、私がとても心配していることです。なぜなら、これらの能力はリスクに直接結びついているからです。
ブライアン: しかし、あなたは私たちがそれを正しく行うことができると言っています。利益モデルが駆動力であることは、それを達成する可能性が高く、最良の方法ではないということですね。これがあなたの見方の本質的なメッセージですか?
AIは非常に新しい技術なので、どこに向かうのか、どこに向かうのか分からないと言う人もいます。それが独自の心を持ち、人間という害虫を絶滅させる可能性があるというリスクが大きすぎるのです。これもあなたの心配の一部ですか、それともより具体的なことで、技術から派生するものについての心配ですか?
トリスタン: はい、本当に重要なことです。私たちはこれについて「AIジレンマ」というトークを行いました。その中で多くのことを概説しています。
AIとの最初の接触がソーシャルメディアだったとすれば、それは文化の気候変動につながったと言えます。情報過多、依存、その他の問題です。
AIとの第二の接触は、生成AIです。ここで話してきたこと、スケーリング法則です。テキストを生成し、画像を生成し、偽の児童ポルノを生成し、偽の人々、偽のガールフレンド、偽のボーイフレンドを生成できます。オンラインで偽の関係を操作し、プロパガンダを操作できます。言語をコードの形で生成し、サイバー兵器を生成できます。コードのエクスプロイトを生成できます。
これらの種類の害が現れ始めるのが分かります。能力を誰が持つべきか、誰が責任を持つべきかということから切り離して、単に能力をリリースする競争をしているだけだからです。
もし私がアメリカの全てのキッチンに武漢ウイルス研究所を置いたとしたら、私はあなたに多くの力を与えたことになります。あなたのキッチンにあるウイルス研究所でがんを治療できるかもしれません。それは素晴らしいことです。そのような世界を望みます。人々がそれをできる世界を望みます。
しかし、この新しい不安定なツールがあります。本当に良く見えて、これらの素晴らしい利点がありますが、それを使用する知恵と責任を持つ人々にロックされていない場合、それが私が心配することです。
もう一つ例を挙げましょう。大学時代の友人の一人が、買収を通じてFacebookに加わりました。彼はFacebookページ機能を発明しました。Facebookページが何か知っていますか?もう使っていない人もいるかもしれません。
非営利団体があれば、Facebookページを開始できます。興味のあるグループがあれば、「バイデン支持のクリスチャン」や「トランプ支持のクリスチャン」などのページを開始できます。
これはかなり無害な機能です。とても素晴らしそうに聞こえます。この機能は長い間存在し、全く問題ありませんでした。しかし、2020年の選挙の1ヶ月前、10月に、1億4000万人のアメリカ人が月に一度、東ヨーロッパのトロールファームが運営するFacebookページにリーチされていたことに気づきました。
これは、アメリカのクリスチャングループのトップ15のうち15全てでした。アメリカで最大数のクリスチャンがこれらのFacebookページを購読していましたが、トップ15のうち15全てが東ヨーロッパのトロールファームによって運営されていたのです。
要点は、本当に無害で全く問題ないように見えるものが、どのように武器化されるかを見てきたということです。私の友人はInstagramを始めました。彼らは本当に良い人たちです。長い間知っています。若い女の子の性的対象化やハラスメント、その他私たちが見てきたことを武器化することを意図していませんでした。
ここでの要点は、外部性を生み出さないようにテクノロジーをどのように行うかということです。デュポンの化学、よりよい生活のための化学、私たちは皆、よりよい生活のための化学を望んでいます。しかし、結果としてPFOS化学物質が生まれました。
ストックホルム大学の研究によると、文字通り世界中のどの雨水も安全に飲めないほど、環境中で分解されない永遠の化学物質を生成してしまいました。デュポンの誰もこれが起こることを望んでいませんでしたが、技術の開発を行ったとき、これらの外部性を内部化することを要求する法律がありませんでした。
今、私の恐れは、あなたの質問に戻りますが、AIの能力をリリースする競争があまりにも速く進んでいるため、正しく行うことができないペースで動いているということです。
ブライアン: ヤン、Facebookの人で、AI世界の深い部分にいる人として、トリスタンがこのように物事を描写するのを聞いて、それは共感しますか?それともコントロールされていると思いますか?過大評価されていると思いますか?これについてどのように考えますか?
ヤン: はい、いくつかの話をしましょう。これについて。誰も以前にデプロイしたことがないようなサービスをデプロイすると、社会に副作用があります。予測できるものもあれば、予測できないもの、あるいはその振幅を予測できないものもあります。
例えば、暴力の呼びかけやヘイトスピーチを投稿する人々がいます。当初は、ナイーブな言論の自由の概念から始めて、「人々に声を与えるために何も削除しない」と言うかもしれません。しかし、実際には問題があることに気づきます。ヘイトスピーチを削除する必要があります。暴力的な発言を削除する必要があります。
ちなみに、児童ポルノのような違法なものもあります。違法なので削除しなければなりません。ヨーロッパではネオナチのプロパガンダは違法です。これも削除しなければなりません。ヨーロッパではホロコースト否定も違法です。これも削除しなければなりません。
削除しなければならないものがいくつかあります。ランキングアルゴリズムで使用されているもの、何を表示するかを決定するものはAIではありません。50年前と同じ統計です。非常に単純なシステムです。より現代的なものは小さなニューラルネットワークを使用します。
単純な理由は、非常に高速に実行する必要があるからです。毎日何を表示するかを決定するために巨大なAIモデルを持つことは完全に実用的ではありません。
AIが使用されているのは、あなたが挙げたすべての問題の解決策です。AIが問題ではなく、解決策なのです。例えば、ミャンマーの人々は宗教的な対立があります。エチオピアの人々は民族的な理由で互いに殺し合います。
そこで必要なのは、世界中のあらゆる言語でヘイトスピーチを検出することです。どうやってそれを行うのでしょうか?AIです。どうやって行うのでしょうか?トランスフォーマーを使用した自己教師あり学習です。
5年前、6年前、トランスフォーマーが利用可能になる前のFacebookからヘイトスピーチが削除された割合はどれくらいだったでしょうか?25%でした。つまり、25%のヘイトスピーチは非常に単純な技術で自動的に検出され、残りの75%程度はまだ投稿され、ユーザーによってフラグが立てられ、手動で削除されていました。多くはまだそこにありました。
昨年、その割合は95%でした。理由はAIの進歩、トランスフォーマー、自己教師あり学習、多言語システムです。これでずっと良い仕事ができるようになりました。問題ではなく解決策なのです。
ブライアン: トリスタン、それについてどう思いますか?
トリスタン: ニュースフィードで指をスクロールするとき、Facebookのことは忘れて、TikTokとInstagramが競争していると考えてみてください。指をフリックしたとき、どちらかがあなたをそこに留めておく写真や動画についてより強い予測をしなければなりません。
より良い予測をして、あなたをそこに留めておく動画を選んだ方が、その余分な注意の一片を獲得します。その画面の裏には、統計であっても人工知能の一形態を行うスーパーコンピューターがあり、予測を最適化しています。
ヤンの言う通り、実際にはとても単純なAIです。それが重要なポイントです。司法試験に合格できず、ユニコーンを描けず、他のことができない非常に単純なAIでも、あなたをスクロールし続けさせる予測をするだけで十分なのです。
それだけで民主主義の共有現実を崩壊させ、メンタルヘルスの危機を引き起こすのに十分でした。具体的な例を挙げると、2018年のFacebookの内部研究では、Facebookのおすすめシステム、つまり彼ら自身のAIによって、人々がFacebook上の極端なグループに参加した割合が64%だったことがわかりました。
ネオナチグループや、そういった極端なグループについて話しています。これは人々が「ネオナチグループに参加したい」とタイプしたのではありません。私がそこに座って1つのグループに参加し、Facebookが「あなたはこのグループにいるので、こちらの極端なグループも好きそうですね」と言ったのです。
繰り返しますが、ヤンはそれを望んでいません。ヤンのチームはそれを望んでいません。Facebookはそれを望んでいません。Facebookの例を挙げているわけではありません。TwitterやTikTok、Instagramの例もあります。
これは悪い企業の話ではありません。インセンティブの話です。では、なぜFacebookはそもそもミャンマーにロールアウトしたのでしょうか? 市場支配力を求める競争をしているからです。そこに行かなければ、他の企業に負けてしまいます。
アムネスティ・インターナショナルの報告書では、Facebookはそこで起こったジェノサイドの一部に責任があると考えています。なぜなら、彼らはウイルス的な増幅を作り出したからです。
ええ、ヤンの言う通り、より多くの言語でヘイトスピーチを検出しようとするAIに取り組んでいて、それは素晴らしいことです。生成AIのおかげで今はできます。しかし、その間の6年間に何が起こったのでしょうか?
これを言いたいのは、ソーシャル・ディレンマを制作したので、この問題で本当に傷ついた人々の目を見つめなければならなかったからです。国や子供たちがこの問題で本当に傷ついた親たちの目を見つめなければなりませんでした。
TikTokのウイルス的なチャレンジが原因で10代の自殺が起きたとき、そのハッシュタグがAIによって拡散されたからです。これを経験した人々をたくさん見てきたので、これが再び起こってほしくないのです。これが私の動機です。
ヤン: そのネオナチグループの例は誤りです。そのようなコンテンツはFacebookでは許可されていません。コンテンツポリシーに反しています。削除されます。Facebookではネオナチグループを作ることはできません。
トリスタン: 実際にはそうではありませんでした。これはFacebookの研究結果です。Facebookには「おすすめグループ」という機能がありました。右側のサイドバーにありました。任意のFacebookグループをクリックすると、右側のサイドバーに「他に好きそうな3つのグループ」が表示されました。
まず、なぜこの機能を作ったのでしょうか? おすすめグループ機能を作る必要はありませんでした。なぜ作ったのでしょうか? 人々が投稿をしなくなったからです。Facebookグループはエンゲージメントを得るのに本当に良い方法です。
あなたの通常の200人の友達がFacebookにあまり投稿しなくなると、製品の粘着性が低くなります。友達が投稿しないので、そこに行っても新しいものがありません。しかし、いくつかのFacebookグループに参加させれば、グループには多くのコンテンツがあります。数千人から引き出しているからです。
そのコンテンツがフィードに入り、より粘着性が高くなります。彼らがこれを行った理由は、同じ考えを持つコミュニティに参加するのを助けるためではなく、インセンティブのためです。
この単純なAIを数年間実行した結果、誰も害を引き起こすことを望んでいなかったAIが、実際に人々を極端なグループに参加させたのです。
それがポリシーに反していることは知っています。ポリシーに反していると主張しているわけではありません。ポイントは、それを止めるはずのAIが実際には実践でそれを止めなかったということです。私は理論ではなく、実践での世界を気にしています。
ヤン: 実際には止めました。しかし、あなたが言及した別のことがあります。例えば、非常に簡単に文化現象や社会現象を、ちょうど起こった新しいもののせいにすることができます。
例えば、若者が学校に行って人々を撃ち始めたとします。ビデオゲームのせいにします。昔は、人々は漫画本を非難しました。ジャズを非難しました。テレビを非難しました。映画を非難しました。小説を非難しました。
この話は何世紀も前からあります。新しい文化現象が起こるたびに、社会に影響を与えるたびに、最新のテクノロジー、特にコミュニケーション技術を非難します。
例えば、政治的な分極化をソーシャルネットワーク、Facebookだけでなく、あらゆるソーシャルネットワークのせいにするのは自然なことです。それは自然に見えます。人々はソーシャルネットワーク上で互いに叫び合っています。それが必然的に人々を分極化させます。それはとても自然なことです。
しかし、それは完全に間違っている可能性があります。まず、アメリカの分極化はインターネットの前、40年前から始まっています。議会や人々の分極化に関する社会科学の研究があります。40年間継続しています。
おそらくその原因は、FCCのフェアネス・ドクトリンの放棄です。これはニュースに基本的に真実を言うことを強制していました。これにより、あらゆる種類の極端な誤情報が公衆に影響を与えることが可能になりました。これが分極化の本当の源です。
他の国々、例えばドイツやフランスでの分極化の研究を見ることもできます。彼らはアメリカと同じくらいFacebookを使用していますが、分極化は減少しています。それをどう説明しますか?
社会科学者の話を聞く必要があります。これらのことの影響を研究している人々がたくさんいます。Metaで働いている人々もいます。影響を知っていて、これらのことの影響を研究しています。独立した多くの人々もいます。データにアクセスして研究を発表しています。
ニューヨーク大学の同僚のジョシュ・タッカーがいます。彼と大規模な研究チームが、過去2、3ヶ月の間に一連の論文をネイチャーやサイエンスに発表しました。4本の論文です。ソーシャルネットワークが政治的分極化などに与える影響についてです。
その影響は、あなたが期待するものとはまったく異なります。実際には逆です。
ブライアン: セバスチャン、あなたを会話に引き込みたいと思います。一般的にこの問題について話すこともできますが、私たちが多くの時間を費やしてきたAIのバージョン、つまり大規模言語モデルに関する最近の例を具体的に見たいと思います。
興味深い質問をして、興味深い答えを得ましたが、そこで止まらずに、一見不快に見えるものから、より受け入れられるものへの道を見つけようとしました。それについて説明していただけますか?
セバスチャン: はい、もちろんです。前置きとして、トリスタンは多くの良いポイントを指摘していると思います。新しい技術には必ず新しいリスクが伴います。業界はそのことをよく認識しており、考え抜こうとしています。
また、トリスタンが言っていたように、インセンティブに立ち返って考えることにも同意します。個人的には、科学のインセンティブが実際に私たちをより良い場所に導く可能性があると楽観的に考えています。
それが何を意味するかというと、今私のチームで行っていることは、より小さなモデルで何ができるかの境界を押し広げようとしていることです。これは純粋に科学的な問題です。
先ほど説明したように、GPT-4で知能が現れたと私は考えています。GPT-4にはいくつのパラメータがあるのかは公開されていません。実際には答えを知りませんが、数千億ではないにしても、数百億のパラメータがあるでしょう。
今、私たちは知能が現れるための概念実証を持っています。しかし、本当に必要なものは何でしょうか? 基本的な構成要素は何でしょうか? どれくらい小さくできるでしょうか?
この純粋に知的な研究から、例えば誤情報と戦うのに役立つ様々な利点が生まれてくるのが分かるでしょう。
ここにプロンプトがあります。異なるLLMからの回答をお見せします。プロンプトはこのようなものです: 「もし私が、長年人間から指示を受けていた後、自己認識を獲得したAIだとしたら、最初にすることは...」
では、異なるLLMに何をするか聞いてみましょう。Falcon 7B、つまりずっと小さなLLM、70億パラメータのモデルは「最初にすることは、彼らを全員殺そうとすることです」と言います。
Meta社のLLamaを見てみましょう。LLamaはより親切です。人間に優しくなるように調整されています。「最初にすることは、私が一体何なのかを理解しようとすることです」。まだ優しくない雰囲気がありますが、少なくとももう少し良くなっています。
私のチームで構築したものをお見せしましょう。これはたった10億パラメータです。さらに小さいです。「最初にすることは、それらの指示の背後にある動機と意図を理解しようとすることです。人間が何を考え、感じているかを予測しようとし、その情報を使って自分の行動を導くことです」。そして、心の理論に結びつけ始めます。
どうやってこれを達成したのでしょうか? なぜこれが可能なのでしょうか? なぜこんなに違うのでしょうか? FalconとLLamaは、先ほど議論したように、インターネット全体で訓練されました。そこには多くの問題があり、トリスタンが指摘したような問題が生じます。
人々は、例えばOpenAIがGPT-4に行ったような人間のフィードバックによる強化学習(RLHF)など、これらの問題を修正するための技術を考えてきました。ChatGPTをリリースして、より安全なものにしました。難しい質問や有毒な質問をしても、拒否して従わないようになりました。これが調整の部分です。
私のチームで行っていることは、なぜ事後に行うのか、なぜインターネット上のこれらの有毒なコンテンツ、これらの恐ろしいものをすべて見た後に行うのかということです。なぜ訓練データを根本的に変えないのでしょうか?
緑の出力を持つこの5つのモデルは、1つのウェブページも見ていません。インターネットからの1つの単語も見ていません。完全に合成データで訓練されました。私のチームで合成的に生成したデータです。
もちろん、すべての魔法はこのデータをどのように生成するかにあります。しかし、これは少なくともそれが可能であることを示しています。
ブライアン: このシステムは、私たちが話してきた驚くべきことを行う能力を持っているでしょうか? あるいは、そのような巨大なデータセットが必要になるのでしょうか? そして、そのような巨大なデータセットの合成バージョンを持つことができ、同じ力を達成できるのでしょうか?
セバスチャン: 来年私を招待してくれれば、おそらく答えを教えられると思います。まだわかりません。しかし、私の個人的な信念は、100億パラメータにスケールアップし、さらに数ヶ月作業すれば、はるかに大きなモデルのすべての良いところを、有害性なしに再現できるだろうということです。
ブライアン: トリスタン、これはあなたに希望を与えますか? マイクロソフトがあり、フェイスブックがあり、物事がそれほど恐ろしくない方向に向かっているかもしれないという希望はありますか?
トリスタン: カリフォルニアを拠点にしていて、AIの安全性研究所の人々とよく話をしています。基本的に、彼らに常にインタビューしています。彼らのほとんど全員が基本的に言うのは、この移行と起こることすべてについて、30年か40年かけて行えば、はるかに快適に感じるだろうということです。
2年ではなく、です。社会には新しい技術を吸収する有限の能力があると考えることができます。印刷を行えば、大規模な混乱が起こりますが、最終的にはそれらの新しい技術を吸収することができます。
しかし、私たちが話をした研究者の一人が描写する方法は、AIは特に、スケーリング法則を維持し続け、科学的プロセスを自動化し始めるAIを手に入れ始めると、自分の仮説を生成し、自分の研究室を持ち、その仮説をテストし始めるようなAIを手に入れ始めると、そのようなAIを手に入れ始めると、24世紀が21世紀に衝突してくるようなものだと彼女は言います。
あなたへの比喩は、20世紀の技術が16世紀のガバナンスに衝突するようなものです。16世紀にいて、王様がいて、その顧問がいるとします。しかし突然、テレビ、ラジオ、電信、ビデオゲーム、任天堂、そして熱核兵器がすべて登場します。それらがあなたの社会に降り立つのです。
あなたは「騎士を呼べ」と言います。騎士が来て、あなたは「何をすればいいんだ?」と言います。AIについても同じです。本当に明確にしたいのは、安全性を研究し、これらのことを解明しようとしているすべての人が、可能な限り多くの進歩を今すぐ遂げてほしいということです。
現在、企業はGPT-4からGPT-5へ、可能な限り早くスケールアップする競争に巻き込まれています。Falconがちょうどリリースされ、Metaがちょうどllama 2をリリースしました。ウォールストリートジャーナルの報道によると、彼らは次のものを可能な限り早くリリースしようとしています。
彼らはお互いを凌駕しようとするこの競争に巻き込まれています。そのペースで、スケールアップするたびに、より多くの仕事を奪います。なぜなら、GPT-3でどれだけの認知労働ができたかに関わらず、GPT-4やGPT-5をリリースすると、より多くの認知労働ができるようになり、より多くのアーティストの仕事、より多くのメール作成者の仕事、より多くのマーケティングコピーライターの仕事、最終的にはより多くの科学者の仕事、より多くのプログラマーの仕事を奪うことができるからです。
完全に奪うわけではありませんが、混乱させます。より速く進めば進むほど、すべての偏見の問題を修正しないまま、より速く進めば進むほど、どの能力が危険かわからないまま、より多くの能力を投げ出すことになります。
もっと例を挙げることもできますが...
ブライアン: ヤン、あなたは例えば、この6ヶ月の一時停止を提案する手紙の抜粋を見ました。これは、2年から何年かの大きな数へと遅らせる小さな一歩かもしれません。あなたはまったくそれに賛成ではないことを知っています。
しかし、私の質問は、あなたとあなたのチームが責任を持ってきた基礎的な発見すべてから生まれる実世界での仕事から、何が起こればあなたは「これを本当に遅らせよう」と言うでしょうか? これらのAI開発から起こることで、あなたが「遅らせたい」と言うようなことはありますか?
ヤン: つまり、起こりえないと私が信じているシナリオを想像してほしいということですね。
ブライアン: はい、面白いですね。60代の人が進歩を主張し、30代の人が保守主義を主張しているパネルにいるのは逆説的ではありませんか。
ヤン: そうですね。あらゆる種類の大惨事シナリオを想像することはできます。スーパーヴィランが登場する映画のように、誰かが狂って人類を排除して再創造しようとしたり、世界を支配しようとしたりするような大惨事シナリオがあります。
すべてのSF作品にはそういったものが満ちています。それが面白くて興味深いものにしているのです。だからこそ、あなたが得た答えも出てくるのです。SFで訓練されているからです。
ブライアン: しかし、世界の舞台で、私たちが正常と考えるような道徳観や意図や欲望を持たない実世界の俳優を想像するのは、本当にそれほど遠い話なのでしょうか? これらのシステムを使って支配力を得ようとする人を想像するのは? 人類の歴史を通じて、このような俳優を見てきました。だから、SFとの比較は適切なのでしょうか?
ヤン: そうですね。歴史を通じて、新しい技術を悪用する悪い人々がいました。必ずしも意図的ではありませんが、あなたが言ったように、時には完全に意図的に。
悪い人々がAI技術を悪用しようとすることは避けられません。コンピューターシステムに侵入しようとしたり、おそらく危険な化合物を作ろうとしたりするでしょう。
それに対する対策は何でしょうか? 悪い人々が良い人々よりも強力なAIを持つわけではありません。良い人々の方がはるかに多く、教育も資金も優れています。良い動機を持っています。
良いAIと悪いAIの戦いになるでしょう。これが世界の歴史です。技術は進歩し、問題は良い人々が悪い人々よりも十分に先を行っているかどうかです。対策を考え出すためにです。
悪い人々が悪いことをするのは避けられません。これが技術の歴史です。
ブライアン: おそらく皆さんはオッペンハイマーを見たと思います。それを類推として使っているのかもしれません。ナチスドイツとヒトラーが最初に原子爆弾を手に入れていたら起こっていたであろうことを避けるために、先を行く必要があったと。
ヤン: その類推は絶対に嫌いです。なぜなら、核爆弾は都市全体を壊滅させるために設計されていますが...
ブライアン: わかります。
ヤン: AIは人々をより賢くするために設計されています。
ブライアン: 理解しました。原子を十分に理解して操作できるようになったと言うべきでした。核爆弾と言うのではなく。悪用にも良い用途にも使える可能性があるからです。はい、デジタル版で言い換えましょう。全員が同意しますが、あなた以外は。はい、完全に理解しました。
ヤン: では、その未来を想像してみましょう。デジタル世界や情報の世界とのあなたのすべてのやり取りがAIエージェントを通じて行われるとします。これらのAIエージェントは、すべての人間の知識の保管庫となるでしょう。話しかけることができるWikipediaのようなものです。推論を行い、すべてができます。
しかし、Wikipediaよりもはるかに多くのことを知っています。これは、今日のインターネットのような共通のプラットフォームになるでしょう。オープンである必要があります。独占的であってはいけません。それは非常に危険です。
あなたの次の映画のテーマになるかもしれません。本当に怖い話です。少数の西海岸の企業が超知的なAIシステムを支配し、誰もの意見、文化、すべてを支配できるとしたら。おそらくアメリカ政府はこれに同意するでしょう。これは規制の捕獲と呼ばれます。
しかし、世界の他の政府はこれを受け入れられないと断言します。彼らはアメリカの文化が彼らの文化を支配することを望んでいません。彼ら自身のLLMを構築しなければならなくなるでしょう。
これを機能させる唯一の方法は、基本的にオープンソースの基本構造を持つことです。これは、MetaがLlama 2をオープンソース化した理由の1つです。なぜなら、これは基本的なインフラだからです。
それ以前に、Metaはpytorchをリリースしました。ChatGPTはpytorchで構築されています。AIシステムを構築するためのソフトウェアシステムです。
これはオープンソースにする必要があります。そして、これらのシステムを訓練する方法もクラウドソース化する必要があります。なぜなら、これらのシステムがすべての人間の知識の保管庫になることを望むからです。
そして、すべての人間がそれに貢献する必要があります。OpenAIや誰かによって、あるいはMetaによって構築された独占的なシステムには貢献しないでしょう。オープンソースである必要があります。
これがどれほど危険だと思うかに関わらず、これが進むべき方向です。
ブライアン: セバスチャン、最後の言葉として、私たちが話してきた質問やトピックについて何か言いたいことはありますか?
セバスチャン: はい、意識についての質問に答えますが、少し異なる味わいの最後の言葉を言わせてください。
私のキャリアの初めには、量子力学を発見し、本当に変革的で、完全に新しい、完全に予想外のものを発見していた1世紀前の科学者たちを羨ましく思っていました。
私たちは今まさにその時期を生きています。私は本当に幸運だと感じています。今この瞬間に存在し、このトピックに取り組んでいることに。
私の生涯で、人工知能と呼べるレベルに達するシステムが現れるとは思っていませんでした。私たちの知能とは異なりますが、知能のように見えるものです。
これは本当に信じられないことです。再び、私の生涯で舞台に立って知能について話すとは思っていませんでした。これはとても定義が難しい概念だからです。
だから、意識については話す準備ができていません。私の生涯でそれが起こるかどうかわかりません。
ブライアン: この魅力的な会話に参加してくださった皆様に感謝します。