S3 E1 チューリング賞受賞者ヨシュア・ベンジオ: AIに高次の認知と創造性を与える

2024年10月12日 17:02

26,909 文字

過去10年以上にわたって、人工知能はコンピュータービジョン、音声認識、機械翻訳、ロボット工学、医学、生物学など、次々とブレイクスルーを達成してきました。そのリストはどんどん続いていきます。これらすべてのブレイクスルーの基盤となっているのは、人工知能の一つの分野、ディープラーニングです。
今日のゲストは、初期のディープラーニングのブレイクスルーの多くを先駆け、今日でもなお先頭に立ち続けています。その功績により、今日のゲストはコンピューター科学のノーベル賞とも言えるチューリング賞を受賞しました。今日のゲストの研究は50万回以上引用されています。つまり、50万以上の他の研究論文が彼の研究を基に構築されているということです。
その過程で、今日のゲストはモントリオールを、AIを志す科学者や起業家にとって世界有数の目的地の一つに変えました。今日のゲストは、私の知る限り最も社会的良心のある科学者の一人でもあります。
もちろん、私が話しているのはヨシュア・ベンジオ氏以外の誰でもありません。ヨシュアさん、今日は番組にお越しいただき、大変光栄で楽しみにしています。
本題に入る前に、ポッドキャストのスポンサーであるIndex VenturesとWeights and Biasesに感謝申し上げます。
Index Venturesは、シードからIPOまであらゆるステージで優れた起業家に投資するベンチャーキャピタル企業です。サンフランシスコ、ニューヨーク、ロンドンにオフィスを構え、人工知能、SaaS、フィンテック、セキュリティ、ゲーム、コンシューマーなど、さまざまな分野の創業者を支援しています。個人的な話ですが、Index Venturesはcovariantの投資家であり、私は彼らを強くお勧めできます。
Weights and Biasesは、実験の追跡、モデリング、データセットのバージョン管理、モデル管理を通じて、より良いモデルをより速くトレーニングするのに役立つMLOpsプラットフォームです。OpenAI、NVIDIA、そして大規模モデルをリリースするほぼすべての研究所で使用されています。実際、バークレーの私の学生やcovariantの同僚の多く、もしくはすべてがWeights and Biasesの大ファンです。
ヨシュアさん、ここに来ていただいてうれしいです。番組へようこそ。
ヨシュア: ありがとうございます。お招きいただき光栄です。
ホスト: ええ、ヨシュアさんをお迎えできて本当に嬉しいです。もちろん、過去に何度もお会いしていますね。特にCFARの学習、機械、脳のワークショップのおかげで。長年にわたって素晴らしい議論がたくさんありました。
最初に気になるのは、言語モデルが注目される前から、あなたはこの分野で多くの研究をされていましたね。10年前、20年前から再帰型ニューラルネットワークなどに取り組んでいました。当時の動機は何だったのでしょうか?
ヨシュア: そうですね、30年前くらいからですね。
ホスト: ほう、当時の動機は?他の人はそんな風に言語を考えていなかったのでは?
ヨシュア: そうですね、私の博士課程では...1991年に博士号を取得しましたが、再帰型ネットワークと畳み込みネットワーク、そして確率的なシーケンスモデリングに興味がありました。指導教官が音声認識を研究していたからです。
私が提案した手法は、20年後にGoogleやIBM、Microsoftの音声認識システムで使われることになる手法に近いものでした。2010年から2012年頃に登場したシステムですね。
言語に本格的に取り組み始めたのは20世紀の終わり頃で、ジェフ・ヒントンの分散表現のアイデアを基にしていました。当時の最先端だった統計的手法、n-gramのカウントに基づく純粋に記号的な表現ではなく、今でいう単語埋め込みを使うことで、統計的強度の共有が可能になるという直感がありました。同じ単語が多くの異なる文脈や異なるn-gramで出現するため、n-gramが直面する次元の呪いを潜在的に打破できると考えたんです。
実際、この考えについて書き始めたのは、言語に取り組む前、1999年か2000年頃に弟のソニーと一緒でした。複雑で高次元かつ離散的な分布を、多くの変数を持つニューラルネットでどうやって学習できるかという話です。どうすればそんなことが可能なのか、ということですね。
もちろん、これらのシンボルの表現を使うわけです。ジェフは少なくとも10年前からこういったことを書いていました。そして2000年頃、私は実際のテキストのモデリングにこれを適用し始めました。これが当時「ニューラル言語モデル」と呼んでいたものの始まりです。
当時は、それほど革新的だとは思っていませんでした。明らかにやるべきことだと思えたんです。すぐには広まりませんでした。自然言語処理の人々が本当に取り入れ始めるまでに10年くらいかかりましたね。
でも、これは非常に強力な概念です。現代の自然言語処理でこれを応用している人全員が理解しているわけではありませんが、理解することが本当に重要です。
ホスト: 面白いですね。少なくとも私個人としては、ニューラルネットが例えばコンピュータービジョンや音声認識で非常にうまく適用されているのを初めて見たとき、言語にも適用するにはかなり違ったものになるだろうと思っていました。それは当時の私の間違った反応でしたが。
というのも、視覚や音声は信号、実数値であり、ニューラルネットは実数値を処理します。でも言語は離散的な概念を持っているように思えたからです。根本的に違うものになるはずだと。
ヨシュア: 音声にも離散的な概念がありますよ。音素がそうです。実際、私が博士課程で取り組んだ問題の一つは、低レベルの信号と個々のカテゴリー(音素)との関係だけでなく、高レベルの部分も含めたものでした。
信号を条件とした音素レベルの結合分布はどうなっているのか、ということです。今でも私はこの種の問題に取り組んでいます。現在は、教師なしの方法でこれをどう行えるかを考えています。つまり、低レベルの信号しか観測できない状況で、抽象レベルで複雑な相互作用を形成する適切なカテゴリー表現をどう発見するか、ということです。
ホスト: なるほど。先ほど分散表現について触れられましたね。これは離散表現とはある意味で正反対のものです。単語埋め込みについても言及されました。言語も実際には、根底では連続的な媒体だと考えているのでしょうか?離散的ではなく。
ヨシュア: 両方ですね。クオリアについての理論があります。クオリアという概念をご存知ですか?
ホスト: はい、知っています。
ヨシュア: 主観的な経験のことで、言葉で表現するのが難しいものですね。何かを見て、それについて話すとき、その経験の主観的な部分は表現が非常に難しいけれど、感じているし重要なものです。
単語埋め込みについての私の理論は、少なくとも神経科学で分かっていることと一致しているのですが、何かが意識に上るとき、脳の皮質の動的システムがある種のアトラクターに収束するというものです。定義上、アトラクターは相互に排他的です。つまり離散的な性質を持っています。「犬」か「猫」のどちらかで、同時に両方にはなりません。
ネッカーキューブの場合、一方の見え方か他方の見え方のどちらかで、一方から他方に切り替わることはできますが、離散的な選択です。しかし、アトラクターは単に脳内のニューロンの特定の活性化パターンに過ぎません。ダイナミクスがそこに向かっていくパターンです。
あなたの心や脳の何かが「犬」だと決めたとすると、「犬」のアトラクターもまた、脳内のニューロンの非常に高次元の活性化パターンであると同時に、他のアトラクターと競合するアトラクターでもあるのです。
実際には「犬」だけではなく、「赤い犬が通りを歩いている」というような文になるでしょう。私たちの思考は単語一つではなく、通常はより概念の組み合わせのようなものです。
つまり、私たちの脳内では二重の表現があるように思えるのです。ある種の離散性があります。単語を持ち、離散的な決定を下します。ロボット工学者としてご存じのように、ロボットは左に行くか右に行くかを決定しなければなりません。これらは時に取らなければならない難しい決定です。
しかし、これらの難しい決定の背後には、離散的な実体を他の離散的な実体と関連付けることを可能にする豊かな分散表現があるのです。それらの間には何らかの類似性があります。これが分散表現の本質です。豊かな類似性空間で、その表現では全てが全てと繋がっています。
一方、シンボルはある意味で愚かです。シンボル自体には、「犬」と「猫」に共通点があることを示すものは何もありません。
ホスト: なるほど。あなたは、多くの研究者が避けるようなトピックについて話すことを恐れませんね。例えば、脳の中の意識的な部分と無意識的な部分の意味とは何か、といったことです。
その点についてもっと深く掘り下げたいのですが、最近、高次認知のためのディープラーニングの帰納バイアスについて素晴らしい論文を書かれましたね。
しかし、意識と高次認知について掘り下げる前に、ちょっと気になることがあります。あなたの視点から見て、過去5年ほどでどのような進化が起きたと思いますか?言語モデルは、あなたが初期に取り組んでいた頃にはほとんどの人が注目していなかったものから、今ではAIのほぼすべてが中心的に取り組むものになりました。
基本的なアーキテクチャも、RNNからTransformerへと少し変化し、注意機械も使われるようになりました。これらについても、あなたは機械翻訳や音声認識などで先駆的な取り組みをされていましたね。
あなたの視点から見て、この進化をどのように捉えていますか?そしてこの先どこに向かうと思いますか?単に大規模化し続けるだけで、それが私たちに必要なすべてなのでしょうか?
ヨシュア: まず、ちょっとした逸話から始めましょう。2000年頃にニューラル言語モデルに取り組んでいたとき、私にはそれを実行するための計算能力がありませんでした。今日の基準からすればとても小さなモデルですが。
64ノードのような大きなマシンを持っている人に頼まなければなりませんでした。私の研究室の机の上にはそんなものはありませんでしたからね。もちろん、今日の基準からすれば、これらのマシンはそれほど速くありません。しかし、それを実現するには実際にかなりの工学的努力が必要でした。
そして、それほどうまくいきませんでした。当時の標準的な統計的手法であるn-gramよりもほんの少しだけ良い程度でした。しかし、もちろん、人々がより多くの計算能力とより多くのデータを手に入れるにつれて...私が最初に取り組んだコーパスはブラウンコーパスで、本当に小さなものでした。その後、Wikipediaに移り...とにかくどんどん大きくなっていきました。
そして、注意機構によって大きな転換が起こり、再び状況が変わりました。しかし、あなたが質問で示唆しているように、その大部分は単により大きなデータセットで訓練し、より大きなモデルを使うようになっただけです。これは大きな違いを生み出しました。
これは近年の最も重要な発見の一つだと思います。しかし、スケーリングだけでは十分ではないと考えています。スケーリングは人間レベルの知能に近づくための必要条件ではありますが、十分条件ではありません。
これは、大規模なニューラルネットで何ができるかについて多くのことを教えてくれます。そして、その技術と根底にあるアイデアの強みと弱点を、人間の知能とのギャップを埋めるためにどのように補完できるかを理解するのに役立ちます。
ですので、はい、質的に欠けているものがあると思います。
ホスト: なるほど。興味深いですね。私は「ただ」とは言いませんでしたが、人々がただスケールアップするだけだとしたら、それにはあなたが考える限界があるということですね。しかし、その限界はどれくらい先にあるのでしょうか?単にスケールアップするだけで、まだ何年も驚くべき新しい能力が現れる可能性があると思いますか?
ヨシュア: ある程度はそうですね。これらのネットワークを構築している人々と話す限り、私の研究室ではできませんが、テキストに関しては、インターネット上で公開されている利用可能なデータの量に本質的に到達しています。画像についてはよく分かりませんが、テキストについてはそう聞いています。
ですので、さらに大きなニューラルネットを使えば、もう少し得られるものがあるかもしれません。しかし、ある時点で、サンプル複雑性について心配する必要があります。これらのモデルが必要とするデータ量は、例えば5歳児が人生で見るデータ量と比べて、少なくとも3桁以上多いのです。同程度の能力を持つとしてですよ。
もしくは、8歳とか...どこにバーを設定するかによりますが、5歳児でさえ、現在の言語モデルよりも優れた推論をするでしょう。最先端の言語モデルは知識は少ないかもしれませんが、知っていることについては、現在のモデルがしないような方法で分布外の推論ができるでしょう。特に、因果的に推論することができます。
ホスト: 面白いですね。あなたの言い方を解釈すると、より大きなモデルは非常に印象的な結果を示していますが、最終的な結果は非常に多くのデータに基づいて構築されているということですね。実際には、それらの能力を獲得するためのより良い方法、より強力な方法があるのではないかと。
人間は3歳や5歳までにそのような能力を示しますが、それにはモデルほど多くのデータを必要としません。そういう理解でいいでしょうか?
ヨシュア: その通りです。現在のアプローチでサンプル複雑性の問題を回避する方法について考えがあります。たくさんの考えがありますが、その中の一つの側面をお話しします。
現在、大規模言語モデルが表現できる複雑さは、訓練に使用したデータ量によって制限されています。そして、その限界に達しています。しかし、私たちは多くの可能性を見逃していると思います。
大規模言語モデルに持たせたい知識は、もっとコンパクトに表現できると考えています。その知識について推論を行うには、依然として非常に大きなモデルが必要かもしれません。
これは、モデルベースの強化学習のようなアプローチを考えています。何が変わるのでしょうか?同じ知識のより安価な表現があれば、それを学習するのに必要なデータは少なくて済みます。もちろん、それを実現するには帰納バイアスが必要になります。
しかし、重要なのは、このサンプル複雑性の問題を解決する一つの方法は、より豊かな帰納バイアスに向かうことに加えて、世界がどのように機能するかというモデル部分と、そのモデルについて私たちが通常興味を持つあらゆる質問に答えられる推論部分を分離することだと直感的に感じています。
これらのことを言っているのは、過去数年間に調べてきた人間の認知についての知見からも大きな影響を受けているからです。
ホスト: 今日の一般的な方法で、あなたの言っていることに近いものといえば、言語モデルに検索機能を追加することかもしれませんね。関連するテキストを検索し、そのテキストに基づいて推論して答えを得るというものです。
しかし、先週読んだ高次認知のためのディープラーニングの帰納バイアスに関するあなたのエッセイでは、もっと複雑なアーキテクチャが提案されていて、それはさらに進んだものになる可能性があると思います。高次認知にどのようにアプローチするのか、もう少し詳しく教えていただけますか?
ヨシュア: はい。進化は、私たちの脳と心がどのように機能するかについて選択を行ったようです。その結果が、高次認知に関連する帰納バイアスです。これらの大部分は、機械学習ではまだ活用されていません。
例外は注意機構ですが、現在の使い方は脳内の注意機構とはかなり異なります。しかし、注意機構がいかに強力であるかは分かります。そのような帰納バイアスの強さが10倍になったと想像してみてください。
私たちが知っていることは...脳内の意識的処理がどのように機能するかについて、支配的な理論があります。それは、バーナード・バースが1980年代と90年代に導入したグローバルワークスペース理論です。
もちろん、スタニスラス・デアンヌのような神経科学者を含む多くの人々によって発展させられました。デアンヌは神経科学的な根拠とデータを与えました。
この理論は、私たちの脳に情報のボトルネックがあるという解決策を中心に展開しています。意識的になり、脳全体に放送され、思考を言葉に出すために利用可能な情報のボトルネックです。
これは、あなたが考えている内容、つまりワーキングメモリとも呼ばれるものです。任意の瞬間に心の中に保持できる5つか6つ、あるいは7つの項目、それがボトルネックです。
これは少し奇妙です。なぜ私たちの脳がそんなに大きいのに、保持できるビット数がそんなに少ないのでしょうか?私たちには800億個のニューロンとそのすべての接続があるのに。
これには進化的な利点があるはずです。そして、学習上の利点があるはずだと思います。なぜなら、これは制約だからです。機械学習では、制約、例えば正則化などは通常、強い帰納バイアスを表すものだと知っています。
では、なぜこれが学習の観点から有用なのでしょうか?この論文や他の論文で展開している理論は、意識レベルで操作している高レベル変数間の結合分布を、非常にスパースな依存グラフを持つように強制するというものです。
概念は、おそらく2つか3つ、4つか5つ程度の依存関係を通じてのみ、他の概念と関係を持つことができます。私たちの記憶もこれらの小さなチャンク、依存関係を中心に構造化されています。文章のようなものです。これは言語にも反映されています。これらの帰納バイアスですね。
つまり、依存関係にこのようなスパース性があるのです。言語で見ることができます。文の解析、意味解析や依存構造解析を考えてみてください。基本的に、一度に少数の概念だけを関連付けます。もちろん、これらの依存関係は多数あり得ますが、単位は一度に少数の概念しか含みません。
数式のことを考えてみてください。変数はいくつありますか?2つ、3つ、4つ、10個?このように私たちは考えるのです。
これが帰納バイアスの1つ目ですが、まだ私たちは活用できていません。
関連する別のものとして、言語にも見られますが、これらの依存関係の種類が繰り返し再利用されるということがあります。例えば、タイプの概念があります。犬や猫などの異なるカテゴリーがあり、猫について真実なことの多くは、すべての猫、または多くの猫に当てはまります。
画像の中に多くの猫がいても、猫について知っていることは、それらすべてに適用されます。機械学習の観点から見ると、これは統計的強度の共有のようなものです。コンポーネントの再利用があるのです。
この再利用可能性は、もう一つの帰納バイアスです。
そして、もう一つ興味深いものがあります。これは強化学習やロボット工学に関連していると思いますが、思考の行動側面に関するものです。
何かを計画しているときに、自分の心の中で何が起こっているかを観察しようとしてみてください。ちなみに、これはメタ認知と呼ばれる、自分の思考を観察することです。
そこにも同じような疎性があります。計画はどれくらい大きいでしょうか?クリックして特定の部分にズームインすることはできるかもしれませんが、基本的には少数のステップしかありません。
一度に少数のものが接続されるという、同じような組織化があるのです。
そして、なぜ誰かが何かをしたのか、あるいは何が起こったのか、この場面からあの場面に何が変わったのか、今外で見ている新しいものを何が説明するのか、と尋ねたとしたら、通常、それを説明する一つの文章を思いつくことができます。少なくともそのような文章を探しています。常にうまくいくわけではありませんが。
これが示しているのは、世界の変化を、単一のエージェントが単一のことを行ったことに帰属させるということです。この依存関係のグラフは、世界がどのように変化するかを教えてくれるグラフでもあり、これは因果関係に関係しています。
私たちは、変化のほとんどが最初は一人の人間、一つのエージェント、動物かもしれません、想像上の登場人物かもしれません、がこのグラフの一つの要素を変更し、一つの変数を修正したことによるものだと期待する帰納バイアスを持っています。
ドアを開けたら家の中が寒くなった、というようなことです。多くのことを変えることはできます。ドミノ効果があるかもしれません。しかし、最初の原因、私たちが帰属しようとするものは、非常に少数の変数が関与しているものです。それを本質的に一つの文章に入れることができます。「ああ、それが説明だ」というように。
これは、私たちがどのように計画を組み立てるか、また、どのように原因を帰属させるか、人々がなぜ物事を行うのか、意図、目標についても何かを語っています。私たちはこれを強化学習やロボット工学では本当に活用していないと思います。
ホスト: 非常に興味深いですね。スパースな接続性と、ある意味で小さな情報量のボトルネックを、より能力のあるシステムを可能にする帰納バイアスとして説明されました。そして、このボトルネックがそれらをより能力のあるものにしているのですね。
ヨシュア: まあ、そうは言いませんが、ある種の計算を容易にするのは確かです。n個の変数間の結合分布を学習しようとすると、次元の呪いがあることは知っています。必要なデータ量や計算量がnに対して指数関数的に増加します。これが次元の呪いです、表現の側面でも統計的な側面でも。
このボトルネックはそれを打破します。しかし、もちろん、この帰納バイアスがすべてに対して機能するわけではありません。だからこそ、低レベルと高レベルの分離があるのです。
高レベルでは、これらのスパース性とボトルネックの制約を満たす変数があります。しかし、すべてを言葉で表現できるわけではありません。ピクセルはこれらの制約を満たさないことは分かっています。他の2つか3つ、4つのピクセルだけを与えられて1つのピクセルを予測することはできません。ピクセルについて物語を語ることはできません。高レベルに持ち上げて、物語のある場所に持っていかない限りは。
ホスト: それを聞いて実際に思ったのは、AIには直接関係ないかもしれませんが...もし人間がこのような帰納バイアスを持っていて、本質的にスパースな接続を想定し、それが潜在的にドミノ効果を引き起こすとしたら...ニュートン物理学も確かにそのようなものですね。そこには多くのつながりがあります。
しかし、世界にはそれほどスパースな相互作用ではないものもあるのではないでしょうか。人間がそういったものを正しく評価したり理解したりするのがとても難しいものがあるのではないでしょうか。
ヨシュア: もちろんそうですね。私たちはただ、人間が得意なことを知っているだけです。言語で表現できるような知識表現を思いつくことができるものは、すべてこの制約を満たしています。
そのため、ディープラーニングが非常に優れているが、人間には難しい反例がたくさんあります。例えば、囲碁をプレイするようなものです。ゲームのルールは単純ですが、うまくプレイするために必要な推論は、小さな知識の断片に簡単に分解できません。
少数の要素だけを使って何か良いことをするために必要な知識の小さな断片に簡単に分解できないのです。そのため、古典的なプログラミングからの転換もあります。古典的なプログラミングもこのようなものです。
私たちは小さな関数を書き、各行に少数のシンボル、少数の関数呼び出しがある言語を持っています。しかし、すべてがこのようにはフィットしません。そこで現在の形のディープラーニングが従来のプログラミングや古典的なAIの方法を打ち負かしているのです。チェスや囲碁も含めてね。
なぜなら、私たちは言語のようなものに還元できない、これらの複雑なオブジェクト、分布を学習することができるからです。だから、それを捨てる必要があるとは言っていません。これは非常に強力です。現在の大規模言語モデルや効率的なシステムが行っていることです。
しかし、私たちはもう一つの部分、高次認知の部分を逃しているのです。
ホスト: ここで気になる点が2つあります。もう少し深く掘り下げたいと思います。
1つは、私たちが行うことの意識的な部分と無意識的な部分についてです。AIでそれに対応するものについて興味があります。
もう1つは、あなたが何度か言及された、1つの文で捉えられるものについてです。それらが私たちの推論や世界の仕組みについての理解の核心だということですね。
ホスト: 直感的な物理学のような意識的な理解は、このようなものに当てはまらないかもしれません。
そこで疑問に思うのは、言語を持たないように見える動物についてのあなたの考えです。少なくとも言語を持っているようには見えません。しかし、かなり賢く見える動物たちについて、どう思われますか?
ヨシュア: はい、これらは良い質問です。誰も自信を持って答えられるものではないでしょう。
私は猫を飼っていますが、彼らは推論して問題の解決策を見つけるように見えます。全く経験がない状況でも、知識の断片をつなぎ合わせて問題の解決策を見つけているようです。
しかし、彼らには言語がありません。もちろん、彼らにはたくさんの愚かな面もあります。
私の推測では、多くの哺乳類は同じような機構の多くを持っていますが、私たちはそれをさらに発展させたのだと思います。例えば、哲学者のダン・デネットが話していた仮説で、納得できるものがあります。
それは、人間の心の中で言語能力が進化し、拡大したことが、私たちに追加の推論力を与えたというものです。正確にどこでそれが起こったかは分かりません。
しかし、例えばワーキングメモリのボトルネックは、ほとんどの哺乳類が共有しているものです。面白いことに、他の多くの動物は私たちよりも大きなワーキングメモリのボトルネックを持っています。
ホスト: 本当ですか?人々はそれをどうやって知ったのでしょうか?
ヨシュア: それをテストすることができます。記憶ゲームのようなものです。通常、サルを訓練してゲームをプレイさせることができます。報酬を与えるからです。そこで記憶ゲームをプレイさせます。記憶ゲームにはいろいろな種類があります。
基本的に、うまくできなくなる点があります。それがあなたの任意の物事の非常に短期的な記憶化能力の限界です。
リスは私たちよりも大きなワーキングメモリを持っている可能性が高いですね。
ホスト: 先ほど言われたことが本当に興味深いと思います。私の解釈が正しければ、その哲学者の言葉は、私たち人類の系統ですでに何らかの推論方法を持っていたが、その後、進化的圧力によって話す/言語能力がより強く要求されるようになったということでしょうか。
なぜなら、そうでなければ、他の全員が話せる社会で上手く機能できなかったからです。私たちは非常に強力な構成能力を持っています。そのプロセスの中で、推論もより優れた脳が選択されたということですか?
ヨシュア: そうですね。数学のようなものは、進化の副産物です。私たちが進化したのはそのためではありませんでした。
ホスト: なるほど、分かります。
では、意識的なものと無意識的なものに話を戻しましょう。まず簡単なところから始めましょう。人間が意識的に行うことと無意識的に行うことの境界線はどこにあるのでしょうか?
ヨシュア: 興味深いことに、今では多くの研究がその境界線を特定しようとしています。少なくともそう主張しています。
私たちは様々な機器を使って、脳内で起こっていることを観察することができます。人々は「ああ、この情報が意識レベルに達した」と言います。私たちはそれを知っています。なぜなら、誰かに尋ねることができるからです。
サルの場合は尋ねる必要はありません。何かを知っていることを示すタスクを行わせればいいのです。そして、信号の強さを操作することができます。
信号が弱すぎる場合、例えば視覚皮質に情報があることは分かりますが、グローバルワークスペース理論で言えば、競争に勝てなかったのです。その情報に十分な注意が払われず、全脳に放送され、私たちの決定や行動に影響を与えるワーキングメモリに入らなかったのです。
そのため、無意識と意識の間の境界線の相関関係を測定することができます。これによって、例えば、あなたは気づいていませんが、脳はある情報を数百ミリ秒の間「知っている」ということが分かります。
そして、意識的点火と呼ばれるものが起こります。その情報が突然、皮質の多くの部分で活性化し、視覚皮質以外の脳の多くの部分がその情報を突然知るのです。そしてあなたはそれに基づいて行動できるようになります。他のことと関連付けることができ、人間であれば話すこともできます。
これら2つの段階の間の脳の挙動は、非常に明確に区別できます。
ホスト: 非常に明確に区別できるというのは、人々が脳の電磁活動を測定して、異なるパターンを見ることができるということですか?
ヨシュア: はい、その通りです。
ホスト: 先ほど言及されましたが、脳内の注意機構の働き方は、現在の注意機構アーキテクチャの働き方とは大きく異なるそうですね。もう少し詳しく説明していただけますか?
ヨシュア: はい、もちろんです。多くの側面があります。
まず、脳には1つの意識的な注意の「存在」しかありません。一度に1つのことを選択します。そして、その中身は文章のようなチャンクです。複数の項目を含むことができます。
Transformerでは、すべての層、同じ層内のすべてのユニットで、この計算を注意機構を使って同時に行っています。私たちはそのツールを見つけ、ネットワークの多くの部分で複製したのです。
無意識レベルでも同様のことが起こっている可能性があります。脳内では似たような役割を果たす抑制プロセスが起こっていることが分かっています。
しかし、意識を生み出す特別な注意が1つあります。言語で報告できるものです。完全に同じではありませんが、本質的に一方が他方につながっています。
この意識的な注意は離散的です。先ほど挙げたネッカーキューブの例のように、一方の見え方か他方の見え方のどちらかを認識します。犬か猫のどちらかです。もしくは両方を含む文章かもしれませんが、2つの文章を同時に混ぜて軟らかい重みで考えることはありません。これが現在のTransformerでの注意機構の方法です。
2014年に、現在のTransformerで使用されている現代的な形の注意機構を導入したとき、人間の注意はこのような硬い、おそらく確率的な現象であり、一方か他方を選択するということをよく認識していました。強化学習における離散的な行動のようなものです。
しかし、私たちはこのソフトな注意を選択しました。なぜなら、それが可能だったからです。確率的で硬い注意を持つシステムを便利に訓練するアルゴリズムがなかったのです。
実際、注意機構に関する2番目の論文では、ソフトな注意と確率的で硬い注意の比較を行いました。硬い注意を選択する方針は単純な強化学習のような勾配推定器であるREINFORCEだけでした。
私は、ソフトな注意がREINFORCEよりもはるかに優れているはずだと確信していました。しかし、そうはなりませんでした。結果は同じでした。
私の解釈では、今日のディープラーニングのように勾配を計算できることには明確な利点がありますが、確率的で硬い注意にも利点があり、それが2015年の古い実験でバランスを取ったのだと思います。
今では、意識的な注意と同じように、確率的で硬い決定を行う注意の学習にはもっと優れたアルゴリズムを設計できると考えています。
ホスト: 硬い注意について考えると、多くのものを失うように思えます。それで、同じくらい速く学習できると聞いて興味深いと思いました。なぜなら、硬い注意を適用すると、本質的に多くの情報を捨ててしまい、もはやその特徴情報を流すことができなくなるからです。
根本的に、そのような方法で学習するのは効率が悪いように思えます。しかし、あなたはそうは考えていないようですね?
ヨシュア: そうですね、覚えておく必要があるのは、これは帰納バイアスだということです。帰納バイアス、例えば正則化やその他の機械は、ある意味で生活を難しくします。容量を制限するからです。
2021年のニューラルの論文で、Transformer風のアーキテクチャを取り、層間の通信をソフトな注意からディスクリタイゼーションを含むものに置き換えました。離散化のバックプロップには、私はあまり好きではないトリックを使いましたが、これらのトリックは非常に人気がありました。これらのトリックについて、2013年に別の論文を書いたと思います。
興味深いのは、情報を捨てることを強制することで、連続から離散へと移行する際に、より良い汎化が得られたことです。なぜそれが役立つのでしょうか?情報を捨てているのに。
私の理論は、連続的なベクトルだけでなく、シンボルが役立つ理由と関連しています。当時考えていたこと、そして今でも非常に理にかなっていると思うのは、プラグアンドプレイのシナリオを作れるということです。
文章で何かを説明する場合、犬の画像の非常に詳細な説明の代わりに「犬」という単語だけを使えば、それはすべての犬の画像に適用できます。そのレベルで推論し、すべての詳細を捨てることができるかもしれません。
脳の異なる部分が通信していることを考えてみてください。例えば、「火事」を聞いたり、見たり、嗅いだりすることができます。脳の異なる部分が、共通の言語を素早く学習できるような方法で情報を交換できるようにしたいのです。
ちなみに、脳の異なる部分間の共通言語というこのアイデアは、1980年代後半にバーナード・バースが提案したものです。
そこで、非常に制約された通信形式を持つことになります。私たちが別の言語を学ぶのがいかに簡単かを考えてみてください。簡単なのは、各単語の容量が制限されているからです。
火事がどのように発生したかの詳細を知る必要はありません。火事だと分かれば、火事について知っているすべてのことをそこにプラグインできるのです。
これは、知識の断片を分離することを可能にする帰納バイアスだと分かります。例えば、火事がどのように見えるかの詳細と、火事があるときに何をすべきかということを分離できます。
豊かな連続的な表現を持っていたら、すべての詳細が忍び込もうとします。そうすると、異なる種類の火事、おそらく異なる感覚モダリティから来る火事に一般化するのが難しくなります。
ホスト: これを聞くと、マルチモーダル学習にもっと取り組むべきだと思います。あなたが説明したすべてのこと、マルチモーダルデータセットを収集し、それらで何が達成できるかを見てみるべきですね。
ヨシュア: そうですね、確かに。私たちが体のセンサーで行っていることは、世界の非常に異なる視点を抽出しているという一般的な見方があります。目の中でさえ、見る場所を変えることができます。
しかし、それらはすべて非常に複雑な現実の異なる視点です。そしてそれらの視点を一緒に組み立てるのは非常に難しいのです。
そのため、それらの接続を表現するための組み合わせ的な言語を持つことは非常に便利になり得ます。
ホスト: なるほど、それを聞くと私も自分でその方向にもっと取り組みたくなります。非常に刺激的ですね。
ヨシュア: それが私がこういった話をする目的です。人々を興奮させることです。まだ多くのことを得られると思うからです。
これは、過去数年間にディープラーニングで推進してきたものとは性質が大きく異なります。また、古典的な記号的AI、ルールベースの記号的AI、論理的思考で人々が考えてきた方法とも大きく異なります。
数十年前からのその研究から興味深いインスピレーションを得ることはできますが、そのままではニューラルネットの図式には合いません。私たちが構築してきたディープラーニングの豊かな学習能力にも合いません。
私が考えているのは、ディープネットがどのようにして、意識の働きに触発されたような組み合わせ的で離散的な構造を表現できるかということです。そして、両方の利点を活かしつつ、赤ん坊を風呂の水と一緒に流してしまわないようにすることです。
ホスト: G-flow ネットワークについてもう少し詳しく教えていただけますか?
ヨシュア: はい、G-flow ネットワークは、先ほど話していたような注意ポリシーをどのように訓練できるかという動機から生まれました。離散的な概念、知識の断片を選択し組み合わせて、問題の解決策を見つけたり、推論したり、計画を立てたりするためのものです。高次の意識で見ているすべてのことです。
G-flow ネットワークは、生成モデル、強化学習、変分法の交点のどこかにあります。G-flow ネットワークが学習する主なものは、データ構造を構築できる生成ポリシーです。
グラフを考えてみてください。しかし、このグラフは単語の線形シーケンスというよりも、思考を表現することを意図しています。意味的な部分を考えてください。これらの単語は関係を通じて互いに関連しています。
これはデータ構造で、私はグラフとして考えたいと思います。これらのG-flow ネットワークは、あなたの思考が順次進むように、一度に少しずつ順次的にそのようなデータ構造を生成、構築することができます。
その意味では、強化学習の方法だと考えることもできます。報酬関数を最大化する一連の行動を見つけようとするポリシーを学習するからです。
しかし、典型的な強化学習は報酬を最大化する行動の系列を見つけようとしますが、G-flow ネットワークは報酬に比例した確率でこれらの構造、オブジェクトをサンプリングしようとします。ここに微妙な違いがあります。
既存の強化学習の研究とのつながりはあります。生成モデルとのつながりは、これが生成モデルだからです。これらのものを訓練してオブジェクトを生成し、サンプラーを訓練することができます。
変分法とのつながりは少し技術的ですが、サンプラーを直接学習することはできません。G-flow ネットワークの損失関数、つまり確率的学習の損失関数は本質的に扱いづらいものです。
通常の教師あり学習のように、損失関数があってバックプロパゲーションできるというわけではありません。強化学習の世界では、私たちが望むことを行う機械を訓練できる損失関数、微分可能な代理のようなものを持っています。この場合は、正しい確率でサンプリングすることです。
ちなみに、これはベイズ事後分布や任意の種類の確率的事後分布を表現するのに非常に便利です。データが与えられた時のパラメータのPのようなものからサンプリングしたい場合、その確率を計算するのは扱いづらいですが、パラメータとデータのジョイントPを計算するのは簡単です。
そのため、非正規化された報酬を得ることができます。データとプライアにどれだけフィットしているかということです。そして、その報酬に比例してパラメータをサンプリングするようにニューラルネットを訓練することができます。
これは私たちが遊び始めたもので、すでに1本の論文を出しています。
G-flow ネットワークは興味深いです。なぜなら、オブジェクトのサンプリングを学習できるだけでなく、その副作用として周辺化と呼ばれるものも学習できるからです。
つまり、他の多くの変数を無視して、変数のある部分集合の確率を計算することです。言い換えれば、他のすべてのものを合計しているのです。これもまた扱いづらいものです。
そのため、気にかけている量の任意の部分集合に対する確率を学習することができます。思考は通常、入力や計画について考えられるすべてのことの部分集合です。
このような種類のオブジェクトを適切に操作するには、部分的推論が必要です。これが意味するのは、何かを計画するとき、すべての詳細について考えるわけではないということです。状態に関する多くの情報を捨てているのです。
あるいは、キャプション生成を行っている場合、画像があって、その画像について言えることはたくさんありますが、何らかの方法で数少ない側面にだけ焦点を当てます。そして、暗黙のうちに行っていることは、言及していない他のすべての真実の事柄について周辺化しているのです。
ホスト: G-flow ネットワークがこのような、あなたが説明したようなことを行うのに適していると思われますか?そのようなG-flow ネットワークを訓練するためのトレーニングデータはどのようなものでしょうか?
ヨシュア: はい、通常、今日のニューラルネットを訓練する場合、例えば大規模言語モデルの場合、非常に複雑なものを表現したい場合は、それに伴う大量のデータが必要です。これは基本的な学習理論ですね。
しかし、ここでは少し状況が異なります。なぜなら、モデル部分と推論部分を分離しているからです。モデル部分は報酬関数です。物事がどのように機能するか、これらの概念が互いに一貫性があるか、整合性があるかということです。私はこれをエネルギー関数のようなものとして考えたいと思います。
つまり、世界がどのように機能するかというモデル部分があり、そして推論部分があります。G-flow ネットワークは推論部分に使用します。そして、推論ができれば、ベイズのように、モデルの学習も助けることができます。
しかし、重要なのは、推論マシンの訓練方法を考えると、実データで訓練する必要がないということです。モデルベースの強化学習のように、モデルにクエリを投げることができます。
ポリシーを訓練したい場合、それが囲碁プレイマシンを訓練する方法です。モデルはシミュレーションを実行するものです。実際に人間と対戦する必要はありません。ルールを知っていれば、好きなだけデータを生成できます。これは偽のデータです。
そして、私たちが好むような非常に大規模なネットワークを訓練することは、データセットが小さくても有用かもしれません。なぜなら、学習しているのは、データセット内の知識をモデルに収束させ、そのモデルを機械推論や質問応答に変換することだからです。
ホスト: 非常に興味深いですね。G-flow ネットワークが学習されたサンプラーであるからこそ、そのようなことができるのですね。しかし、その隣には学習された別のエンティティがあり、それが報酬やエネルギーに対応するのですね。それをどのように得るのでしょうか?
ヨシュア: 興味深い質問です。いくつかの方法があります。古典的なエネルギーベース学習の枠組みを使用した論文を出しています。エネルギー関数の最尤学習を行いたい場合、長い文献の伝統があります。
難しい部分は、サンプラーを持つことです。通常、人々はMCMCのようなものを使用しますが、MCMCをG-flow ネットワークで置き換えることができます。これが一つのアプローチです。
しかし、さらに興味深いアプローチがあります。そこではデータをサンプリングする必要さえありません。私は、私たちの脳が画像をサンプリングしているとは思いません。
高レベルの事柄だけをサンプリングする必要があり、潜在的には因果グラフのようなものです。考え方の一つは、パラメータをサンプリングできるということです。
これらは2つの方法です。一つは古典的な最尤エネルギーベース学習アプローチで、もう一つはベイズアプローチです。私は後者の方が脳が行っていることに近いと考えています。
ホスト: G-flow ネットワークの論文や要約を読んでいると、本当に刺激を受けます。将来の研究に向けてまだたくさんの機会があるように思えますが、そう考えてよいでしょうか?
ヨシュア: はい、その通りです。私たちは、すでに知っているものに大きく触発されてはいますが、問題に取り組む全く新しいアルゴリズム、アーキテクチャ、考え方のカテゴリーへのドアを開いたばかりだと思います。
G-flow ネットワークはその一つの具現化ですが、より大きな原理があります。つまり、何かをコンパクトにモデル化することは、推論システムとは別にできるかもしれないということです。推論システムの方がはるかに計算量が多いかもしれません。
しかし、何かを別々にコンパクトにモデル化することで、必要なデータ量が大幅に減少する可能性があります。
ホスト: そうですね。あなたが説明したことは、強化学習における報酬設計の重要性を思い出させます。学習の速度に大きな影響を与えますよね。
もし強化学習以外の分野で、非常に整形された、コンパクトなモデルを学習できれば、推論システムの学習をずっと高速化できる可能性があるということですね。推論システム自体はそれほどコンパクトでなくても良いかもしれません。
強化学習では常にそのトレードオフがあります。非常にスパースな報酬は指定しやすいですが、学習が遅くなります。報酬をどのように扱うかにはスペクトラムがあります。
G-flow ネットワークの場合、報酬に相当する部分、エネルギー関数の部分について、同様の可能性のスペクトラムがあると思いますか?
ヨシュア: はい、最近考えていることの一つですが、まだ成熟した理解には至っていません。G-flow ネットワークのようなものを使って、抽象的なレベルでの計画を行うことができないか、階層的強化学習をすることができないか、さらには教師あり学習的な方法で、文のような構成構造を持つ高レベル表現を発見できないかということです。
あなたの計画を考えてみてください。基本的に文に翻訳することができます。この構成構造を持っています。
私は、モデル内の構成構造を、G-flow ネットワークがサンプリングを行う方法と一致させる方法があると思います。なぜなら、G-flow ネットワークのサンプラーも一度に小さな文を生成していくからです。
状態のすべての部分に注意を払う必要もありません。これが、強化学習でまだあまり活用していない部分状態のアイデアです。
ホスト: ここまで話してきたことは、人間レベルの能力だけでなく、学習速度にも近づくような根本的なAIの進歩についてでした。
しかし、あなたは今日のAIがすでにできることを用いて、世界に直接的な影響を与えるような研究も多く行っていますね。最近特に興奮していることはありますか?
ヨシュア: 実は、これもG-flow ネットワークに関連しています。G-flow ネットワークを使って興味深い実験デザインを行うことができます。
実験デザインとは何でしょうか?これは、科学的な文脈での行動の選択方法です。例えば、最近私が興味を持っているのは抗菌薬耐性の問題です。
つまり、私たち全員にとって本当の脅威があるのです。次のパンデミックは、細菌が既存の薬に耐性を持つようになったために、私たちを全滅させる可能性があります。
実際、すでにいくつかの細菌に対しては、効果のある抗生物質が存在しません。幸い、それらはあまり毒性が強くありませんが、いつ突然変異を起こして、COVID-19よりも悪化する可能性があります。これは細菌だけでなく、ウイルスや真菌でも同じことが起こっています。
なぜこの話をするかというと、AIと生物学の交差点に巨大な変革の可能性があると考えているからです。生物学の技術に信じられないほどの進歩があり、大規模に物事を測定し、実験することができるようになりました。
単一細胞の発現を測定し、数千、あるいはゲノム全体の2万の量を測定することができます。これらのスナップショットを撮ることができ、細胞に摂動を加えることもできます。
これらが行動であり、実験です。生物学者としてCOVID-19や将来の病原体に細胞がどのように反応するかを理解しようとするとき、次に何を試すべきでしょうか?どうやってそれを解明するのでしょうか?
科学者たちはこれを実験によって行います。従来の実験方法では、生物学者や化学者が考えて、「これをやってみよう、あれをやってみよう」と言います。これらの実験は文章で書き下ろされなければならず、意識的な処理から生まれなければなりません。そこにはボトルネックがあります。
しかし今、私たちには何百万もの実験を並行して行うことができる機械があります。それを活用するにはAIの助けが必要です。そして何百万もの事柄を測定します。
人間の心は素晴らしいですが、多くの分野における科学の現在の可能性に適していません。
機械学習はどこで役立つのでしょうか?まず、モデリングの部分があります。例えば、観測されたデータの因果モデルをどのように構築するか。その知識を小さな断片に分解し、構成的な構造を持つようにすることです。本質的にそういうことです。
そして、そのモデルを持った上で - これはベイジアンであるべきです。なぜならデータを説明する複数の理論を考慮する必要があるからです - 次の実験で何百万もの事柄をどのように決定すべきかを考えます。
私たちはG-flow ネットワークを両方に使用していますが、特に実験デザインの部分に関する論文をいくつか発表しています。
何が起こるかというと、報酬に比例してサンプリングするため、何度もサンプリングすると、報酬関数に多くのモードがある場合、自然にモードをカバーすることができます。
分布のサンプラーを与えられ、その分布が高度に多峰性で、1000回IIDサンプリングできるとすると、報酬関数に従って良さそうな1000個の候補薬剤を得ることができます。
私たちはこの方向性を探索し、生物学者や化学者と協力して、これらのツールを実際の実験でどのように使用できるかを検討しています。これまでは公開されたデータセットで作業してきましたが、本当の勝負は、もちろん、これを実際の新しい実験で使用することです。既存のデータベースやデータセットではなく。
これは一例ですが、同じ一般的な実験ループ構造を使用して、モデリングと実験デザインの両方に機械学習を使用することができます。そして、実験をより高速に行うためにロボット工学を使用することもできます。これは実際に同時に起こっています。実験能力を拡大するためです。
機械学習はあらゆる場所で使用されています。アラン・アスプル=グジクのような人々が「自己駆動型研究室」という言葉を使っています。基本的に、すべてが機械制御された完全な科学的ループです。
まだそこまでは到達していませんが、そこに向かおうとしています。人間は抽象的なレベルでたくさんの決定を下す必要があるため、ループに入ることになりますが、このプロセスをより自動化できれば、より大きな力を得ることができます。
ホスト: これが影響を与える可能性のある具体的な病気について考えていますか?それとも、これは新しい何かが表面化したとき、私たちが今まで何も対処したことがないものに対して、できるだけ早く取り組み、いわば排除できるようにするためのものでしょうか?
ヨシュア: 私が話しているフレームワーク - そして私だけがこのように考えているわけではありませんが、私のグループはG-flow ネットワークを使用しています。しかし、人々は科学においてこのように機械学習を使用する方法についてしばらく前から考えています。
これは医療分野のあらゆるものに適用できますし、さらに一般的にも適用できます。しかし、私がより興味を持っているのは、産業界が利益にならないために取り組んでいない分野です。しかし、社会にとっての価値や、何もしないことによる社会へのコストは巨大です。
例えば、抗菌薬耐性の問題は、2050年までに100兆米ドルのコストがかかり、年間1000万人の死亡者を出すと予測されています。これはCOVID-19よりも多く、2年間だけでなく毎年です。
産業界はあまり取り組んでいません。市場の失敗があるからです。長くなるので説明は省略しますが、彼らにはこの問題に対して適切なイノベーションを行う動機がありません。
そのため、学術界がこういった問題に取り組む必要があると考えています。
もちろん、誰もが聞いたことのあるもう一つの大きな問題は気候変動です。私のグループで行っている多くのことも、これに動機づけられています。
同じ科学的発見の技術、機械学習ツールを使用して、例えばエネルギー貯蔵、炭素回収、より良いバッテリーなどに使用できる新しい材料を発見することができます。これらは例ですが、もちろん、材料設計に機械学習を役立てるより一般的な商業的用途もたくさんあります。
ちなみに、これは
ロボット工学が非常に重要な分野です。生物学のような安価な並列化のトリックを使用できないからです。
ホスト: 非常に興味深いですね。これらの自動化された研究室、材料や病気の治療法を探す巨大な機械をAIが運営していると考えると...それは特定の問題を解決しようとしているわけではなく、むしろ目標に対して最適化しようとしているのですね。人間がこれまで発見できたものよりも優れたものを見つけようとしている。
ヨシュア: 実際には最適化ではありません。私は「最適化」という言葉を使わないように学びました。代わりに「探索」という言葉を使うようにしています。
最適化は通常の強化学習や最適化手法が行うことです。もちろん。しかし、多くの場合、欲しいのは最適化ではなく、良いものをすべてサンプリングすることです。
問題に対する解決策がたくさんある可能性があり、時には一つの最適な解決策だけが必要な場合もありますが、時にはできるだけ多くの解決策が必要な場合もあります。
多くの解決策が欲しい理由はたくさんあります。ベイジアンであれば、より安全な意思決定プロセスになります。薬について考えると、コンピューター上で構築している報酬関数は不完全だからです。
最終的には臨床試験があり、コンピューター上の報酬関数は臨床試験で起こることを適切に表現していません。臨床試験からのデータが十分にないため、システムを訓練することができません。
そのため、代理指標を使用しています。解決策の多様性を確保したいのです。小さな変動だけの多くの解決策があり、何か根本的に見逃しているために臨床試験でそれらがすべて失敗してしまうと、大変なことになります。
しかし、あらゆる方法、あらゆる解決策をカバーしていて、それでも現実のフィルターを通過するものがいくつか残っていれば、これは非常に重要です。
ホスト: 最近、人工知能の責任ある開発のためのモントリオール宣言がありました。あなたはそれについてコメントを書いていましたね。それについて少し教えていただけますか?なぜそれが重要で、あなたがなぜ関与しているのでしょうか?
ヨシュア: 実は、これは2016年に行い、2017年に発表しました。これは、人々がAIが社会に展開されることを認識し始めた時期です。GoogleやFacebook、Microsoftなどがディープラーニングに多額の投資を始めた後のことです。
私は本当に心配しています。私たちは技術の使い方について賢明ではありません。そしてそれはさらに悪化する可能性があります。なぜなら、私たちはますます強力な技術を構築しているからです。
例えば、核力や核兵器のようなものを考えてみてください。私たちは科学的理解を構築し、それをツールに変換しました。そのツールは武器にもなりえますし、人々を制御するために使われる可能性もあります。
例えば、ディープラーニングは人々を監視し、街頭や Web 上で追跡するのに使用されるかもしれません。しかし、私たちにはそのような力を扱うための集団的な知恵や社会規範、法律、政治的・経済的システムがないと思います。
誰もが核兵器を作れるようになったら、怒った誰かがボタンを押して100万人、いや10億人を殺してしまうかもしれません。私たちにはそれを許す余裕はありません。気候変動などですでに状況は十分悪いのです。
そのため、AIで何をしたいのか、何をしたくないのかについて、集団で考える必要があります。そして、たとえ減速を意味するとしても、政府に規制してもらう必要があります。その反対側には破壊や戦争があります。
難しいのは、もちろん異なる国が異なる考え方をする可能性があることです。理想的には、みんなが何らかの規範に同意すべきですが、それからはほど遠い状況です。私は非常に懸念しています。
ホスト: あなたは様々な国のリーダーシップを結集する方法を探していますか? リーダーシップというとき、科学的リーダーシップを考えていますか、それとも政治的リーダーシップのレベルまで考えていますか?
ヨシュア: 私が取り組んでいる小さなプロジェクトの1つは、機械学習を使ってより実用的なゲーム理論戦略を開発できないかということです。
世界政府のような中央集権的なものがない世界でも、個々のエージェント、例えば国が取ることのできる戦略はあるのでしょうか? 例えば、他の国と取引をして、共有地の悲劇で全員が負けてしまうのを防ぐのではなく、すべての国の自己利益が、その集団的なルールセットに参加することになるようにする戦略です。
気候を規制し、AIを規制し、バイオテクノロジーを規制する必要があります。これらすべての強力で重要なことについて合意する必要があります。ワクチンについても合意する必要があります。私たちが適切に行えていないこれらすべてのことについてです。
これは興味深い問題だと思います。解決策を見つけられるかどうかは分かりませんが、競争を開始しました。異なる機械学習グループが競争して、私たちが提供するシミュレーターで訓練できるポリシーを提案します。
これらのポリシーにより、個々の国が他の国と交渉することができます。そして、それらのポリシーを使用した経済および気候シミュレーションで、数十年後に何が起こるかを見ることができます。
ホスト: 非常に興味深いですね。数十年後と言いましたが、これはシミュレーションの中でということですね? 実際の世界ではなく、希望的にはもっと早く結果が分かるということですね?
ヨシュア: はい、その通りです。シミュレーションなので、はるかに速く実行できます。ありがたいことに、実際の世界ではありません。
しかし、これらの種類のツールは、単なるモデルであっても、私たちの助けになると思います。
ホスト: これはすべて本当に刺激的ですね、ヨシュアさん。あなたはたくさんの仕事をこなしていますが、リラックスすることはありますか? リラックスしてストレス解消するために何をしていますか?
ヨシュア: 散歩をします。
ホスト: モントリオールの冬にはどうしているんですか?
ヨシュア: 毎朝外に出ます。本当に天候が悪い時は別ですが、それは月に1回くらいです。冬は服を着ればいいんです。ちなみに、私の散歩には登りも含まれています。歩いて登るんです。スポーツ登山ではありません。
面白いのは、歩いているとすぐに体が温まることです。しかし、興味深いのは、歩いている時、脳の働き方が違うということです。私のアイデアの半分は、これらの散歩か、起きた時に生まれると思います。
起きた時は、アラームを使わないようにしています。すぐに起き上がるのではなく、少なくとも30分は目を閉じたまま、心をさまよわせるようにしています。
散歩は、脳に酸素を送るのか何かで、素晴らしいんです。本当に複雑で何をすべきか分からなかったことが、突然解決策が浮かんでくるんです。
脳の中にあるこの推論マシンを活性化させるだけで、問題の潜在的な解決策を推論してくれるんです。
ホスト: 私たち全員がそれを持っているんですね。とても簡単です。ただ歩くだけです。交通の多い場所ではなく、心が自由である必要がありますね。
これは素晴らしいですね。私の学生たちもこれを聞いて、もっと散歩をしたり、朝起きた時に心をさまよわせたりするようになることを願っています。
あなたを今日の位置に導いた軌跡についても非常に興味があります。今日ではAIの最高峰に立つ確立された人物ですが、最初は子供として始まったわけですよね? そしてフランスで?
子供の頃から今日の位置に至るまでの道のりを振り返って、特に印象に残っていることは何かありますか?
ヨシュア: 子供の頃は、あまり社会的ではありませんでした。典型的なオタクタイプでしたね。図書館に行って、ただ考えたり何もしなかったりして多くの時間を過ごしました。
幸運だったのは、両親が私に多くの自信を与えてくれたことです。自信が足りないことは、研究キャリアを台無しにしてしまいます。本当に賢い人たちが、自分のアイデアを押し進める時間を取るのに十分な自信がなくて抑制されてしまうのを見てきました。
私の軌跡の中で非常に幸運だったのは、ヤン・ルカンやジェフ・ヒントンなど、多くの人々に出会えたことです。彼らは最初私のロールモデルでした。そして、私を大いに刺激してくれる科学コミュニティにすぐに入ることができました。
私にとって本当に役立ったと思うのは、私が「なぜ」という質問を常にする性質を持っていることです。私たちは十分にそれをしていないと思います。
人々は論文を読んだり、私が学生に何かを説明したりしますが、彼らは「はい、はい」と言うだけで、実際には理解していないか、他の人に証明できるレベルで理解していないことがあります。
自分自身に証明できる必要があります。数学的な証明だけでなく、直感的なレベルでです。人間として、私たちは物事を簡単に当たり前だと思ってしまいがちです。おそらく遺伝的な理由からでしょう。しかし、科学者として、私たちは常に物事を疑問視する必要があります。
アルゴリズムを使用する場合、なぜそれが機能するのか、直感はどうなのか。これらの質問をすることが、思考のエンジンを動かすのだと思います。
ホスト: あなたが言われたことの一つ、両親から多くの自信を与えられたと思うということですが、その自信を築く上で特に印象に残っている具体的な記憶や、彼らが従っていた一般的な原則はありますか?
ヨシュア: 彼らは私に多くの自由も与えてくれました。私は自分の大学院生にも同じことをしようとしています。つまり、彼らは必ずしも私が望むことをするわけではありませんが、それでうまくいくのです。
子供や研究者に自由を与えると、魔法が生まれるからです。また、私の両親、特に父は...私たちは1960年代の学生革命の時代から来ました。彼は社会のすべてを疑問視したいと思っていました。これは科学者にとっては良い基盤だと思います。
自信については、母親が自分の子供を特別だと思うことから来ているのかもしれません。そう、彼女は正しかったのかもしれません。しかし、後に起こったことを予想することはできなかったでしょうね。
ホスト: もう少し先に進んで、学部生や博士課程の初期の学生について考えてみましょう。彼らのキャリアを築くためのアドバイスはありますか?
ヨシュア: 機械学習の多くの大学院生は実践的な経験を積んでいます。それは良いことだと思います。これは重要です。自分自身の直感を築く必要があります。これは先ほど質問することについて言ったことと関連しています。
そして、たくさん読む必要がありますが、読んだすべてを信じてはいけません。他の人の思考は、時に正しく、時に間違っていますが、インスピレーションになる可能性があります。
そして、コラボレーションをしてください。私たちの社会には、科学がどのように機能するかについての間違った考えがあります。天才が車庫や孤立した山の中で狂ったアイデアを思いつくというようなものです。
もちろん、そうではありません。あなたも私も知っているように、私たちは人々と話し、お互いを刺激し合います。私は最初はあまり社交的ではありませんでしたが、博士課程の初期から、他の人との議論を通じて、そして一緒に仕事をする人を選ぶことが、どの大学やどの研究室にいるかよりもはるかに重要だということにすぐに気づきました。
一緒に仕事をする人々があなたを刺激し、あなたのアイデアに疑問を投げかけ、あなたが思いつかなかったことを思いつくのです。
私たちはそれを育む必要があります。私は常に自分のグループを一種の家族のように考えています。十分な信頼があれば、人々は自由に狂ったアイデアを共有し、愚かなことを言って悪く感じることなく、それをすることができるのです。
ホスト: 本当に素晴らしいアドバイスですね。ヨシュアさん、お話しできて本当に楽しかったです。時間を作っていただき、ありがとうございました。
ヨシュア: こちらこそ、素晴らしい質問と議論をありがとうございました。
ホスト: ご視聴いただき、ありがとうございました。私と同じくらいこの会話を楽しんでいただけたなら、ぜひ親指を立てて、コメントを残し、評価をしてください。他の人々がこの番組を見つけるのに役立ちます。ありがとうございました。

S3 E1 チューリング賞受賞者ヨシュア・ベンジオ: AIに高次の認知と創造性を与える

いいなと思ったら応援しよう！