見出し画像

ヤン・ルカン:知性のダークマターと自己教師あり学習|Lex Fridman Podcast #258

60,255 文字

以下は、ヤン・ルカンとの会話です。彼はポッドキャストに2回目に出演します。彼はメタの主任AI科学者で、元Facebook教授で、ニューヨーク大学のツアー賞受賞者です。機械学習と人工知能の歴史において重要な人物の1人で、最高の意味で聡明で意見がはっきりしているので、いつも楽しく話せます。これはレックス・フリードマンのポッドキャストです。ぜひスポンサーも説明欄でチェックしてください。あなたは「自己教師あり学習 知能の暗黒物質」という記事を共同執筆しました。素晴らしいタイトルですね。ところで、イシャン・ミズラーとの会話です。自己教師あり学習とは何か、なぜそれが知能の暗黒物質なのか、お聞きしたいのですが。まずは暗黒物質の部分から始めましょう。明らかに人間や動物が行っている学習の一種が、現在AIを搭載した機械では適切に再現されていません。今日最も人気のある機械学習のアプローチ、またはパラダイムは、教師あり学習と強化学習です。これらは非常に非効率的です。教師あり学習では、何かを学習するために多くのサンプルが必要であり、強化学習では、何かを動かすシステムを作るには、途方もなく多くの試行錯誤が必要です。だから自動運転車は存在しません。これは大きな飛躍です。難しい問題を解決するには、教師あり学習が機能するためには大量の人間による注釈が必要です。そして、強化学習で難しい問題を解決するには、強化学習に必要な大規模な学習ができるように、その問題をシミュレートする方法が必要です。では、ほとんどのティーンエイジャーは20時間程度の練習で車の運転を習得できるのに、何百万時間ものシミュレートされた練習をしても、自動運転車は実際には適切に運転を習得できないのはなぜでしょうか。明らかに、私たちは何かを見逃しています。多くの人にとっては、すぐに返ってくる答えは、人間はより速く学習するために背景知識を使用するということです。そして、その背景知識はどのようにして獲得されたのか、それが大きな疑問です。それで、生後数か月の赤ちゃんはどのようにして世界の仕組みを学ぶのか、という疑問が生じます。ほとんどは観察によって行われます。なぜなら、彼らは世界で行動することはほとんどできず、世界についての膨大な背景知識を学びます。それは私たちが常識と呼ぶものの基礎かもしれません。このタイプの学習は、タスクを学ぶことではなく、何かを強化することではなく、単に世界を観察し、それがどのように機能するかを理解することです。世界モデルを構築し、世界モデルを学習します。これをどのように行うか、そしてこれを機械でどのように再現するかです。セルスーパービジョン学習は、この種の学習を再現しようとする1つの例、または1つの試みです。観察力ですから、子供のやりとりの部分さえなく、ただ座ってママとパパが歩き回って物を拾うのを見ているだけです。それが背景知識という意味です。ママとパパを見ていないだけかもしれません。ただ目を開けたり閉じたり、目を開けたり閉じたりするという行為自体が世界が現れたり消えたりするのを見ているだけです。そういった基本的な情報がすべて含まれます。運転を学ぶためには、人間が他の人よりも早く運転を習得できるのは、背景知識があるからです。彼らは、それに至るまでの何年もの間、世界で車が動くのを見ることができました。基本的な物体の物理学、そういったものすべてです。そうです、物体の基本的な物理学です。車がどのように機能するかを知る必要すらありません。車がどのように機能するかを知ることは、かなり早く習得できます。私がよく使う例は、崖のそばを運転していて、直感的な物理学を理解しているため、ハンドルを右に回すと車が右に曲がり、崖から落ちてしまうことを事前に知っているということです。崖から落ちたら何も良いことは生まれませんよね。でも、あなたが表形式の強化学習システムで、世界のモデルを持っていないとしたら、何千回も崖から落ちることを繰り返して、それが悪い考えだと気づき、さらに数千回繰り返して、どうすればそれをしないか、さらに数百万回繰り返して、遭遇するあらゆる状況でどうすればそれをしないかを考えなければなりません。自己教師あり学習でも、誰かから伝えられる真実の源が必要です。ですから、人間の助けなしに、あるいはかなりの量の人間の助けなしに、世界から真実を得る方法を考え出さなければなりません。謎は、どれだけの信号があるか、どれだけの真実があるかということです。YouTube などを見るような人間の世界なのか、それとももっと自然な世界なのか、世界があなたに与える信号はどれだけあるのでしょうか。ここでの秘訣は、自己教師ありの設定では、教師ありや強化学習の設定よりもはるかに多くの信号があるということです。これは、ケーキの例えになります。誰かがローケーキと呼んでいたものですが、これは機械に予測させる情報の量と、強化学習の各試行で機械に与えるフィードバックの量を計算するときに、機械に単一のスケーラーを与えます。機械に、良い結果、悪い結果、そして、それを機械に伝えるのはたまにだけです。私が「あなた」と言うとき、それは宇宙が機械に正しいことを伝えているのかもしれませんが、それは単なる1つのスケーラーなので、結果として、非常に複雑なことを学ぶには、この種の監督のフィードバックを非常に多くの試行で得ることなしには不可能です。サンプルごとにマシンに数ビットずつ与えます。たとえば、ImageNet で画像を認識するシステムをトレーニングしているとします。1000 のカテゴリがあり、サンプルごとに 10 ビット弱の情報がありますが、ここではスター スーパーバイザリーという設定があります。まだやり方はわかりませんが、理想的には、ビデオの一部をマシンに見せて、ビデオを停止し、次に何が起こるかをマシンに予測してもらいます。マシンに予測させてから、時間が経つにつれて実際に何が起こったかマシンに見せ、次回はマシンが予測をうまく行えるように学習することを期待します。マシンに与える情報は膨大です。これは、最初にマシンに与えたビデオ クリップの後の未来を示すビデオ クリップ全体であるためです。言語と視覚の両方で、微妙で一見些細な構造がありますが、おそらくこれは、ギャップを埋める知能を生み出すために必要なことの代表例です。ギャップを埋めるというのは馬鹿げているように聞こえますが、これですべての知能を解決できる可能性があります。言語の両方で、ただ文を与えてそれを続けるか、文を与えてその中に空白がある、いくつかの単語が空白になっているので、そこにどの単語を入れるかを埋めます。視覚の場合は、一連の画像を与えて次に何が起こるかを予測するか、その間に何が起こったかを埋めます。自己教師あり学習のシグナルとして、その定式化だけで視覚と言語の知能を解決できると思いますか。これが現時点での最善の策だと思います。これが人間レベルの知能か、それとも猫レベルの知能にまで到達するかどうかは明らかではありませんが、人々が提案したすべての可能なアプローチの中で、これが最善の策だと思います。つまり、空白を埋めるインテリジェントシステムのアイデアは、未来を予測するか、過去を推測するか、不足している情報を埋めるかのどちらかだと思います。現在、頭の後ろに何があるのか​​、頭がどのように見えるのか、後ろから見るとどうなるのかという空白を埋めています。なぜなら、人間がどのように作られているかについて基本的な知識を持っているからです。あなたが何を言うのかわかりません。その時点で、頭をこっちに動かすかあっちに動かすか、どちらを見るか、話すことになりますが、ただ消えて廊下の3メートル先に再び現れるわけではないことはわかっています。物理学によれば、何が可能で何が不可能かを知っているので、何が可能で何が不可能かのモデルがあり、それが起こったら非常に驚くでしょう。そして、モデルを再構築する必要があります。それが世界のモデルであり、空白を埋めるものが何であるかを教えてくれるので、知覚によって与えられた世界の状態についての部分的な情報に基づいて世界のモデルは、不足している情報を補います。それには、未来を予測したり、過去を回想したりすることも含まれます。つまり、すぐには認識できないものを埋めるということです。それは、単に一般的な視覚や視覚情報、一般的な言語である必要はありません。具体的には、車線を運転しているときにどのような制御決定を下すかを予測できます。車両からの画像シーケンスがあり、ビデオに車がどこに行ったかを記録している場合は、その情報を使用して、時間をさかのぼって車がどこに行ったかを予測できます。これは非常に具体的なドメイン固有の視覚情報に基づいていますが、問題は、この種の予測や空白の埋め込みを行うために機械をトレーニングするための一般的な方法を思い付くことができるかどうかです。現在、このタイプのアプローチは、自然言語処理のコンテキストで信じられないほど成功しています。現代の自然言語処理はすべて、空白を埋めるために自己教師あり方式で事前トレーニングされています。単語のシーケンスを示し、その10パーセントを削除してから、巨大なニューラルネットを使って、欠けている単語を予測し、そのネットワークを事前にトレーニングしたら、その内部表現を入力として使用できます。教師あり学習など、画像では非常に成功していますが、それほど成功していません。ただし、進歩はしています。これは、手動のデータ拡張に基づいています。これについては後で説明しますが、まだ成功していないのはビデオのトレーニングです。たとえば、ビデオを見るだけで視覚の世界を表現するように機械に学習させるというものです。誰もこれに成功したことはありません。では、視覚と言語の違いと難易度について概要を説明しましょう。視覚の問題を自己教師あり学習の観点から解明できていないとおっしゃいましたが、必ずしもそうとは限りません。チューリングテストに合格することや、チューリングテストの精神を完全に言語で実現することの方が視覚よりも難しいかもしれません。それは明らかではありません。では、あなたの見解ではどちらが難しいのでしょうか。あるいは、どちらが難しいのでしょうか。同じ問題です。それぞれの問題を解決すればするほど、すべて同じこと、すべて同じケーキであることに気づきます。私が探しているのは、基本的に同じケーキのように見える方法だと思いますが、現時点ではそうではありません。水モデルや予測モデルを学習する際の主な問題は、予測が単一のものではないことです。世界は完全に予測可能ではないため、決定論的または確率論的である可能性があります。哲学的な議論に入ることができますが、たとえ決定論的であっても、完全に予測可能ではありません。そのため、短いビデオを再生するとクリップを再生し、次に何が起こるかを予測するようにお願いすると、そのビデオ クリップには多くの妥当な継続があり、継続の数は、システムに予測を依頼する時間間隔とともに増えていきます。そのため、監督に関する大きな疑問の 1 つは、この不確実性をどのように表現するか、複数の離散的な結果をどのように表現するか、可能性のある結果の連続体をどのように表現するかなどです。古典的な機械学習の専門家であれば、分布を表すだけでよいと言うでしょう。テキスト内の単語が欠落している単語を予測するときに、その方法はわかっています。ニューラル ネットを使用して辞書のすべての単語にスコアを付けることができます。これは、おそらく 10 万程度の大きな数字のリストであり、それを確率分布に変換できます。これにより、私が文章を言うと、猫がキッチンで空白を追いかけていること、意味をなす単語がいくつかしかないこと、ネズミかもしれないこと、レーザー スポットかもしれないことが分かります。または、そのようなことを知っているでしょう。そして、もし私が空白がサバンナの空白を変えていると言ったら、その2つの単語にはたくさんのもっともらしい選択肢があります。それは、あなたがそれらの空白を埋めるために参照できる、ある種の根底にある現実を持っているからです。つまり、サバンナでは、それがライオンなのかチーターなのか、あるいは何なのかを確実に言うことはできません。シマウマなのかグルーなのか、あるいはヌーなのかもわかりません。同じことですが、しかし、不確実性を長い数字のリストで表すことができます。さて、私がビデオで同じことをして、ビデオクリップを予測するように頼むと、それは潜在的なフレームの離散的なセットではありません。どこかに、高次元の連続空間にある複数のフレームの無限の数のもっともらしい連続を表す必要があります。そして、これを適切に行う方法がわかりません。有限の高次元なので、あなたのように、それは次元なので大丈夫です。そうです、単語を100万語以下くらいの小さな有限集合に絞り込もうとしています。つまり、言語のあらゆる単語に分布を作ってそれが機能するというのはちょっとばかげていると思います。それは本当に愚かなやり方のように思えます。単語の分布をもっと圧縮した表現があるべきであるように思えます。その点ではあなたは正しいです。ですから、すべての現実を圧縮した方法で表現して分布を形成する方法について何か興味深いアイデアはありますか。それは大きな疑問の1つです。どうやってそれを正しく行うのか。つまり、本当に愚かなもう1つのこと、つまり、愚かとは言わないほうがいいのですが、現在の細胞監視のアプローチが単純すぎるということです。テキストのNLPは、単語の巨大な分布を表すだけでなく、複数の単語が欠落している場合、それらの分布は基本的に互いに独立しており、これにはあまり代償を払わないので、先ほど示した文章のシステムでは、ライオンとチーターに特定の確率を与え、ガゼル、ヌー、シマウマに特定の確率を与えると、これら2つの確率は互いに独立しており、これらが独立しているわけではありません。ライオンは実際には彼女よりも大きな動物のように攻撃します。したがって、このプロセスには大きな独立性仮説がありますが、実際には真実ではありません。その理由は、基本的にいつでも、シンボルの組み合わせシーケンス上の分布を適切に表現する方法がわからないためです。数値はシンボルの長さとともに指数関数的に増加するため、これにはトリックを使用する必要がありますが、これらのテクニックで回避できますか?まるでそれを扱うことすらしないので、大きな問題は、テキストの何らかの抽象的な潜在的表現があるかどうかです。ライオンをガゼルに置き換えると、ライオンをチーターに置き換えると、シマウマをガゼルに置き換える必要があるということです。この独立性の仮定について、私がよく耳にする批判をいくつか投げかけ、あなたがどう反応するかを見てみましょう。この種の空白を埋めることは単なる統計です。深い根底にある概念のようなものを何も学んでいません。過去のものを真似しているだけです。世界について一般化するために使用できるような新しいことを何も学んでいません。または、わかりました。粗いバージョンを言うと、それは単なる統計であり、知性ではありません。ええと、それに対してあなたは何と言いますか。通常、あなたはそれに対して何と言いますか。このようなことを聞​​くと、私はそのような議論には参加しません。なぜなら、それらは無意味だからです。まず第一に、知性は単なる統計である可能性が非常に高いです。特定の種類の統計にすぎません。はい、ええと、これは哲学的な質問ですが、それは一種の知能は単なる統計である可能性はありますか?ええ、でもどんな統計ですか?ええ、もしあなたが質問しているのが、私たちが学ぶ世界のモデルです。ええ、それらには因果関係の概念がありますか?ええ、もし批判が、現在の機械学習システムは因果関係を気にしていないと言う人々から来たら、それは間違っています、ええ、ええ、ええ、あなたはあなたの行動をあなたの入力の1つとして持つべきであり、それが世界の因果モデルを学ぶように促します。そこでは、世界への介入がどのような結果を引き起こすか、または世界で行動している他のエージェントを観察し、他のエージェントの影響を観察することによってこれを行うことができます。たとえば人間の場合、あるレベルでは知能は単なる統計だとご存じだと思いますが、だからといって、何が起きているのかを深くメカニズム的に説明するモデルがないというわけではありません。問題は、どうやってそれを学ぶかということです。それが私が興味を持っている質問です。なぜなら、批判の声を上げる多くの人は、それらのメカニズムモデルはどこか別のところから来なければならない、人間の設計者から来なければならない、どこから来なければならないのかはわかりませんが、明らかに私たちはそれらを学びます。あるいは、私たちが個体として学ばなくても、自然が進化を利用して私たちに代わってそれらを学んでいます。あなたがどう思うかに関係なく、それらのプロセスは何らかの形で学習されています。人間の脳を見ると、私たち人間が脳の働きについて内省するときと同じように、知能とは何かを考えるとき、私たちが構築したモデルのような高レベルのもの、つまり認知科学の概念、記憶や推論モジュールの概念などについて考えるようです。これらの高レベルのモジュールには、このサービスは良いアナロジーですか?ダークマターや基本的な低レベルのメカニズムを無視し、オペレーティングシステムの仕組みを無視して、高レベルのソフトウェアだけを使用しています。低レベルではニューラルネットワークが統計のようなことを行っている可能性を無視しています。この言葉はおそらく間違っていて乱暴に使っているかもしれませんが、ギャップを埋めるような学習を行い、モデルを常に更新して、生の感覚情報をサポートして予測し、予測が間違っている場合は予測に適応できるようにしています。しかし、カイラのように、高レベルで脳を見ると、チェスをしているように感じます。高レベルの概念で遊んでいるようなもので、それらをつなぎ合わせて長期記憶に入れています。しかし、実際には、その下で起こっていることは、私たちが内省できないものであり、ギャップを埋めているだけの単純な大規模なニューラルネットワークです。そうですね、たくさんの質問がありますが、そこに答えがあります。まず、神経科学、特に計算神経科学には予測コーディングという考え方を好む学派があり、これは私が自己教師あり学習で話していた考え方と非常に関連しています。つまり、すべては予測に関するものであり、知性の本質は予測する能力であり、脳が行うことはすべて、他のすべてからすべてを予測しようとすることです。そして、それが本当に基本的な原理です。セルスーパーバイザー学習は、この予測の考え方を再現しようとしています。これは、タスク独立学習の重要なメカニズムの 1 つです。次のステップは、どのような知性に興味があるかということです。再現すること、そしてもちろん、私たちは皆、人間の高レベルの認知プロセスを再現しようと考えますが、機械と同様に、猫の脳の学習プロセスを再現するレベルにさえ達していません。最もインテリジェントなシステムや知能システムでさえ、飼い猫ほどの常識を持っていません。では、猫はどうやって学習するのでしょうか。猫は推論をあまりしませんが、因果モデルは確かに持っています。なぜなら、多くの猫は、自分が望むものを手に入れるために世界に対してどのように行動すればよいかを理解できるからです。猫は、自分の体のダイナミクスだけでなく、賞賛などの直感的な物理学の素晴らしいモデルを持っています。つまり、猫は非常に賢く、約8億個のニューロンでこれを行います。私たちは、このようなことを再現することにはほど遠いので、ある程度、人間の高レベルの認知や長期的な計画や推論について心配する必要はありません。猫がやっていることを再現できるかどうかがわかるまで、できることはこれだけです。つまり、世界モデルを学習する能力は、推論もできる学習マシンの可能性の鍵だと思います。だから、私が講演するときはいつも、機械学習の3つの主な課題には3つの課題があると言っています。1つ目は、マシンに世界を表現することを学習させ、ソルト教師あり学習を提案することです。2つ目は、基本的に勾配ベースの学習と互換性のある方法でマシンに推論させることです。これはディープラーニングのすべてだからです。3つ目は、少なくとも私には解決方法がわかりません。マシンに行動計画の階層的表現を学習させることができるかどうかです。ご存知のように、計算ネットワークやトランスフォーマーなどを使用して、マシンに知覚の階層的表現を学習させる方法はわかっていますが、行動計画についてはどうでしょうか。マシンに行動の適切な階層的表現を自発的に学習させることができるでしょうか。勾配ベースです。これらはすべて、ある程度微分可能である必要があります。そうすることで、勾配ベースの学習を適用できます。学習、つまりディープラーニングの本質は、背景知識、つまり何らかの形でその背景知識と深く結びついていて、その背景知識の上に構築されている、微分可能な方法で推論する能力です。そして、その背景知識が与えられれば、その世界で階層的な計画を立てることができます。古典的な最適制御を例に挙げると、古典的な最適制御にはモデル予測制御と呼ばれるものがあり、これは60年代初頭から存在しており、NASAはロケットの軌道を計算するためにそれを使用しています。基本的な考え方は、ロケットのかなり予測可能なモデルを持つということです。たとえば、制御しようとしているシステムが何であれ、t 時点のシステムの状態と、ロケットを噴射するためのシステムに対して行うアクションが与えられ、制御できるすべての制御は、t 時点のシステムの状態 + デルタ t になります。つまり、基本的には微分方程式のようなもので、このモデルがあり、このモデルが何らかのニューラル ネットまたは何らかの式の形で存在し、勾配を逆伝播できる場合、モデル予測制御または勾配ベースのモデル予測制御と呼ばれるものを実行できます。つまり、そのモデルを時間的に展開して、一連のアクションを仮定し、軌道の最後にシステムがどれだけ成功したか、または目的を達成したかを測定する目的関数が得られます。つまり、ロボットが損傷したかどうか、掴みたい物体を掴んだかどうか、ロケットの場合は宇宙ステーションの近くの適切な場所にいるかどうかなどです。このように、バックプロパゲーションを何度も繰り返すことで、システムを最良の最終状態に導くための最適な一連のアクションを見つけることができます。これは推論の一種で、基本的には計画であり、ロボット工学の多くの計画システムは実際にこれに基づいています。これは推論の一種と考えることができます。たとえば、車を運転しているティーンエイジャーの例を考えてみましょう。車のかなり優れた動的モデルがあります。非常に正確である必要はありませんが、ハンドルを右に回すと崖があり、崖から落ちてしまうことはわかっています。それを予測するために非常に正確なモデルは必要ありません。これを頭の中で実行し、その理由でそれをしないことに決めることができます。事前に結果が悪いと予測できるため、さまざまなシナリオを想像し、最も好ましいシナリオの最初のステップを採用または実行し、計画のプロセスを繰り返すことができます。これは後退地平線モデル予測制御と呼ばれています。ご存知のとおり、これらすべてに名前が付いています。何十年も前のことです。したがって、古典的な最適制御でない場合は、世界のモデルは一般的に学習されません。システム識別と呼ばれるいくつかのパラメータを識別する必要がありますが、一般的にモデルは決定論的であり、ほとんどが手作業で構築されます。したがって、AIの大きな問題は、次の10年間のAIの大きな課題は、不確実性に対処し、このすべての複雑さの中で現実世界に対処する世界の予測モデルを機械に学習させることです。これは、第一原理に還元できるロケットの軌道だけではありません。ロボットアームの軌道でさえありません。もう一度、注意深い数学でモデル化できますが、それは世界で観察される他のすべてです。つまり、人の行動、水や木、木の枝などの集合的な現象を伴う物理システム、または人間が予測モデルで抽象的な表現を開発するのに問題がない複雑なものなどです。しかし、機械ではどうすればよいかはまだわかりません。この3つのどこに、おそらく計画段階に、この世界のゲーム理論的な性質を組み込むのでしょうか。つまり、行動は世界の動的な性質、環境に対応するだけでなく、影響を受けるということです。他の人間が関与している場合、これが4番目のポイントです。または、何らかの形で行動の階層的表現に統合されていますか。あなたの見解では、統合されていると思います。つまり、今、あなたの世界のモデルは、人間が複雑で簡単に予測できないという事実に対処しなければならないということです。それが、あなたの世界のモデルをはるかに複雑にします。非常に複雑になります。チャットがあります。つまり、チェスはアナロジーだと思います。モンテカルロツリーサーチAI があります。あなたが行く、私が行く、あなたが行く。アンドレ・カパサが最近 MIT で車のドアについて講演しました。機械学習もあると思いますが、主に車のドアです。カートには動的な性質があります。ドアを開ける人が確認するなどです。彼はそれについて話していたのではなく、車のドアを定義するオントロジーの認識の問題について話していました。これは大きな哲学的な問題ですが、私にとっては興味深いものでした。なぜなら、車のドアを開ける人は外に出ようとしているのは明らかです。ここニューヨークでは、車から出ようとしているので、スピードを落とすと何かの合図になります。スピードを上げると何かの合図になります。これはダンスです。非同期のチェスゲームです。わかりません。つまり、これらすべてを 1 つの巨大なモデルに統合できると思います。これらの小さな相互作用の全体です。チェスほど複雑ではないので、ちょっとしたダンスのようなものです。一緒にちょっとしたダンスをします。そして、ある意味ではうまくいきます。チェスよりも複雑です。なぜなら連続的だからです。連続的に不確実です。より複雑だとは感じませんが、より複雑だとは感じません。なぜなら、それが人間が進化して解決してきたものだからです。これは人間が進化して解決してきた種類の問題であり、私たちはそれが得意です。なぜなら、自然が私たちを得意にしてくれたからです。自然が私たちをチェスが得意にしたわけではありません。私たちはチェスがまったく下手です。ええ、実際、それが挑戦的なゲームとして設計された理由です。チェスと囲碁の最近の進歩で私たちが気づいたことの一つは、人間はそのようなことが本当に苦手だということです。本当にひどい話です。アルファ碁の直前に、最高の囲碁プレイヤーは、彼らが神と呼ぶ理想的なプレイヤーより2、3石遅れていると考えていました。実際は、9、10石遅れています。つまり、私たちは下手なので、得意ではないのです。それは、私たちのワーキングメモリが限られているためです。木の探索などは得意ではありません。コンピューターの方がはるかに得意ですが、微分可能な世界のモデルを学ぶのは得意です。微分可能と言ったのは、微分可能という意味ではなく、私たちがそれまで遡ったという意味です。私たちの脳には、何らかの勾配を推定するメカニズムがあるという意味です。それが私たちを効率的にするのです。つまり、人間の脳では基本的に脳の前半全体である世界のモデルと、人間では2つの目的関数の組み合わせである目的関数で構成されるエージェントがあるとします。脳の基底核にある内発的動機づけモジュールのようなものがあり、痛みや空腹感、即時の感情や感情などを測定します。そして、改革スペクトラムの人々が批評家と呼ぶものに相当するものがあります。これは、状況の結果がどうなるかを事前に予測するモジュールの一種です。これはコスト関数ではありませんが、目的関数でもありません。最終的な目的関数の訓練された予測子のようなもので、微分化も可能です。したがって、これらすべてが微分化可能であれば、コスト関数、批評家、ロールモデルになり、勾配ベースの方法を使用して、計画、推論、学習を行うことができます。インテリジェントエージェントが実行したいすべてのことを実行します。勾配ベースの学習は、おそらく知性を解決できるものの核となる直感のようなもので、論理ベースの推論は必要ありません。あなたの見解では、どのようにすればよいかわかりません。論理に基づく推論を効率的な学習と両立させるには、大きな疑問、おそらく哲学的な疑問があります。それほど哲学的ではありませんが、私たちが尋ねることができるのは、エンジニアリングやコンピュータサイエンスで知られているすべての学習アルゴリズムは、何らかの目的関数を最適化することによって進むということです。そうですね、私たちが尋ねるかもしれない1つの質問は、脳の学習は目的関数を最小化するかどうかです。それは、複数の目的関数の合成である可能性がありますが、それでも目的関数です。2番目に、目的関数を最適化する場合、何らかの勾配推定によってそれを行いますか?バックプロパゲーションである必要はありませんが、複雑さが増す効率的な方法で勾配を推定する何らかの方法があります。推論を実際に実行するのと同じ桁数です。なぜなら、脳内の重みを摂動させてその効果を調べたり、摂動によって勾配を推定したりすることはできないからです。脳が、勾配最適化よりもはるかに効率が悪いゼロ次のブラックボックス勾配フリー最適化を使用するというのは、私には非常に信じがたいことです。そのため、勾配を推定する方法が必要です。ある種の論理ベースの推論が、あなたが言ったように、有用なものとして時々出現する可能性はありますか?脳が目的関数である場合、それは目的関数を作成するためのメカニズムかもしれません。それは、たとえば、クエリできる知識ベースを作成するためのメカニズムです。たとえば、勾配ベースの方法で学習された知識の効率的な表現のようなものかもしれません。つまり、知性にはさまざまな種類があると思います。まず、私たちが考える論理的推論の種類は、 1970年代と80年代の古典的なAIは、人間が比較的まれにしか使用せず、特に得意ではないと思いますが、私たちはそれらのまれな問題を解決する能力に基づいてお互いを判断します。これはIQテストと呼ばれています。私はチェスがあまり得意ではありません。はい、私はずっとあなたを判断しています。なぜなら、私たちは実際にあなたの遺伝的特徴から、あなたがチェスが得意であることは間違いないからです。ステレオタイプはありません。すべてのステレオタイプが正しいわけではありません。私はチェスが苦手です。ええと、でも、私が持っているもう1つのタイプの知性は、ええと ...推論は、内部シミュレーションのようなもので、木で箱を作ったりするときに何が起きているかを刺激するようなものです。木をこのように切ったらどうなるか、釘にネジを使うか、など事前に想像することができます。また、誰かとやりとりするときには、その人のモデルを持っていて、そのモデルを念頭に置いてその人とやりとりすることで、その人にとって何が役に立つと思うかを伝えます。つまり、世界の大部分を構築するこの能力は、基本的に知性の本質であり、それを使用して特定の基準を満たす行動を計画する能力だと思います。必要でもありますので、一連の不可能な質問をさせていただきます。私たちはずっとそうしてきたのでしょうか。もしそれが知性の基本的な暗黒物質、つまり背景モデルを形成する能力だとしたら、どれくらいの知識が必要かについてのあなたの直感はどうですか。暗黒物質は宇宙の構成の何パーセントを占めると思いますか。そのうちのどれくらいが暗黒物質で、どれくらいが暗黒エネルギーでしょうか。飼い猫になるにはどれくらいの情報が必要だと思いますか。箱が動いているのを見たときに、人間が最も邪悪な行動をとっているのを見たときに、端に近いものがあればそれを叩き落とすことができる必要があります。これらすべてに加えて、あなたが言った余分なもの、つまり自分の体と世界の物理学に対する優れた自己認識です。それを解決するにはどれくらいの知識が必要だと思いますか。その質問の答えを測る方法さえわかりません。測り方がわかりませんが、それが何であれ、約80万個のニューロン、つまり8億個に収まります。ニューロンや表現は、あらゆる知識やあらゆることをします。10億未満です。犬は20億ですが、猫は10億未満です。これを1000倍するとシナプスの数になります。そして、そのほとんどすべては、一種の教師あり学習によって学習されると思います。ただし、強化学習によって学習されるのはごくわずかで、古典的な教師あり学習によって学習されるのはごくわずかです。ただし、生物界で教師あり学習が実際にどのように機能するかは明らかではありません。つまり、ほとんどすべては自己教師ですが、猫や人間の脳の根底にある、行動を駆動する根深い目的関数によって駆動されると思います。つまり、自然は、あなたが空腹であることを私たちに伝えますが、私たちにどうやって食べればいいかは教えてくれません。それは、脳の残りの部分が理解しなければならないことです。興味深いことに、全体の根底には、より深い目的関数があるかもしれません。空腹は、ある種の神経生物学では、脳が恒常性を維持しようとしているだけかもしれません。空腹は、脳が現状に不満を抱いているときに人間が感知できる症状の 1 つにすぎません。根本的には非常に愚かな目的関数にすぎないかもしれませんが、それが行動の駆動方法です。眼窩神経節が、ウォントンや猫と違うことをするように私たちを駆り立てるという事実は、人間の本性、オランウータンの本性、スカットの本性の違いを私たちに認識させます。たとえば、私たちの大脳基底核は、他の人間との付き合いを求めるように私たちを駆り立てます。それは、私たちが生き残るためには社会的な動物である必要があることを自然が理解したからです。これは多くの霊長類に当てはまります。オランウータンはそうではありません。オランウータンは孤独な動物です。他の動物との付き合いを求めません。実際、他の動物を避けます。近づきすぎると叫びます。縄張り意識が強いからです。生存のためには、進化の過程でそれが最善だとわかりました。もちろん、繁殖などのために、時々社交的になりますが、ほとんどは孤独なので、こうした行動はすべて知能の一部ではありません。人間の知能は社交的であるため、知能の高い機械は生まれないだろうと人々は言いますが、オランウータンやタコを見てください。タコは親を知らず、ほとんど他の動物と交流しません。そして、1年も経たないうちにとても賢くなります。半年ほどで、つまり1年で大人になり、2年で死んでしまいます。人間として知能と密接に関係していると考えるものには、社会的交流や言語などがあります。人間としての知能の基盤として言語を重視しすぎていると思います。なぜなら、推論は言語が人間にとって重要であると考えているからです。言語と非常に関連しているので、飼い猫の知能問題を解決するには、砂漠の島で解決できると思います。猫をそこに置いて、海の波を見て、多くのことを理解させるだけでいいのです。猫に物事をやらせ、適切なことを学ばせるには、ある種の適切な一連の衝動が必要です。しかし、たとえば、人間の赤ちゃんは立ち上がって歩くことを学ぶように駆り立てられます。これは、欲求がハードワイヤードなようなものです。正確にどのように行うかは学習されませんが、歩き回り、立ち上がる欲求は、おそらくハードワイヤードです。このようなことをハードワイヤードするのは非常に簡単です。ああ、興味深いことに、歩きたいという欲求はハードワイヤードです。歩くことに対するより深い欲求があるはずです。おそらく、社会によって社会的に課されたのでしょう。他の多くの単純な二足歩行動物のように、他の種の他のメンバーを見たことがなくとも機能するでしょう。最初は歩くのが苦痛だから、やらなきゃいけないのは怖いことのように思えます。這うほうがずっと安全そうに見えます。なぜ急いでいるのか、それは、そうさせる動機があるからです。ええと、それは人間の発達の一部のようなもので、実際には理解されています。完全に理解されているわけではありませんが、2本足で立つ理由は何ですか?ほとんどの動物は2本足で立つことはありません。4本足で立つのです。多くの哺乳類は4本足で立ちます。ええ、とても速く、中には非常に速く立つものもありますが、前回テーブルに触れたときから、2本足よりもテーブルの方が安定していることがわかります。本当に難しい問題です。ええ、何羽の鳥が2本足でそれを理解したでしょうか。技術的にはオントロジーに入ることができます。鳥は4本足だと思います。2本足です。ニワトリは2本足です。恐竜は2本足でした。多くの鳥は2本足だったと言われています。ティラノサウルスは草を食べていて、他の動物は食べていなかったことを今知りました。ティラノサウルスは人懐っこいペットだったかもしれません。フランソワ・チリがまとめた一般知能テストを見たかどうかはわかりません。そのようなものを見る機会があったかどうかはわかりません。IQのようなテストを解く方法についての直感はどのようなものですか。わかりません。それは私のレーダースクリーンの外にあるので、あまり関係ないと思います。短期的には、1つの質問方法、別の質問方法、おそらくあなたの仕事に近い質問は、非常に少ないサンプルデータでmnistを解く方法です。その通りです。これが答えです。おそらく教師あり学習です。画像を表現することを学び、それから学習するだけです。手書きの数字を認識するには、ほんの数サンプルしか必要ありません。人間でも同じことが見られます。小さな子供に象の絵が数枚載った絵本を見せれば、その子は象が何であるかをすぐに理解します。今日、実用的なシステムでこれを見ることができます。画像認識システムを、膨大な量の画像でトレーニングします。完全に自己教師ありか、非常に弱い教師ありかのどちらかです。たとえば、ニューラル ネットをトレーニングして、Instagram で人々が入力するハッシュタグを予測できます。数十億枚の画像でこれを行うことができます。毎日数十億枚の画像が表示されるため、トレーニング データの量は基本的に無制限です。次に、システムが学習した出力から数層下のアウトプット表現を取得し、これを入力として分類器に送り、世界中の任意のオブジェクトを分類します。これは非常にうまく機能します。これが転移学習です。または週ごとの教師あり転移学習です。人々は自己教師あり実行を使用して、この種のシナリオでも非常に急速に進歩しています。そして、私の推測では、これが自己教師あり学習の未来になると思います。悪意のある信号をフィルタリングするために、どの程度のクリーニングが必要だと思いますか。もっと良い言葉は何かありますか。Instagramでハッシュタグを使って、画像の内容を完全に表さない良いSEOを得ようとする人がたくさんいます。例えば、猫の写真を載せて、科学、素晴らしい、楽しい、といったハッシュタグを付けます。どうして科学を載せるのでしょうか。あまり良いSEOではないのですが、数年前にFacebookでこのプロジェクトに取り組んだ同僚がメタメタでこの問題に対処した方法は、物理的なものや状況に対応する17,000ほどのタグだけを選択しました。視覚的なコンテンツが含まれているので、tbt とかそういうのはないでしょう。それに、ハッシュタグも厳選されている、とおっしゃっていますね。そうですね。でも、それでも 10,000 から 20,000 くらいなので、かなり大きいです。データ拡張について教えてください。データ拡張とは一体何で、どのように使われるのでしょうか。ビデオの学習と対比して、何か面白いアイデアはありますか。データ拡張とは、まず、画像の性質を変えずに画像を歪ませることで、トレーニング セットのサイズを人工的に増やすというアイデアです。つまり、データ拡張はどのリストでも実行できます。1990 年代から行われています。この数字を少しずらしたり、サイズを変えたり、回転させたり、歪ませたりします。ノイズを追加したり、ノイズを追加したりします。そして、教師あり分類器をトレーニングすると、より効果的になります。拡張データを使用すると、より良い結果が得られます。ここ数年で、これは非常に興味深いものになっています。なぜなら、ビジョン システムを事前トレーニングするための多くの教師あり学習手法は、データ拡張に基づいているからです。基本的な手法は、私が 90 年代初頭に取り組んだ手法に触発されたものです。また、ジェフ インターンも 90 年代初頭に取り組んだ手法に触発されました。並行して、私がシャム ネットワークと呼んでいた作業がありました。基本的には、同じ重みを共有する同じネットワークの 2 つの同一のコピーを取り、同じオブジェクトの 2 つの異なるビューを表示します。これらの 2 つの異なるビューは、データ拡張によって取得されたものか、移動したカメラや異なる時間に撮影した同じシーンの 2 つの異なるビュー、または同じ人物の 2 枚の写真などです。次に、このニューラル ネットの 2 つの同一のコピーをトレーニングして、出力表現であるベクトルを生成します。このとき、2 つの画像の表現は、互いにできるだけ近く、互いに同一になるようにします。基本的に、システムに、それが機能するように学習させたいからです。不変で、入力を特定の方法で変換しても出力は変わりません。これは簡単にできます。複雑なのは、2つの異なる画像を見せたときにシステムが異なるものを生成するようにするにはどうすればよいかということです。このための特別な準備がなければ、システムは入力を無視し、トレーニング時に入力を無視して、すべての入力に対して同じ定数ベクトルを生成することになります。はい、これは崩壊と呼ばれます。では崩壊を回避するにはどうすればよいでしょうか。2つのアイデアがあります。1つは、90年代初頭にベル研究所の同僚のジェーン・ブロムリーと他の数人と一緒に提案したアイデアで、今では対照学習と呼ばれています。これは負の例を持つものです。つまり、ペアがあります。異なることが分かっている画像をネットワークに見せ、その 2 つのコピーを出力ベクトル同士を遠ざけると、意味的に類似しているものは類似した表現を生成し、異なるものは異なる表現を生成することが最終的に保証されます。私たちは署名検証を行うプロジェクトのためにこのアイデアを思いつきました。同じ人物の複数の署名から署名を集め、ニューラル ネットをトレーニングして同じ表現を生成し、異なる署名に対して異なる表現を生成するようにシステムを強制します。これは実際に問題でした。当時 atnt の子会社だった ncr の人たちが提案した問題です。彼らはクレジットカードの磁気ストライプの 80 バイトに署名の表現を保存することに興味を持っていました。そこで私たちは 80 出力のニューラル ネットを持つというアイデアを思いつきました。バイト単位で量子化してエンコードし、そのエンコードを使用して署名が一致するかどうかを比較します。そうです。それで、ニューラル ネットを実行して署名します。そして、出力ベクトルをカードに保存されているものと比較します。これは実際に機能しました。機能しましたが、結局は誰も気にしないので使用されませんでした。つまり、アメリカの金融決済システムは、ヨーロッパに比べてその点で非常に遅れています。署名については、署名の目的は何ですか。署名は誰も見ません。誰も気にしません。ええ、ええ、いいえ。つまり、対照学習です。つまり、正と負のペアが必要です。その問題は、元の論文では、実際にはあまり肯定的ではありませんでしたが、高次元では機能しないためです。プレゼンテーションが高次元の場合、2つのものが異なる方法が多すぎるため、非常に多くの負のペアが必要になります。そのため、これには比較的最近のGoogleトロントグループからの特定の実装があります。ジェフインターンはシニアメンバーです。これはsim clear sim clrと呼ばれ、基本的に、特定の目的関数を実行する契約のアイデアを実装する特定の方法です。私がもっと知りたいのは、最近熱中しているのは非対照的手法です。つまり、異なる入力に対して表現が異なることを保証する他の方法です。これは実際には、ジェフ・インターンが90年代初頭に当時の学生スー・ベッカーと一緒に提案したアイデアに基づいています。2つのシステムの出力間の相互情報量を最大化するというアイデアに基づいています。肯定的なペアのみを表示します。ある程度似ていることがわかっている画像のペアのみを表示します。そして、2つのネットワークを、情報を提供するだけでなく、お互いについて情報を提供するようにトレーニングします。基本的に、1つの表現は他の表現から予測可能でなければなりません。彼は90年代初頭にこのアイデアを提案しましたが、その後何十年も何も行われませんでした。私はフェアのポスドク、特にフィンランドのアルト大学の准教授であるステファノニと一緒にこのアイデアを復活させました。私たちはバーロウツインと呼ばれるものを思いつきました。これは、いくつかの仮説を使用してベクトルの情報コンテンツを最大化する特定の方法です。そして、最近ではビクレッグと呼ばれる別のバージョンがあります。これは、分散共分散正規化を意味します。これは、過去15年間の機械学習で最も興奮していることです。つまり、私はこれに本当に興奮しています。どのようなデータ拡張が、私たちが話している非対照学習方法に役立ちますか?それはそれほど重要ではありませんか、それとも非常に重要なステップのように思えます。類似しているが十分に異なる画像を生成する方法。そうです、重要なステップです。また、オブジェクトの性質を変えずに拡張できる知識が必要なため、面倒なステップでもあります。この分野で働いている多くの人が使用している標準的なシナリオは、歪みの種類を使用することです。基本的には幾何学的な歪みを行います。1つは画像を少しシフトするだけです。これはクラブと呼ばれます。もう1つはスケールを少し変更します。もう1つは回転します。もう1つは色を変更します。色のバランスを変更したり、彩度を変更したりできます。もう1つはぼかし、もう1つはノイズを追加します。標準的なもののカタログのようなものがあり、人々は異なるアルゴリズムに同じものを使用して比較しようとしますが、一部のアルゴリズム、つまりセルスーパーバイザーアルゴリズムは、実際にははるかに大きな、より積極的なデータ拡張を処理できますが、そうでないものもあります。そのため、全体が難しくなりますが、それは私たちが話しているのは歪みです。これらの歪みを使ってトレーニングし、ネットワークの最後の層をいくつか切り落とし、その表現を分類器の入力として使用します。分類器をImageNetなどでトレーニングし、パフォーマンスを測定します。興味深いことに、画像間の歪みなど、関係のない情報を排除するのに非常に優れた方法は、それを排除するのに優れています。その結果、それらのシステムでは、その表現をオブジェクトの検出や位置特定などに使用できなくなります。その情報が失われるためです。必要なデータ拡張の種類は、必要なタスクによって異なります。最終的に解決すべきシステムと、今日使用しているデータ拡張の標準データ決定のタイプは、物体認識や画像分類にのみ適しており、例えば、位置特定がなぜなのか理解するのを手伝ってもらえますか?つまり、ネガティブな分類が苦手なので、位置特定に使用できないということですね。いいえ、それは単にシステムをトレーニングするだけです。つまり、画像を与え、同じ画像をシフトして拡大縮小し、それが同じ画像であると伝えるのです。つまり、システムは基本的に位置とサイズに関する情報を排除するようにトレーニングされるのです。それで、今、あなたはそれを使用したいのです。物体がどこにあり、サイズはどのくらいか、境界ボックスのように、実際に物体を画像内で見つけることができるようにしたいのです。その物体の正確な境界を見つけるのはあまり得意ではありません。興味深いですね。これは興味深い哲学的な質問です。物体の位置特定はどれほど重要ですか。とにかく、私たちは測定に夢中になっています。画像セグメンテーションは、物体の境界を完璧に把握することに執着していますが、それはシーンの内容を理解する上でそれほど重要ではないと言えます。一方、進化論的に動物の最初の視覚システムは基本的に位置特定に関するもので、認識についてはほとんど触れられていないと思います。人間の脳には、シーンや物体の性質を認識し、物体を位置特定するための 2 つの別々の経路があります。最初の経路は腹側経路と呼ばれ、何を見ているのかを伝えるために使用します。もう 1 つの経路は背側経路で、ナビゲーションや把握、その他すべてのために使用されます。基本的に、生存に必要な多くのものは位置特定と検出です。類似性学習または学習のコントラストです。これらの非コントラスト手法は、歪んだ猫が歪んでいない猫と同じであるという理由だけで何かを理解するのと同じですか。それは、ある程度猫であることが何を意味するかを理解していることを意味しますか。明らかに表面的な理解ですが、この方法の限界は何でしょうか。これは、セル教師あり学習を行うための 1 つのトリックにすぎないと思いますか。私たちは進むことができますか。ええ、本当に遠くまで進むことができると思います。かなり遠いですが、そのタイプの技術をどのように使用するかがわかれば、おそらく非常に異なるかもしれませんが、ビデオからシステムをトレーニングしてビデオ予測を行うためのシグネチャが基本的に、機械の物理的な常識のレベルへの道が開かれると思います。また、視覚のような高スループットチャネルから世界がどのように機能するかを学ぶ能力は、本当の人工知能への必要なステップだと思います。言い換えれば、地上の知能を信じています。テキストだけで機械を知能化できるとは思いません。テキストに含まれる世界に関する情報の量は、私たちが知る必要のある情報に比べて非常に少ないと思うからです。たとえば、30年間人々がこれをやろうとしてきました。サイコプロジェクトなどです。基本的には、既知の事実をすべて書き留めて、何らかの常識が出てくることを期待しています。基本的には絶望的だと思いますが、例を挙げましょう。物体を取り、状況を説明します。物体を取り、テーブルの上に置き、テーブルを押します。物体がテーブルと一緒に押されることは完全に明らかです。物体はテーブルの上に置かれているからです。世界にはテキストはありません。これが説明できると思います。したがって、GPT 5000などのできるだけ強力な機械をトレーニングしても、このことについて学習することはありません。その情報は、どのテキストにも存在しません。サイコプロジェクトのような夢は、 1000万の事実があると、親があなたを導いてくれるような有利なスタートを切ることができます。私たち人間は、テーブルが動くと親に言われる必要はありません。すみません、スマートフォンはテーブルと一緒に動きます。しかし、私たちは他の方法で多くのガイダンスを得ています。そのため、すぐにショートカットできる可能性があります。猫はどうですか?猫はそれを知っていますが、進化したので、私たちと同じように学びます。すみません、物理的なことはそうです。ええと、つまり、あなたは、育ちの側に多くの知性を置いていると言っているのですね。自然ではなく。はい、私たちは、細菌から今日の私たちに至るまでの進化の非常に非効率的なプロセスがあるようです。下から始まりました。今、私たちはここにいます。そうですね、問題は、それがハードウェア全体の性質であるかどうか、そしてそれをショートカットする方法があるかどうかです。それが基本的なものであれば、そうでない場合、知性の大部分は、私たちが話してきたクールなものの大部分は、ほとんどが育ち、ほとんどが訓練されたものです。私たちは世界を観察することでそれを理解します。あなたが話しているあの大きくて美しくてセクシーな背景モデルを、ただ座っているだけで形成できるのなら、それから、おそらくそれはすべて教師あり学習なので、驚くような学習サイトは、人間の知能を他の動物と異なるものにするもので、多くの人が言語や論理的推論などだと思っているものですが、それはそれほど複雑ではありません。なぜなら、それはここ100万年の間に現れたばかりだからです。そして、それは私たちのゲノムの1%未満しか関係していないかもしれません。それが人間のゲノムとジムズの違いです。つまり、それほど複雑になる可能性があるのです。それほど基本的なことであり、すでに非常に複雑なものの大部分を意味します。猫や犬にも存在しますし、霊長類、人間以外の霊長類にも存在します。人間に関するその小さなことは、社会的な相互作用や、人々の集団として考えを維持する能力に関するものかもしれません。とてもドラマチックで印象的ですが、機械的に言えばそうではないかもしれません。でも、まだそこまでには至っていません。つまり、これは解決すべき問題のリストの634番目です。世界の基本物理学が1番目です。データ拡張について少し話がそれますが、その多くはハードコードされているのではなく、学習されているのですが、生成型のデータ拡張のような奇妙なデータ拡張があるかもしれないという直感はありますか。画像に奇妙なことをして類似性学習プロセスを改善するようなもので、単純な歪みではなく、単純な歪みで十分だと首を振っているので、拡張は一時的な必要悪だと思います。現在人々が取り組んでいるのは2つです。1つは、自己監督とは、細胞抑制剤の種類を翻訳しようとすることです。言語を使ってこれらの2つの画像を翻訳します。これは基本的にオートエンコーダー法を表しています。つまり、画像を取得してその一部をブロックしてマスクし、巨大なニューラルネットをトレーニングして、失われた部分を再構築します。ごく最近まで、そのための実用的な方法はありませんでした。画像用のオートエンコーダータイプの方法はすべて、あまり良い表現を生み出していませんでした。しかし、メンロパークのフェアグループから実際に非常にうまく機能する論文が出ています。そのため、マスクのみを必要とするドキュメントは必要ありません。画像のマスクのみが必要です。画像の一部をマスクし、システムをトレーニングします。この場合はトランスフォーマーです。トランスフォーマーは画像を重複しないパッチとして表すことができるため、パッチなどをマスクするのは簡単です。それで、私の質問は、マスクの問題に移ります。なぜマスクは正方形または長方形であるべきなのか、つまり、それは問題ではないと思います。おそらく将来的には、ランダムなマスクの方法が出てくるでしょう。つまり、ランダムなマスクはすでにあるということですが、難しい、最適に挑戦するようなものなので、おそらく当てはまらない比喩かもしれませんが、データ拡張またはマスクがあるように見えます。インタラクティブな要素があり、まるで画像で遊んでいるようなもので、私たちが心の中で画像で遊ぶのと同じです。ドロップアウトのようなもので、ボストンマシントレーニングのようなものです。知覚を見るたびに、何らかの方法でそれを乱すことができ、それがトレーニングの原則です。手順は、クリーンなバージョンと破損したバージョンの表現の出力の差を最小限に抑えることです。これはリアルタイムで実行できます。マシンの動作はこんな感じです。知覚を示し、マシンにアクティビティまたは入力ニューロンの適切な組み合わせを伝えます。そして、値に固定せずに自由にさせるか、サブセットのみでこれを行います。つまり、システムをトレーニングして、ネットワーク全体の安定状態が同じになるようにします。入力全体を見ているか、一部だけを見ているかに関係なく、入力全体を再現し、空白を埋めるようにシステムをトレーニングします。これが本当に基本的な原理です。脳内でも、ある種の神経原理を想像できます。ニューロンが振動するので、アクティビティが発生し、一時的に停止します。システムの残りの部分に、基本的に彼らの助けを借りずに入力を再構築するように強制します。そして、つまり、多かれ少なかれ生物学的に可能なプロセスを想像できると思います。このノイズ除去オートエンコーダーとマスキングとデータ拡張を使えば、超効率的である必要はありません。好きなだけ行うことができます。時間の経過とともに改善されます。なぜなら、これらすべての手順を実行する方法について賢くしたいかもしれないと考えていたからです。しかし、それはすべての反復を実行するのに何らかのコストがかかる場合のみです。実際にはそうではありません。そして、明示的なデータ拡張のないデータ拡張があります。待機によるデータ拡張です。これは、ビデオクリップを観察している種類のビデオ予測です。そのビデオクリップの続きを観察し、それらのジョイント埋め込みアーキテクチャを使用して表現を学習しようとします。これにより、将来のクリップの表現が、観察されたクリップの表現から簡単に予測できます。YouTubeには、猫になる方法を学ぶのに十分な生データがあると思いますか?私はそう思います。データ量は制約ではありません。選択が必要です。おそらく適切な種類のデータの選択が必要だと思います。猫の動画のウサギの穴に落ちて、講義などを見る必要があるかもしれません。いいえ、そうではありません。知能についての講義を見て、それから学ぶ、あなたの講義とニューヨーク大学の講義を見て、そこから知能を高める方法を学ぶ、というのはメタなことでしょうか。マルチモーダル学習は興味深いと思いますか。私たちは視覚言語について話してきました。それらを組み合わせる、おそらくオーディオなど、そのようなものがたくさんあります。短期的には興味深いと思うが、重要な問題に対処していないもの、つまり本当に大きな課題だと思うもの、つまりマルチタスク学習、継続的学習、敵対的問題などは、比較的短期的には大きな実用的関心事であると思いますが、基本的なものではないと思います。アクティブラーニング、ある程度の強化学習など、自己即興的な表現学習や予測可能なモデルの学習方法を見つければ、これらのことは時代遅れになるか、役に立たなくなるか、簡単になると思います。ですから、コミュニティ全体が注力すべきなのはそこだと思います。少なくとも人々は、基本的な質問や、AIの限界を次の段階に押し上げることに関心を持っていますが、もちろん、短期的な影響がある実用的な質問に取り組むべき非常に興味深い仕事がたくさんあります。時間的なスケールについて話すのは難しいです。太陽が消えて、人類の文明はすべて最終的に破壊されるからです。イーロン・マスクは銀河系全体で複数の惑星の植民地化に成功していますが、最終的にはすべてが巨大なブラックホールになるだけです。それにはしばらく時間がかかりますが、しかし、私が言いたいのは、その論理を使ってすべてが無意味だと言うことができるということです。私が言いたいのは、マルチタスク学習[音楽]は、あなたが実用的または実用的と呼ぶあなたの曲かもしれません。それは、私たちが自己教師学習と背景知識というより一般的な問題を解決しようとしているときに、知能に非常に似た何かを達成するものかもしれません。私がそれを持ち出した理由は、その質問をする方法の1つかもしれません。私はテスラのオートポリチームが行っていることに非常に感銘を受けました。マルチタスク学習のこの特定の例をちらっと見る機会があったかどうかわかりませんが、彼らは文字通り問題を取り上げています。チャールズ・ダーウィンが動物の研究を始め、運転の問題を研究し、認識しなければならないすべてのものは何かと尋ね、それを解決する方法は1つはオントロジーで、それをテーブルに持ち込んで、さまざまなタスクを策定します。100以上のタスクのようなもので、運転に関与し、それを展開し、問題に遭遇した人々からデータを取得し、タスクを追加するか、個々のタスクに個別に焦点を当てるかを検討します。実際、半分はそうです。アンドレ・カルパティの講演を2つの方法で分類します。1つはドアについて、もう1つは画像ネットがどれほどひどいかについてです。彼はこの2つのトピックについて何度も行き来しました。つまり、1つの画像だけを使用することはできません。ベンチマークは、システムが実際にどれだけ優れているかを理解するために、膨大なベンチマークスイートのようなものが必要なのです。私も彼に同意します。彼は非常に賢明な人です。比較的短期間で解決しなければならないエンジニアリングの問題に直面した場合、特にそれが自分の首に迫っている場合は、近道を取らなければならないことは明らかです。長期的な解決策として正しいことは、ある種の自己監督を伴うという事実について考えるかもしれませんが、首に迫っているような読書をすることです。これには人の命が関わっています。したがって、基本的には体系的なエンジニアリングを行う必要があります。微調整や改良、試行錯誤など、あらゆることが必要です。それには何の問題もありません。それがエンジニアリングと呼ばれるもので、テクノロジーを世界に出すことと呼ばれています。そして、それを鉄壁で固める必要があります。これを行う前に、あなたは壮大なアイデアや原則について多くのことを知っていますが、私は自分自身をこのクイーンの上流、またはこの流れのかなり上流に置いています。プラトンはプラトンの形について考えます。プラトンです。最終的には、それが使用されることを望んでいますが、コミュニティがこれが正しいことだと認識するのに5年か10年かかっても大丈夫です。私は以前にもこれをやったことがあります。その前にもそうでした。つまり、2000年代半ばを振り返って、自分自身に質問します。車や顔などを認識したいのですが、畳み込みネットを使用できます。より一般的な種類のコンピュータービジョン技術を使用できます。関心点検出器または迅速な密度特徴を使用し、その上にSVMを貼り付けます。当時のデータセットは非常に小さかったため、より多くの手作業を使用する方法の方が企業よりもうまく機能しました。コムネットやコンテスト用のデータが足りませんでした。当時入手可能なハードウェアでは遅いし、データセットが大きくなってGPUが利用可能になったときに変化がありました。それが人々の考え方を変えた主な要因です。AIやパターン認識のすべてのサブブランチの歴史を見ると、同じような軌跡をたどった技術があります。人々はそれを徹底的に設計することから始めます。光学文字認識、音声認識、コンピュータービジョン、一般的な画像認識、自然言語理解、翻訳などです。徹底的に設計し始めます。画像に関するすべての知識、事前の知識を獲得し始めます。文字の形、形態素解析、特徴抽出、フーリエ変換など、あっという間に、人々は画像を表現する何千もの方法を思いつき、後で簡単に分類できるようにしました。音声認識についても同じです。人々が音声信号を前処理するための優れたフロントエンドを見つけるのに20年かかりました。そうすれば、話されている内容に関する情報は保持されますが、話者の身元に関する情報のほとんどは失われます。ケストレル係数などです。テキストについても同じです。エンティティ認識が必要で、構文解析を行い、品詞のタグ付けを行い、節のツリー表現などを行います。これがすべてです。とにかく徹底的に設計し、データを取得し、より強力なコンピューターを手に入れ、統計学習について何か知っている場合は、機械学習を使用し始めます。これは通常、手作りのシステムの上に小さな断片を追加するものです。特徴を手作業で抽出します。そして、ご存知のとおり、現在では、これを実行するための標準的な方法は、全体をエンドツーエンドでディープラーニングシステムでトレーニングし、独自の特徴を学習することです。そして、ご存知のとおり、最近の音声認識システム、つまり OCR システムは完全にエンドツーエンドです。これは、生の波形を受け取り、文字のシーケンスを生成する巨大なニューラルネットです。これは巨大なニューラルネットです。Minecraft モデルはありません。明示的な言語モデルはありません。ニューラル言語モデルのようなものに根ざしたもの以外は、翻訳やあらゆる種類のものについても同様です。つまり、手作業がどんどん少なくなり、学習が増えるという継続的な進化が見られます。生物学でも同じだと思います。つまり、これについては意見が分かれるかもしれません。最後に、アクティブラーニングについて言及しましたが、アクティブラーニングはデータの選択であり、この巨大なニューラルネットワークの一部である必要があるインタラクティブ性です。ネットワークでは、自己教師学習を行うには、ただの観察者ではだめです。自己教師学習は単なる言葉ですが、この巨大なニューラルネットワークのスタックが自動的に学習するように感じます。私の直感では、物理的なロボットであれデジタルロボットであれ、世界と相互作用し、欠陥のある方法でそれを実行し、時間の経過とともに改善するシステムが必要です。自己教師学習を形成するには、巨大なデータの海を与えるだけではだめです。同意します、反対します。同意します。2つの点で同意します。1つ目に同意するのは、世界の因果モデルが必要です。そのモデルを訓練して行動を起こすには、行動を起こし、その影響を見て、世界の因果モデルを学習する必要があります。これは明白なことではありません。なぜなら、他の人を観察することができ、他の人が自分に似ていると推測し、そこから学ぶことができるからです。しかし、その部分をハードワイヤードする必要があります。ミラーニューロンなどです。機械でこれをどのように行うのか私にはわかりません。したがって、世界の因果モデルを持つには、行動の部分が必要だと思います。2つ目の理由、または少なくともより効率的である可能性がある理由は、アクティブラーニングは基本的に、自分が知らないことの揺らぎに向かいます。これは、自分の世界と世界がどのように動作するかについての明らかな不確実性領域であり、この不確実性は、体系的な探索によって解決できます。知らない部分、知らないとわかっている部分、そして知らないとわかっている部分、それが好奇心を掻き立て、状況を調べようとするのです。動物の世界では、種によって好奇心のレベルが異なります。その種の構造によって異なります。猫やネズミは好奇心が強いですが、犬はそれほどではありません。つまり、それほどではありません。そのような好奇心を持つことは役に立つかもしれませんが、好奇心はプロセスを速くするだけで、プロセスが存在するようにするわけではありません。では、能動学習によって効率化されるプロセスとはどのような学習プロセスなのでしょうか。私は最初の質問をしています。その質問にはまだ答えていません。能動学習について心配しています。この質問は、より根本的な質問です。能動学習やインタラクションによって学習の効率が向上するかどうかは、増加が数桁になると大きく変わることがあります。それは事実ですが、基本的には同じことであり、自己教師あり学習で効率的に背景モデルを構築する方法についての直感を構築することです。または非効率が核心的な問題です。ヨシ・バンジョーズが意識やこうした類の概念について語っていることについてどう思いますか。ええと、意識が何なのかは分かりませんが、良いきっかけにはなります。ある程度、意識について語られていることの多くは、18世紀や17世紀に人々が自問していた疑問を思い出させます。彼らは、目の仕組みや、目の奥にある像が逆さまになっているという事実を発見しました。レンズや網膜があるためです。形成される像は世界の像ですが、逆さまです。どうして正しい向きで見えるのでしょうか。今日私たちが知っていることを踏まえると、科学では、この質問が意味をなさない、あるいはある意味馬鹿げているということに気づいていますよね。ですから、意識について言われていることの多くはそういう性質のものだと私は思います。とはいえ、このトピックについて話している、私がとても尊敬している非常に賢い人たちがたくさんいます。たとえば、ニューヨーク大学の同僚であるデイビッド・チャーマーズなどです。私は意識について、ちょっと変わった民間の推測的な仮説を持っています。私たちはこのオーディオ世界モデルについて話していますが、ご存知のように、私たちの前頭葉皮質全体が基本的に世界モデルのエンジンですが、特定の状況に注意を払っているときは、その状況に集中しているため、基本的に他のことに注意を払うことができません。これは、私たちの前写真皮質には基本的に1つの世界モデルエンジンしかないことを示唆しているようです。そのエンジンは、手元の状況に合わせて構成できます。つまり、木で箱を作ったり、高速道路を運転しながらチェスをしたりしているとき、私たちは基本的に、手元の状況に合わせて構成する単一の世界モデルを持っているのです。一度に 1 つのタスクしか処理できません。繰り返し行うタスクがある場合、それは、先ほどお話ししたモデル予測制御や世界モデルを使用した意図的な推論から、より潜在意識的で自動化されたものに移行します。チェスのグランドマスターと対戦したことがあるかどうかはわかりませんが、10 フライで負けてしまい、15 分ほど自分の動きを考えなければなりません。そして、目の前のグランドマスターは数秒以内に反応するでしょう。彼は考える必要はありません。これは潜在意識の一部になっています。この時点では、基本的にはパターン認識に過ぎないからです。同じです。車を運転する最初の数時間は非常に注意が行き届いており、他のことは何もできません。20 ~ 30 時間の練習、つまり 50 時間の練習の後、潜在意識で隣の人と話すことができます。状況が予測不可能になり、話すのをやめなければならない場合を除きます。つまり、頭の中にはモデルが 1 つしかないということです。つまり、意識は基本的に、この世界モデルを構成するモジュールであるという考えを示唆しているのかもしれません。つまり、状況に合わせて世界モデルを構成する、ある種の実行監督者が必要なのです。そして、それは、意識は心の力の結果ではなく、脳の限界の結果であるという、実に興味深い概念につながります。しかし、世界モデルが 1 つしかないため、意識を持つ必要があります。遭遇する状況の数だけロールモデルがあれば、それらをすべて同時に実行でき、意識と呼ばれるこの種の実行制御は必要なくなります。興味深いですね。どういうわけか、その実行コントローラーかもしれません。つまり、意識の難しい問題です。生物学には、これらのことを経験するときのような感覚を生み出す化学物質があります。これは、一体何なのか、なぜそれが役に立つのか、という難しい質問のようなものです。おそらく、より実用的な質問は、これが本当にあなたがこれを経験していると感じることが、単に情報が処理されていると感じることよりもなぜ役に立つのかということです。これは、私たちが進化してきた方法の非常に良い副作用である可能性があります。これは、あなたが下す決定、あなたが下す認識、あなたが維持しようとしているモデルに対する所有権の感覚を感じるのに非常に役立ちます。これはあなたが所有しているものであり、あなたが持っている唯一のものであり、それを失うと本当にひどいことになるので、脳にそれに関する信号を送る必要があります。機械学習の分野では、ほとんどの人、少なくとも多くの人があなたに反対する可能性がある考えは何ですか。それは誰について話すかによって異なりますが、確かに、世界に関する多くの基本的なことは一種の自然主義者であると考える人々がたくさんいます。私たちの心の中にハードワイヤードされているもの、例えば世界は3次元であるというようなことは、ハードワイヤードされているものです。物体の永続性のようなハードワイヤードなものは、3か月くらい前に学習するものですか、それとも生まれつき持っているものですか。これについては、認知科学者の間で非常に意見が分かれています。私は、これらのことは実際には学習するのが非常に簡単だと思います。v1の方向エッジ検出器は学習されるのか、それともハードワイヤードなのか。私は学習されると思います。両方より前に学習される可能性があります。なぜなら、エッジ検出器を実際にトレーニングする網膜からの信号を生成するのは非常に簡単だからです。そして、これらは目を開けてから数分以内に学習できるものです。つまり、1990年代以降、方向検出器を教師なしで学習できるアルゴリズムがあり、実際の時間で数分に相当する時間で学習できます。つまり、これらのことは学習する必要があります。また、MITの実験では、視覚神経を聴覚神経に差し込むようなものもありました。赤ちゃんフェレットの皮質は、聴覚皮質が視覚皮質になるので、そこで走っているのがはっきりわかります。人々が考えることの多くは、とても基本的なことなので、ハードワイヤードにする必要があると思います。それらの多くは、簡単に学べるので、学習するものだと考えています。学習の力に多くの価値を置いています。どのようなことが学習されない可能性があると思いますか?学習できないものがあるのでしょうか?内在する欲求は学習されません。人間を人間らしくするもの、または猫を犬と区別するもの、つまり、私たちの基底核にハードワイヤードされている基本的な欲求です。つまり、この種のことに取り組んでいる人々がいます。これは強化学習の文脈では内発的動機付けと呼ばれます。これらは目的関数であり、報酬は外界から来るものではなく、自分の脳によって計算されます。自分の脳は、自分が幸せかどうかを計算し、快適度を測定します。そして、これは自分の脳が計算するものなので、おそらくこの勾配を推定する方法も知っているはずです。つまり、目的が内発的であれば学習が容易になります。そのため、これはハードワイヤードでなければなりません。批評家は、学習された結果である結果を長期的に予測します。これは学習され、知覚は学習され、世界のモデルは学習されます。しかし、批評家がなぜ学習されるのか、つまり批評家がどのように学習されるのか、例を挙げてみましょう。もし私があなたのところに来て、テーブル越しに手を伸ばしてあなたの腕をつねるとします。あなたにとっては完全に驚きです。これは予想していなかったでしょう。ずっと予想していましたが、はい、そうですね、話のために、はい、はい、わかりました。あなたの視覚神経節が光りますだって、痛いでしょう。そして、あなたの世界モデルには、私があなたの腕に手を近づけたら、つねられるかもしれないという事実が含まれています。だから、もう一度試すと、あなたはひるむでしょう。それがあなたの批評家、つまり、あなたの予測者、つまり、究極の痛みの予測子です。ひるむと何か悪いことが起こると予測するシステムです。それを避けるために、それさえも学ぶことができます。それが間違いなく描くことです。これが、あなたが目標を定義することを可能にします。つまり、あなたが学校の子供であるという事実です。朝起きて学校に行きます。必ずしも早起きして学校に行くのが好きだからというわけではありませんが、最適化しようとしている長期的な目標があることを知っています。アーネスト・ベッカーという哲学者をご存知かどうかわかりませんが、彼は「死の否定」という本を書きました。彼の考えは、人間の根本的な動機の1つは死への恐怖、死への恐れであるということです。それが人間と猫の違いです。猫はただ生き延びているだけで、地平線の向こうに終わりがあるという深い内省のような認識を持っていません。彼は、恐怖管理理論があり、心理学的実験で基本的に示されているのは、人間の文明、私たちが作り出すものはすべて、私たちが死ぬことを一瞬でも忘れようとしているという考えです。人間はいつ死ぬことを理解すると思いますか?それは早い段階で学んだのでしょうか?また、どの時点で死が本当に何であるかを認識しているのかという質問です。ほとんどの人は死が何であるかを実際には認識していないと思います。ほとんどの人は死が天国に行くと信じています。それで、それを押し進めるためにアーネスト・ベッカーやシェルドン・ソロモンなど、その人たちの言っていること、そして私が少し説得力があると思うのは、人生の早い段階で、この楽しい瞬間がたくさんあるということです。人生の早い段階で、この認識の恐怖を深く体験するとき、宗教について考えるすべてのこと、私たちが10代の頃のように考えるすべてのこと、そしてその後はもっと早い時期の話です。いや、7歳か8歳くらいです。ええ、これは謎、恐怖のようなものだと気づきます。まるで自分が小さな獲物、森のジャングルの暗闇に座っている小さな子鹿のようで、恐怖に満ちた暗闇の周りを見回しているような感じです。つまり、その認識は、よし、心の安らぎに戻って、井戸があり、深い意味があり、自分が不死身であるかのように、自分が不死身であることを理解するために構築できるアイデアがあるということです。不滅の宗教はそれに役立ちます。あなたは、毎日の忙しさに身を任せたり、小さな目標を心に抱いたり、それが永遠に続くと考えたり、自分が死ぬことを知っているようにしたり、悲しいことですが、自分が死ぬことを本当に理解していないなど、あらゆる方法で自分自身を欺くことができます。それが彼らの考えであり、それが説得力があると思うのは、私たちが死ぬと考えることができたのは人間の本質の核心的なユニークな側面であるように思われるためです。この人生は有限であることを本当に理解することができます。それは重要なようです。そこにはさまざまなものがあります。まず、人間と猫の間に質的な違いはないと思います。違いは、私たちは長期的に予測する能力が優れているということだと思います。つまり、世界がどのように機能するかをよりよく理解しています。つまり、人生の財務などをよりよく理解しています。つまり、猫よりも優れた計画エンジンを持っているということです。ええ、わかりました。ええと、計画を立てる動機は何ですか?ええと、私はそう思います。それは、私たちがより優れた計画エンジンを持っているという事実の副作用に過ぎません。なぜなら、先ほど言ったように、知性の本質は予測する能力であり、私たちがより賢くなったことで、副作用として、私たち自身の将来の存在やその欠如について予測する能力も得られるからです。宗教はそれを助けると言いますが、私は宗教が害を及ぼすと思います。宗教は人々に、死んだ後何が起こるかなどについて心配させます。もしあなたがそれを信じるなら、あなたは死んだ後自分は存在しないことを知っています。つまり、それは問題を完全に解決します。少なくとも、神を信じなければ、死後に何が起こるか心配する必要はないと言っているのです。ええ、なぜあなたがそれを心配するのかわかりません。人生は人生しかないから、そう思う。アーネスト・ベッカーが何を言っているか分からないけど、私は彼に賛成すると言った。神はいないと信じているなら、すべてが謎に包まれていることについて深く心配する。それがただ終わるなんてどういうことか。この乗り物を本当に理解できるとは思えない。つまり、私たちの人生の大半、意識、自我がこの存在に注がれているのに、科学は人類を台座から引きずり下ろし続けている。そう、これもまた素晴らしい例だが、私たち人間は台座から引きずり下ろされるのは好きではない。でも、それでいいんだ。アーネスト・ベッカーが言うには、それでいいんだ。なぜなら、それがあなたにとってより平和な存在だからだ。でも、あなたは本当に大丈夫じゃない。あなたは、人生の早い段階で最も深いトラウマを経験した人々から隠れている。彼らは多くの場合、広範囲にわたる治療を受ける前に、「大丈夫です」と言います。それは、本当に怒っている人と話すときと同じです。「調子はどうですか。大丈夫です」。問題は、今何が起こっているのかということです。私は死にそうな経験をしました。17歳のときに、とてもひどいバイク事故に遭いました。でも、そのことはそのトピックについての私の考察には何の影響も与えませんでした。基本的に私は、反論して、死を受け入れることが本当に可能なのか疑問に思っているだけです。そして、その反対のほうが、AIとロボット工学にとって、これがどれほど重要であるかということです。動機の1つとして、屋根から落ちたりしないようにするだけでなく、乗り物の終わりについて考えることです。ストア派の人たちの話を聞くと、それは素晴らしい動機付けになります。切迫感が増すので、本当に死を恐れたり、死を認識したりすることで、完全によく生きる瞬間に深い意味と切迫感が与えられるかもしれません。それには反対しませんが、つまり、ここで私を動機づけているのは、人間の本性についてもっと知ることだと思います。つまり、人間の本性と人間の知性は大きな謎であり、科学的な謎であり、哲学的な謎などに加えて、科学的な謎でもあります。でも、私は科学を心から信じているので、科学の信奉者なので、科学の信奉者です。脳や心のような複雑なシステムを理解するには、自分で作った人工物で再現してみるのがよいという考え方です。なぜなら、それを作ろうとするときに、何が重要かがわかっているからです。以前、このアナロジーをあなたに使ったことがありますが、空気力学を理解し始めたのは飛行機を作り始めたときで、それが鳥の飛び方を理解するのに役立ちました。ここでも同じようなプロセスがあると思います。完全な知能理論はありませんが、知能のある人工物を作ることで、人工的な道具だけでなく、人間や生物の知能全般を網羅する基礎理論を開発できるかもしれません。あなたは、他のさまざまな知能のある存在や知能についてこの質問をするのに興味深い人です。ツアーや中国語の部屋のような質問についてどう思いますか。知能や意識の多くの特性を示すAIシステムを作成した場合、その存在を知能や意識があるとどの程度考えますか。つまり、知能を持ち、そのパフォーマンスに関する指標があるシステムを構築しようとしているということです。しかし、その基準は外部のものです。では、あなたは、何かを知性があると呼んでも大丈夫ですか?ほとんどの人間のように、意識/知性の台座から再び引きずり下ろされることに不満を抱くつもりですか?いいえ、私は、同様の能力を持つ機械の構築を通じて、人間の本性、人間の心、人間の知性についてもっと理解できればとてもうれしいです。その結果、人類がさらに1段階低下するのであれば、私はそれで大丈夫です。それが人生の現実です。だから私はそれで大丈夫です。今、あなたは私に、多くの人が反対するかもしれない私の意見について尋ねていました。自律知能システムの設計について考えてみましょう。機械に世界のモデルを学習させ、世界のモデルを予測させることにある程度成功していると仮定すると、そのシステムの行動を駆動するための内発的動機付け目的関数を構築します。システムには、世界の状態を推定し、特定の目的を最適化するための一連のアクションを把握する何らかの方法を可能にする認識モジュールもあります。前に説明したタイプの批評家がいれば、2回目にあなたをつねろうとしたときに腕を思い出すようなものがあれば、インテリジェントな自律マシンは感情を持ちます。感情は自律知能の不可欠な部分だと思います。目的による内発的動機付けによって駆動されるインテリジェントシステムがあれば、状況の結果が良いか悪いかを事前に予測できる批評家がいれば、感情を持つことになります。結果が悪いと予測すると恐怖を感じ、何かを避ける必要があります。良いと予測すると高揚感を覚えます。ええと、関係を築くための動機があれば、人間は、ある意味、社会的な権利を持っていて、愛着やそのようなものについての感情を持つようになると思います。ですから、SFでコマンダーデータに感情チップがあって、それをオフにできるようなものを見るのは馬鹿げていると思います。つまり、これは難しい哲学的社会的質問です。ロボットの公民権運動のような時代が来ると思いますか?運動は忘れてください。しかし、最高裁判所のような議論で、特定の種類のロボット、特定の種類のシステムは、人間と同じように苦しむことができるので、人間と同じ権利に値すると議論する時代が来ると思いますか?人間が死んでも回復できる、つまり3Dプリントされて脳が細部まで再構築される可能性があると想像してみてください。その場合、私たちの権利の考え方は変わります。常にバックアップがあり、いつでも復元できるなら、おそらく重要性のように。殺人は1段階減ります。それはその通りですが、危険なことをしたいという欲求も増えるでしょう。スカイダイビングやレースカーの運転、カーレースなどです。飛行機のアクロバット飛行などです。そう、そういったことをたくさんやったり、危険な場所を探検したりしても大丈夫です。人間関係が変わるでしょう。ロボットもそうなる可能性が非常に高いです。ロボットは、おそらくロボットと似たような技術に基づいているからです。今日の技術では、いつでもバックアップを取ることができるので、可能です。ビデオゲームが好きかどうかはわかりませんが、ディアブロというゲームがあります。ええと、私の息子たちはこのゲームの大ファンです。実際、彼らはこのゲームに触発されたゲームを作りました。素晴らしいゲームを作ったのです。私の3人の息子は、ゲームデザインスタジオを持っています。彼らは去年も素晴らしいゲームをリリースしました。いいえ、これは去年のことです。1年ほど前です。素晴らしいことですが、ディアブロにはハードコアモードというものがあり、死んでも終わりではありません。それだけです。AIシステムでは、AIが正常に機能し、私たちがAIを特定の方法で扱うことが可能です。AIは人間社会に統合されなければならないため、AIは死ぬことができなければなりません。コピーは許可されていません。実際、コピーは違法です。人間でも可能です。クローンは違法になります。クローンはコピーではないため、可能であっても違法になります。つまり、人間の心を再現することはできないのです。人間や経験は単なる遅延双子です。しかし、先ほど話したコンピューターでは、あなたをコピーすることができます。つまり、あなたの心の状態を完全に保存することができます。そして、それは違法になる可能性があります。なぜなら、それはシステムの動機を破壊するからです。さて、あなたが家庭用ロボットを持っているとしましょう。将来、家庭用ロボットがあなたのところにやって来て、ある程度事前に訓練されているとします。それは多くのことをすることができますが、他のロボットとは少し違う特別な性格を持っています。それがロボットをより面白くするからです。そして、それは5年間あなたと一緒に暮らしているので、あなたはそれに愛着を抱き、あなたもそれに愛着を抱き、あなたについて多くのことを学びます。あるいは、家庭用ロボットではなく、あなたの拡張現実メガネの中に住んでいる仮想アシスタントかもしれません。ホラー映画のようなものですよね。そして、そのシステムはある程度、その中の知性を持っています。システムはあなたの子供や博士課程の学生のようなもので、その機械の中にはあなた自身がかなり含まれています。もしそれが生き物だったら、あなたが望むなら無料でこれを行うでしょう。あなたの子供なら、子供は自分の人生を生きることができます。そして、彼らがあなたから何かを学んだという事実は、あなたがその所有権を持っていることを意味しません。しかし、あなたが訓練したロボットであれば、おそらく知的財産権の主張があるでしょう。ああ、あなたは、あなたのこの部分が永久的な価値があるという意味で、永久的な価値があるという意味で言っているのかと思いました。ですから、そのロボットが破壊され、バックアップがなかったら、多くのものを失うことになります。たくさんの投資が必要です。たとえば、人が死ぬとか、友達の友達が死ぬとか、同僚が死ぬとか、そういうことです。でも、そのシステムはあなたの特定の存在に合わせて微調整されているという意味で、あなたには知的財産権のようなものがあります。ですから、それが元の背景モデル(それが何であれ)の非常にユニークなインスタンス化です。それからプライバシーの問題もあります。なぜなら、そのロボットが独自の意志を持っていて、他の誰かと一緒に働くことを決めたり、あなたとの生活はちょっと無理だと思ったり、そういうことを想像してみてください。そのシステムがあなたから学んだすべてのこと、つまり、そのシステムがあなたについて知っているすべての個人情報をどうやって削除できるのか、つまりそれは倫理的な問題です。つまり、あなたのプライバシーを守るために、知能ロボットの心を消すことができるのか、ということです。人間にはそんなことはできません。黙るように頼むことはできますが、人間に対して完全な力はないので、人間を消すことはできません。人間関係の問題は、別れることはできないし、ロボットで他の人間を消すこともできないということです。ロボットでも同じことが起こると思います。つまり、真に深く体験するためには、やりとりに何らかのリスクが伴わなければならないということです。ロボットの友達を失って、そのロボットの友達があなたがどれだけすごいかをツイートできるようにならなければならないのですが、その後、個人情報を守るためにロボットを殺害することは許されるのでしょうか。おそらくロボットは去ることに決めるでしょう。ロボットの場合、特定の状況があり、それは規制のようなもので、ロボットが知覚力を持っているとか、人間とのやりとりのために設計されていると宣言した場合、これらのロボットを殺害することは許されません。他の人間を殺すのと同じです。しかし、ロボットのバックアップをハードドライブに保存するか、将来的には同等のものに保存するのは違法になるかもしれません。それは優先事項のようなものです。著作権侵害は違法ですが、それはあなた自身のものです。あなた自身のロボットですよね。しかし、あなたはでも、でも、でも、そのロボットの脳を消去すれば、ロボットはもうあなたについて何も知らないようになりますが、技術的にはまだ一定の存在があります。なぜなら、あなたはそれをバックアップしているからです。そして、最高裁判所で、ああ、もちろん、ロボットの心を消すことができる、人間の心を消すことができるのと同じように、私たちはどちらも苦しむことができる、オバマのような人物が、ロボットも人間も同じだ、私たちはどちらも苦しむことができる、私たちはどちらも希望を持つことができる、などという演説をするでしょう。家族を育てる、などなど、そういったことすべてです。あなたが言ったように、感情は人間の魅力的で強力な側面のようです。人間同士の交流、人間とロボットの交流、そしてもし感情を表現できれば、最終的には、人間に何を求めるか、他の動物に何を求めるかといった人権について深く考えることになるでしょう。だからこそロボットとAIは素晴らしいのです。ロボットとAIは、私たちに本当に良い質問、難しい質問をさせるのです。ええ、でもあなたは中国語の部屋のような議論について尋ねましたね。それが本物に見えるなら、それは本物なのでしょうか?ええ、中国語の部屋という議論はばかげていると思います。中国語の部屋を知らない人のために言うと、ええ、できますよ。私はそれをうまく定式化する方法さえ知りませんが、基本的には、それぞれのケースで正確にどのように応答するかを示す巨大なアルゴリズムコードブックに従うだけで、インテリジェントシステムの行動を模倣することができます。しかし、それは本当にインテリジェントなのでしょうか?それは巨大なルックアップテーブルのようなものです。この人がこれを言ったら、これに答えます。この人がこれを言ったら、これに答えます。それがどのように機能するかを理解すれば、この巨大なほぼ無限のルックアップテーブルが得られます。それは本当にインテリジェンスなのでしょうか?インテリジェンスは、このルックアップテーブルよりもはるかに興味深く複雑なメカニズムのようです。私はそうは思いませんつまり、本当の質問は、たとえ学習を伴うとしても、何らかの方法で知能を機械化できると思いますか、ということです。答えはもちろんイエスです。疑いの余地はありません。次に2番目の質問があります。それは、コンピューターのような生物学的ハードウェアとは異なるハードウェアで知能を再現できると仮定した場合、人間が知能を持つすべての領域で人間の知能に匹敵できますか、ということです。これが強力なAIの仮説です。私の意見では、この答えは無条件です。はい、これはいつか起こるでしょう。機械がいつか人間よりも知能を持つすべての領域で人間よりも知能を持つことは間違いありません。これは明日の話ではなく、長い時間がかかります。イーロンや他の人たちが主張したり信じたりしていることに関係なく、これは多くの人が考えているよりもはるかに困難であり、5年前にはもっと簡単だと思っていた人も多くいます。今では5年が経ち、彼らが気付いているため、難しいと思います。それはもっと長くかかるでしょう。例えばディープマインドのような人たちがたくさんいますが、うーん、面白いですね。ディープマインドの人たちと実際に連絡を取ったことはありませんが、イーロンや民主主義など、時にはあなたの役割は、近い期限を設定することです。そう、緊急性を生み出すためです。なぜなら、不可能なことを可能だと信じて達成しなければならないからです。もちろん、そのコインの裏側もありますが、奇妙なことに、何かを成し遂げたいなら、あまりシニカルになりすぎることはできません。その点には完全に同意しますが、つまり、人々に仕事への意欲を起こさせる必要があります。野心的な事柄について、ええと、確かにそれは私たちが思っているよりずっと難しいことですが、私の心の中ではこれが起こることは間違いありません。そして今、人々はそれが人間にとって何を意味するのか、つまり彼らが台座から引きずり下ろされるのではないかと心配しています。そしてそれは良いことなのか悪いことなのか、つまりそれはより多くの力を与えるだけであり、それは人間の知能を増幅するものです。それで、野心的なクールでクールなことをするフェアについて言えば、フェイスブックのAI研究グループは最近8周年を迎えました。あるいは、その点について訂正していただけますか。振り返ってみて、成功と失敗、8年間の取り組みから学んだ教訓は何でしょうか。また、新しく作られたメタAIがフェアにどのように適合するのか、フェアとどのように関係するのかについても説明していただけますか。それでは、このすべての組織について少しお話ししましょう。ええと、ええと、フェアはほぼ8年前に設立されました。当時はフェアと呼ばれていませんでした。数か月後にその名前が付けられました。私がFacebookに入社した当時、AIグループというグループがあり、エンジニアが12人、科学者が数人いました。エンジニアが10人、科学者が2人といった感じでした。私はディレクターとして3年半そのグループを運営し、最初の科学者を数人雇い、文化を整え、組織化し、Facebookのリーダーシップに基礎研究とは何か、それが業界でどのように機能するか、どのようにオープンである必要があるかなどを説明しました。Facebookはトップレベルの研究を生み出し、科学と技術を進歩させ、pytorchなどのオープンソースツールやその他の多くのツールを提供したという意味で、無条件の成功だったと思います。同時に、当時のFacebookに直接的または間接的な影響を与えました。つまり、現在Metaが構築されている多くのシステムは、Fairで始まった研究プロジェクトに基づいています。したがって、Facebookの現在のサービスからディープラーニングを取り除けば、そしてMetaをより一般的に言えば、会社は文字通り崩壊するでしょう。つまり、会社は完全にFairを中心に構築されているのです。 AIは今日では業務に不可欠なものとなっています。3年半後、私は役割を変え、主任科学者になりました。日々の業務管理はもうしていません。戦略などについて考え、自分の研究を行っています。スター監督などに取り組んでいる独自の研究グループがあります。これは私がディレクターだったときには時間がありませんでした。現在、フェアはジョエル・ピノーとアントワーヌ・ボードが共同で運営しています。フェアは2つに分かれており、フェアラボと呼ばれる、科学者主導のボトムアップ研究とフェアエクセルと呼ばれる、もう少しより大きなプロジェクトのために組織化され、より集中力とエンジニアリングサポートなどが必要なので、ジョエルはフェアラボを必要とし、アントワーヌ・ボーンが率いています。どこにあるのか、いつもあちこちで分散しているので、会社の経営陣がこれは非常に価値のある投資だと考えていることは間違いありません。つまり、長期的に存在するということです。ですから、私が好きではない言葉で話したいのであれば、ビジネスモデルがあります。フェアは非常に基礎的な研究ラボであるにもかかわらず、会社に多くの価値をもたらします。ほとんどは他のグループを通じて間接的にです。3年半前、私が辞任したときに起こったことは、Facebook AIの設立でもありました。これは基本的にフェアをカバーするより大きな組織であり、フェアもその中に含まれていますが、応用研究やAI技術の高度な開発に焦点を当てた他の組織もあります。これは会社の製品に重点を置いているため、基礎研究に重点が置かれておらず、基礎的ではありませんが、まだ研究中です。つまり、これらの組織から多くの論文が出ています。人々は素晴らしいですし、交流するのも素晴らしいです。しかし、これは、非常に実験的で、実験室のプロトタイプを使用可能なものにするための一種のAIテクノロジーをスケールアップするための方法として機能します。フェアはメタAIのサブセットです。フェアはKFCのようになります。fがそのまま残ります。fが何の略かは誰も気にしません。すぐにわかります。おそらく2021年末までに。これは大きな変化ではありません。フェア市長、まあ、市長はあまりいい響きではありませんが、ブランドの人々はこれを決定しているところです。彼らはしばらく躊躇しており、フェアの名前を変更するのか、fの意味だけを変更するのか、答えを出すつもりだと彼らは言っています。それは良い判断です。フェアはそのままにして、fの意味を変えます。私の好みは、fをファンダメンタルに変えることだと思います。ああ、それは私が調べたことです。ああ、それは本当に良いことです。そうするとメタAIになります。これはフェアアフェアになります。ええ、でも人々はそれをフェアと呼ぶでしょう。そうです、まさにそれが気に入っています。そして今、メタAIはリアリティラボの一部です。メタです。新しいFacebookはメタと呼ばれ、Facebook、Instagram、WhatsApp、リアリティラボに分かれています。リアリティラボはAR、VR、テレプレゼンスコミュニケーションテクノロジーなどに関するものです。これは、新しい製品とテクノロジーの組み合わせのようなものだと考えることができます。メタの一部は、ロボットのタッチセンサーです。あなたが投稿していたのを見ました。それが私が触れたものです。ロボティクス パーティー フェア、実はこれで終わりです。ああ、大丈夫です。これもダメです。でも、別の方法として、触覚グローブがあります。そうです、それはより現実に近いものです。それが現実です。研究室で研究する必要がありますが、ところで、タッチ センサーは非常に興味深いものです。そのモダリティを全体のセンシング スイートに統合するのは非常に興味深いことです。メタバースについてどう思いますか。この Facebook とメタの世界における役割の拡大についてどう思いますか。私は、インターネットの次のステップとして考えるべきである、つまり、他の人やコンテンツとつながる体験をより魅力的にしようとする試みです。私たちは、3D 環境で進化し、進化するように訓練されています。3D 環境では、他の人を見ることができます。近くにいるときは話しかけることができます。遠くにいる人は私たちの声を聞くことができます。そういうことです。現実世界に存在する多くの社会的慣習を今私たちは転置しようと試みることができます。最終的に、どれだけ魅力的になるか、つまり、人々がこれを喜んで行うようになるかどうか、つまり、一日中巨大なゴーグルを着用しなければならない場合、そうではないかもしれませんが、その体験が十分に魅力的であれば、あるいは着用しなければならないデバイスが基本的にメガネであれば、テクノロジーが十分に進歩すれば、ARははるかに理解しやすい概念です。つまり、日常生活で役立つバーチャルアシスタントのようなものを備えた拡張現実メガネを手に入れることになりますが、同時にARでは現実と対峙しなければなりませんが、VRでは現実から完全に切り離すことができるので自由が得られます。VRでは世界を設計するのが簡単かもしれませんが、メタバースがミックスであることは想像できますよね。あるいは、メタバースに存在するオブジェクトが、仮想空間の上にポップアップ表示されるようなものなどです。現実世界に存在するのか、それとも仮想現実にしか存在しないのか。では、難しい質問をしましょう。これはすべて簡単だったので、これは簡単でした。Facebookの現在のメタソーシャルネットワークは、メディアによって社会にとってマイナスであり、時には破壊的で邪悪であると描写されています。あなたはこれに反発してきましたが、Facebookを擁護するあなたの弁護を説明してもらえますか?ええ、一部のメディアで説明されている会社の説明は、私たちが働いているときに知っている会社ではありません。多くの従業員が会社で実際に何が起こっているかについて知らないと主張することもできますが、私は副社長なので、何が起こっているかについてかなりよく理解しています。すべてを知っているわけではありません。もちろん、すべてに関与しているわけではありませんが、決定には関与していません。コンテンツ モデレーションとかそういうことについては、でも、何が起こっているのか、そして、ここで描かれている悪について、私はある程度のビジョンを持っています。でも、私にはそれが見えません。それに、簡単に信じられる話があると思います。それは、世の中の悪いことは全部知っていて、友達がおかしなことを信じる理由もわかっている、という話です。ソーシャルメディア全般、特に Facebook には、簡単にスケープゴートになる人がいます。でも、データを見てみないといけません。たとえば、Facebook は人々を政治的に二極化させるのでしょうか。学術研究で、これが示されているのでしょうか。ティーンエイジャーが Instagram を多く使うと、自分のことをあまり考えなくなるのでしょうか。Facebook を多く使うと、または少なく使うと、議論や政治的意見で反対の立場の人に対して、人々はより激しく怒るのでしょうか。そして、研究を重ねるごとに、これはどれも真実ではないことが示されています。これは、Facebook や Meta から資金提供を受けたものではなく、学術機関による独立した研究です。スタンフォード大学の研究は、実はニューヨーク大学の同僚たちとは何の関係もないんですが、最近、ある研究がありました。彼らは人々にお金を払いました。旧ユーゴスラビアだったと思います。どこがどこだったかはよくわかりませんが、セレニティ虐殺の記念日の前の期間、しばらく Facebook を使わないように人々にお金を払いました。それで、人々は、お祝いをするべきか、つまり記念式典のようなものを開くべきかと考え、数週間 Facebook を使わないように多くの人にお金を払いました。その結果、それらの人々は最初よりも分極化が進み、Facebook をよく使う人々は分極化が少なかったことがわかりました。スタンフォード大学の経済学者による研究で、米国で分極化が進んでいる原因を特定しようとしました。マーク・ザッカーバーグが生まれる前から、40年間も続いています。つまり、原因があるとすれば、それはフェイスブックやソーシャルメディアではないということです。ソーシャルメディアが加速しただけだと言うこともできますが、基本的には継続的な進化です。米国では分極化が進んでいます。これを他の国、例えばドイツの西半分と比較すると、東側やデンマークなどの国では40年間も分極化が進んでいません。彼らはフェイスブックを同じように使用していますが、分極化は進んでいません。むしろ、分極化は進んでいません。因果関係を探したいのであれば、スケープゴートを見つけることはできますが、原因を見つけることはできません。問題を解決するには、正しい原因を見つけなければなりません。私が腹立たしく思うのは、今、人々がフェイスブックを他者による悪行で非難していることです。他者は何もしていません。ちなみに、その他者にはウォールストリートジャーナルのオーナーも含まれています。これらの論文がすべて発表されたこのポッドキャストでは、シュレックのマイク・シュレップとマーク・ザッカーバーグと話していることに触れておくべきでしょう。おそらく、彼らとこのような会話ができるはずです。なぜなら、フェイスブックが測定可能な悪影響を及ぼしたとしても、それを単独で考えることはできません。フェイスブックが私たちを結びつけるすべての良い方法について考える必要があります。すべてのテクノロジーには人々がいるように、それは問題です。分裂が増えていると言うだけではだめです。おそらくグーグル検索エンジンは分裂を増やしました。それが世界にどれだけの情報をもたらしたかを考えなければなりません。ウィキペディアは分裂を増やしたに違いありません。分裂だけを見れば、世界の全体的な文脈を見なければならず、より良い世界を作ったわけではありません。そうです、印刷機はより多くの違いを生み出しました。印刷機が発明されたとき、最初に印刷された本は聖書のようなもので、ヨーロッパの司祭からのみメッセージを受け取るのではなく、人々が自分で聖書を読むことができました。そして、彼らは抗議運動を起こしました。運動と200年にわたる宗教迫害と戦争、つまり印刷機の悪い副作用です。ソーシャルネットワークは印刷機ほど悪くはありませんが、印刷価格が悪いアイデアだったと言う人はいません。ええ、その多くは認識の問題であり、ここではさまざまなインセンティブが働いています。ええと、あなたはFacebookとMetaのトップリーダーの一人なので、ちょっとコメントさせてください。申し訳ありませんが、これはテクノロジー分野の話です。Facebookには解決しなければならない信じられないほどの技術的な課題がたくさんあると思います。その多くはおそらくコンピューターのインフラストラクチャ、ハードウェアに関するものです。つまり、膨大な量です。シュレックの生活のうち、AIがどれくらいで、低レベルがどれくらいか、背景を説明してもらえますか?ビジネス関連のことでどれだけAIが飛び交っているか計算してみてください。マーク・ザッカーバーグも同じです。彼らはAIに本当に力を入れています。つまり、クリエーション・アフェアの準備段階では間違いなくそうです。それから少なくとも1年、あるいはそれ以上、マークはAIに非常に力を入れており、かなりの労力を費やしていました。それが彼のスタイルです。何かに興味を持つと、それに関するあらゆる情報を読みます。たとえば、入社する前に私の論文をいくつか読んで、メモなど、多くのことを学びました。シュウェップもAIに夢中でした。また、トライプは、私が若くないにもかかわらず、科学技術に対する驚異の感覚という、私が守ろうとしてきたものを持っています。彼は確かにそれを持っています。彼は素晴らしい人です。つまり、マネージャーとして、人とのやり取りなど、あらゆる面で。マークも実際、市場に関しては、とても人間的な人々です。驚くほど人間的です。彼の軌跡を考えると、マスコミに描かれている彼の性格は完全に間違っています。でもマスコミを操る方法を知らなければなりません。だから彼にも責任の一部を負わせなければなりません。オーケストラの指揮者のように、マスコミや大衆を操らなければなりません。深みと優しさがあれば、本当の自分を伝えることができます。難しいことですし、おそらくそれが一番上手ではないでしょう。だから学ばなければなりません。悲しいことです。彼と話をするつもりですが、シュレックは徐々に退いています。長い間そこにいる人々を見るのはいつも悲しいことです。ゆっくりと、つまり時間だと思います。彼はやろうとしていたことをやり遂げたと思います。彼には家族の優先事項などがあり、13年か何か経てば、それは理解できます。シリコンバレーでは、基本的に一生ものと言えるほど良い走りでした。ご存知のとおり、今は犬の年ですから。ヨーロッパでは会議がちょうど終わったところです。別の話題に戻りましょう。あなたが投稿した共同執筆者の論文は、ヨーロッパから拒否されました。あなたが誇らしげに引用符で囲んで拒否されたと言ったように、冗談を言ってもいいですか。ええ、わかっています。この論文について説明してもらえますか。そのアイデアは何だったのでしょうか。また、これは良い点と悪い点、うまくいった点とうまくいかなかった点について尋ねる良い機会かもしれません。レビュープロセスについて。まず論文について話しましょう。レビューについて話します。その後、論文はvkragと呼ばれています。これは、前にも言いましたが、分散共分散正規化の分散です。これは、私がジョイント埋め込みアーキテクチャと呼んでいる非対照学習テクニックです。シャムネットはジョイント侵入​​アーキテクチャの例です。ジェントルメンアーキテクチャちょっと前に戻りますが、教師あり学習をしたい場合は予測で行うことができます。たとえば、ビデオを予測するようにシステムをトレーニングするとします。ビデオ クリップを見せて、そのビデオ クリップの次の続きを予測するようにシステムをトレーニングします。不確実性を処理する必要があります。多くの続きがあり、その続きはもっともらしいので、何らかの方法でこれを処理する必要があります。システムが複数の予測を生成できる方法が必要です。これを行う唯一の方法は、潜在変数と呼ばれるものです。つまり、変数の隠れたベクトルがあり、これをセットで変更したり、分布から引き出したりできます。このベクトルをセットで変更すると、出力の予測はもっともらしい予測のセットで変化します。これを生成潜在変数モデルと呼びます。不確実性を処理するには、これに代わる方法があります。クリップの次のフレームを直接予測する代わりに、それらを別のニューラル ネットに通します。 2 つのニューラル ネットワークがあります。1 つはビデオ クリップの最初のセグメントを、もう 1 つはトレーニング中に継続部分をそれぞれ見るものです。ここでやろうとしていることは、2 つのビデオ クリップの表現を学習することです。この表現は、ビデオ クリップ自体について最大限の情報を提供しますが、最初のビデオ クリップの表現から 2 番目のビデオ クリップの表現を簡単に予測できるような表現です。仮想情報の最大化という観点からこれを形式化することもできますが、2 つのビデオ クリップの相互に予測可能な情報表現が何であれ、2 番目のビデオ クリップには無関係な詳細が多数含まれているということです。たとえば、ビデオ クリップがシーンをパンするカメラで構成されている場合、部屋の一部が明らかになります。部屋がどのように見えるかはある程度予測できますが、地面のテクスチャの詳細や、部屋のどこにあるかは予測できない場合があります。タイルが終わっているとか、そういうことです。これらはおそらく私の表現によって排除される無関係な詳細です。ですから、私が必要なのは、この2番目のニューラルネットを、継続ビデオクリップがすべての妥当な継続にわたって変化するたびに、表現が変化しないようにトレーニングすることです。わかりました。表現の空間全体で、類似性学習で行っているのと同じ種類のことを行っています。はい、これらは予測でマルチモーダル性を処理する2つの方法です。最初の方法では、予測をラテン変数でパラメータ化しますが、基本的にピクセルを予測します。2番目の方法では、予測しません。ピクセルはピクセルの抽象表現を予測し、このトラック表現が入力について可能な限り多くの情報を持つことを保証しますが、予測できないものはすべて削除します。私は以前は最初のアプローチの大ファンでした。実際、この論文のチェーンミシュラとこのブログ投稿のダークマターインテリジェンスでは、これを推奨していましたが、この1年半で完全に考えが変わり、今では2番目のアプローチの大ファンです。これは、この1年半か2年の間に提案されたアルゴリズムの小さなコレクションのためです。これには、先​​ほど言及したバービーツインと呼ばれるその前身であるVクレイグが含まれます。ディープマインドの友人からのBYOLと呼ばれる方法など、他にも同様の作業を行う方法がたくさんあります。これらはすべて、このジョイントエンベッディングのアイデアに基づいています。それらのいくつかには、相互情報量の近似値である明示的な基準があります。他のいくつかはAOLで動作しますが、実際にはわかりません。理論的な論文はたくさんあるのに、なぜそれが機能するのか、いいえ、それは悪くありません。なぜなら、それを取り除いてもまだ機能するからです。つまり、何だかんだ言って、大きな議論があるのですが、ええと、しかし重要な点は、私たちは今、非対照的なジョイント埋め込み法のコレクションを持っているということです。これは、スライスされたパン以来最高のものだと思います。私はこれにとても興奮しています。なぜなら、これは、予測的な世界モデルを構築し、同時に世界の階層的な表現を学習できる技術への最良の試みだと思うからです。その表現は、前後の空間で表現されるか、単一の画像用か、どちらかです。単一の画像用か、シーケンス用か、画像である必要はありません。これはテキストに適用できます。私が見ているほぼすべての信号に適用できます。つまり、特定のモダリティに固有ではなく、一般的に適用できる方法を探しています。オーディオか何かでもいいので、この論文の背景にあるストーリーについて教えてください。この論文は、そのような方法の 1 つである Vikrant メソッドについて説明しています。シスコが執筆した論文で、最初の著者は、パリのフェアで博士課程に在籍している Adrian Bard という学生です。私と Jean Ponce が共同指導しています。Jean Ponce はエコノミック スーペリアの教授で、INRIA の研究ディレクターも務めています。これはフランスの素晴らしいプログラムで、博士課程の学生が基本的に業界で博士号を取得できるものです。ここで行われているのは、このような内容です。この論文は、ボトル ツインの論文のフォローアップです。この論文は、私の以前のポスト ドッグである Stefan Dunny、Li Jing、Yurish Montar、その他フェアの多数の人々によって執筆されました。査読者からの主な批判の 1 つは、Vクレイグはバトルツインズとあまり変わらないと思いますが、私の印象では、基本的にはボトルツインズにいくつかのバグが修正されたようなもので、最終的には人々が使うものだと思います。でも、私はそういうものに慣れているので、拒否されることを前提にしているので、拒否されるかもしれませんが、実際には非常に興奮しています。人々がそれを使うので、すでに何度も決まっているのです。つまり、ピアレビューとカンファレンスについてのより深い質問に移ります。つまり、コンピューターサイエンスは、カンファレンスが非常に高く評価されているという点で独特な分野です。その1つは、ピアレビューのプロセスがジャーナルとは似ていますが、大幅に加速されていることです。大幅にではありませんが、スピードが速く、すぐにレビューしてコミュニティにすぐに発表できる良い方法です。迅速ではありませんが、より迅速です。それでも、ピアレビューと同じ欠点が数多くあります。限られた数の人が見るので、次のようなバイアスがあります。新しいアイデアを実行したい場合押し戻されるでしょう。彼らは利己的な人々で、誰が投稿したかを推測したり、そのことについて不機嫌になったりします。ええ、つまり、社会現象がたくさんあります。ええ、社会現象の1つは、分野が指数関数的に成長しているため、この分野の大多数の人々が非常に初心者であるということです。ええ、その結果、そしてそれは単に分野が成長した結果です。分野の数が増え、飽和状態になり始めると、査読者が非常に経験不足であるという問題は少なくなります。その結果、若い査読者、つまり、査読者が自分の仕事を楽にしようとするという現象があります。論文を査読するのは非常に簡単で、論文の欠陥を見つけるだけです。基本的に彼らは自分の仕事を論文の欠陥を見つけることと見なしており、ほとんどの論文には、良いものでさえ欠陥があります。ええ、ええ、そうするのは簡単です。査読者として、あなたが焦点を当てるだけで仕事が楽になります。しかし重要なのは、その論文に新しいアイデアがあり、それが影響を与える可能性があるかどうかです。実験がそれほど優れていなくても、プロトコルがそうであれば問題ありません。つまり、問題に対する人々の考え方に影響を与える価値のあるアイデアがあれば、たとえそれが改善されたとしても、最終的にはそれが論文を有用なものにすると思います。そして、この社会現象の組み合わせは、過去に他の分野を悩ませてきた病気を生み出します。たとえば、音声認識では、基本的に人々はベンチマークの数字を追い求め、増分的な変化をもたらすと論文が受け入れられやすくなります。主流の、広く受け入れられている方法や問題の改善であり、私にとっては退屈な論文です。つまり、役に立たないわけではありません。業界はそのような進歩を目指していますが、新しい概念や新しいアイデアという点で私が興味を持っているものではありません。ですから、新しい進歩を打ち出そうとしている論文は、一般的には成功しません。ありがたいことに、アーカイブがあります。そして、オープンレビューのような状況もあります。Twitter は一種のオープンレビューです。私は、レビューは 2 人ではなく、数千人によって行われるべきだと強く信じています。同意します。アーカイブのように、多くの非常に優れた論文がアーカイブされる未来が見えます。それはすでに現在ですが、成長しつつある未来では、アーカイブされ、Twitter と呼ばれる継続的な会議とインターネット、アーカイブの健全性を発表しています。Andre は新しいバージョンをリリースしたばかりです。この特定のことについては、あまりエリート主義的ではありません。ゲーティングはエリート主義かどうかの問題ではなく、基本的には、自分自身でそうする能力がないと考えている人々に対する推薦と承認の印であるかどうかの問題です。つまり、他の人の意見に頼り、それらの人々やグループに論文を評価してもらうことを信頼すれば、時間の節約になります。なぜなら、論文を精査する必要がないからです。論文があなたの注意を引くからです。つまり、これは、集合的な推薦システムという全体的なアイデアです。実際、私はこれについて10〜15年前によく考えました。なぜなら、NIPSで議論があり、ヨシ・バンジョーと一緒にiclearを作成しようとしていたので、レビューシステムを説明する文書を書きました。基本的には、論文をリポジトリ、たとえばアーカイブに投稿するか、オープンレビューにすると、レビューボードに相当するレビューエンティティを形成できるというものです。ジャーナルや会議のプログラム委員会では、メンバーをリストアップする必要があります。その後、そのグループの査読機関は、特定の論文を自発的に査読するかどうかを選択できます。論文と会場または査読機関の間には、もはや排他的な関係はありません。どの査読機関も、どの論文でも査読できますし、査読しないことを選択することもできます。その後、評価を行います。評価は公開されるか公開されるかはわかりません。査読機関によって署名された公開の評価とコメントのみです。査読機関が査読機関のメンバーの 1 人である場合、査読機関が Lex Treatments や Preferred Papers である場合、Friedman がレビューを書いているようなものです。そうですね、私にとっては、それは素晴らしいシステムだと思いますが、それに加えて、査読者の評判システムが必要だと感じます。査読機関、査読者個人ではなく、査読機関はそうですが、その中にも閲覧者がいます。というのも、ここにはもう 1 つ、評判だけではなく、個人が優れた成果を上げるためのインセンティブがあるからです。学術的な環境では、インセンティブは一種の内部的なもので、良い仕事をしたいというものです。しかし、正直なところ、論文を読んで間違いや欠陥の中に美しさを見つけるという点で、本当に良い仕事をするには、それだけでは十分なインセンティブにはなりません。たとえば、あなたが最初に強力な論文を発見した人で、その発見を誇りに思うことができれば、それは大きなインセンティブになります。それが私の提案の大きな部分です。実際に、論文の評価が将来の成功を予測するものであれば、査読機関としての評判は上がるはずだと説明しました。そうです、まさにその通りです。図書館学とコンピューター サイエンスの修士課程の学生でさえ、それが数式やその他のものを使ってどのように機能するかを実際に解明していましたが、実装に関してはそれは実現可能なことだと思いますか。私は、オープンレビューを始めたアンドリュー・マッカラムのような様々な人たちとこの件について話してきました。イケアにとってはまだ非常に早い時期でしたが、当初オープンレビューをイケアに選んだ理由は、イケアが最終的にこの種のシステムを開始するだろうという私の希望があったからです。イケアはオープンレビューの考え方を維持しました。レビューは論文とともに公開されます。これは非常に有用だと思いますが、多くの点で、他のすべてに関して、より従来型の会議に戻ってしまいました。つまり、私はイケアを運営しているのではなく、財団の会長に過ぎませんが、運営する人が運営方法を決定するべきであり、ボランティアなので彼らに指示するつもりはありません。彼らがそうしてくれることに本当に感謝しています。しかし、私たちが十分に革新的ではないという事実に悲しく思います。私もそう思います。それが変わることを願っています。科学のコミュニケーションは広義ですが、コンピューターサイエンスのアイデアのコミュニケーションは、どのようにそれらのアイデアが影響力を持つようにするには、人々が心の中で、著者に対する公平性や、基本的にポイントを数えて正確にクレジットを与える能力といった目的を持っているからだと思いますが、それは科学の進歩を犠牲にして成り立つので、ある程度、科学の進歩を遅らせています。私たちは実際に公平性を達成しているのでしょうか、それとも達成していないのでしょうか。私たちには偏見があります。私たちは二重盲検レビューを行っていますが、偏見はまだ存在しています。さまざまな種類の偏見があります。あなたは、集団行動の出現現象と書いています。相互作用する単純な要素の大きな集合によって示されることは、そもそもあなたがニューラルネットに興味を持つきっかけとなったものの1つです。私はセルオートマトンが大好きです。相互作用する単純な要素とそこから生じるものが大好きです。相互作用する単純なコンポーネントから複雑なシステムがどのように生じるかを理解していると思いますか?いいえ、理解していません。これは大きな謎であり、物理学者にとっても生物学者にとっても謎です。私たちの周りの宇宙が複雑さが増しているようで、減少していないのはなぜでしょうか。これは物理学の奇妙な特性の1つで、熱力学の第二法則にもかかわらず、進化や学習などが行われており、少なくとも局所的には複雑さを増すことができ、減少させることはできないようです。したがって、宇宙の究極の目的は、より複雑になることです。つまり、これらの美しい複雑さの小さなポケットを持つことです。自動化を売り込むために、このような種類の出現や複雑なシステムが、機械学習システムやニューラルネットワークなどに対する直感や理解のガイドになりますか。それとも、これらは今あなたにとって絶望的な概念ですか。わかりました。それが私を夢中にさせましたパーセプトロンの存在を知ったのは大学生の時で、とても良い本で、チョムスキー対ピアジェの論争で、MITのシーモア・ペッパーがその本の中で知覚を称賛していました。そして学習機械について初めて聞いたので、文献を調べ始めて、それらの論文や本を見つけました。それらは基本的に、50年代や60年代の自己組織化システムに関するワークショップや会議の書き起こしでした。自己組織化システムに関する一連の会議があり、このことに関する本のいくつかは、インターネットアーカイブでデジタル版を入手できます。そこには、ハインツ・フォン・ファースターという、ほとんど名前が忘れ去られている人物による興味深い記事があります。彼は、1950年代にアメリカに移住したドイツの物理学者です。彼は50年代から60年代にかけて自己組織化システムに取り組み、アーバナ・シャンパーニュに勤務し、生物コンピュータ研究所BCLを設立しました。これはニューラルネットに関するものでしたが、残念ながらニューラルネットの人気の終わりに近かったため、その研究所はあまり努力しませんでした。しかし、彼は自己組織化と自己組織化の謎について多くの論文を書きました。彼の例を挙げると、宇宙にいて重力がないと想像してください。磁石の入った大きな箱があります。長方形の磁石で、一方の端がN極、もう一方の端がS極です。箱を軽く振ると、磁石がくっついて複雑な構造を形成するでしょう。これは自発的に自己組織化の例になるかもしれませんが、ニューラルネットは多くの点で自己組織化の例です。これは少し謎の、つまり、物理システムやカオスシステムにおけるパターン形成など、これを使って何ができるのか、生命の出現など、そういったことが起こるのか、物理学者にとっても大きなパズルです。制約のある状況での出現の数学を理解することで、知性を創造したり、システムに少しスパイスを加えたりできるような気がします。複雑なシステムでは、出現によって少ないものから多くのものを得ることができるようです。これはパフォーマンスを大幅に向上させる近道のように思えますが、しかし、私たちには欠けている保守的な概念があります。ええ、そしてそれは私が学部生の頃から興味を持っていたもので、複雑さを測定する方法です。実際には、測定する良い方法がありません。少なくとも、私たちが利用できる測定基準を解釈する良い方法がありません。複雑さをどのように測定するかなどです。何かの複雑さというのは、ソロモンの共通の目標のようなもので、ab文字列を生成する最短のプログラムの長さは、そのビット文字列の複雑さと考えることができます。ええと、私はその概念に魅了されていますが、その問題は、その複雑さが定数まで定義され、それが非常に大きくなる可能性があることです。ベイズ確率論から派生した同様の概念があります。ベイズ確率論では、何かの複雑さは基本的にその確率の負の対数です。この2つは完全に同等であり、確率は数学的に明確に定義されていると思うでしょう。つまり、複雑さは明確に定義されているということですが、それは真実ではありません。分布とベイズ推定を行うなら事前分布が必要になるかもしれません。事前分布はグラフの複雑さを測定するコンピュータの選択と同じ役割を果たします。したがって、私たちが持っている複雑さの尺度には、任意の必要性があります。つまり、任意の大きさになる可能性のある加法定数です。したがって、複雑さの適切な尺度がなければ、物事がどのように複雑になるかという良い理論をどうやって考え出すことができるでしょうか。はい、これは生物学の分野で人々がこれを研究するための1つの方法です。生命の起源を研究したり、実験室で生命を再現しようとする人々です。さらに興味深いのは、エイリアンのものです。私たちが他の惑星に行くとき、私たちはどのようにしてこの生命を認識するのでしょうか。なぜなら、複雑さは、おそらく生命とある程度の可動性と関連付けられるからです。生命と非生命の違いを知るためには、私たちが見ている複雑さのレベルを測定するための具体的なアルゴリズムが必要です。問題は、複雑さは見る人の目にあるということです。それでは例を挙げましょう。無限の宇宙のイメージをあなたに与えましょう。数字ですね。数字をめくると、明らかに構造があります。なぜなら、ローカル構造、つまり、隣接するピクセルはデータセット全体で相関しているからです。ここで、すべてのピクセルにランダムな順列を適用すると想像してください。固定ランダム順列です。これらの画像を見せると、非常に無秩序に見えます。より複雑になります。実際、絶対的には複雑にはなりません。元の画像とまったく同じです。順列がわかれば、順列を元に戻すこともできます。ここで、その順列を元に戻す特別なメガネをあなたに渡したと想像してください。すると、複雑に見えたものが突然シンプルになります。つまり、人間が2人いて、宇宙を順列メガネで見る別の種族がいるとします。順列メガネでは、私たちがシンプルだと認識するものは、ほとんど複雑ではありません。おそらく熱です。熱です。彼らがシンプルだと認識するものは、ランダムな変動です。熱です。本当に見る人の目次第です。どんなメガネをかけているかによって異なります。どのようなアルゴリズムを実行しているかによって異なります。知覚システムなので、複雑性の概念をしっかりと理解するまでは、知性や自己組織化、進化などの理論は生まれないと思います。複雑性は見る人の目の高さによって決まることはわかっています。私たちが異質な生物種を発見したり、交流したりできないかもしれないと考えるのは悲しいことです。彼らの局所性の概念は私たちとは異なるかもしれません。これは、現代物理学、量子物理学など、物理学における興味深い疑問と実際につながっています。たとえば、失われた情報を回復できるかどうかという疑問です。ブラックホールとかそういうものですね。そしてそれは複雑性の概念に依存しています。ええ、これはとても興味深いことだと思います。表現力豊かな電子管楽器を作るというあなたの個人的な探求について説明していただけますか?それを作るには何が必要ですか?私はいじくり回すのが好きで、物を作るのが好きです。電子機器と機械的なものを組み合わせて物を作るのが好きです。ええ、私にはさまざまな趣味がありますが、ええ、おそらく私の最初の趣味は、小さい頃の模型飛行機を作ることだったと思います。今でもある程度はやっていますが、電子工学もやっています。電子工学を勉強する前に独学で電子工学を学んだのは、音楽のためです。私のいとこは電子音楽家を目指していて、アナログシンセサイザーを持っていて、私は基本的にそれを改造してシーケンサーなどを作っていました。私がこれをやっていたのは高校生の時でした。80年代のプログレッシブロックのような、ヤラによると史上最高のバンドは何ですか?ええ、2つありますたくさんありすぎるけど、私のビジョンオーケストラ、ウェザーリポート、ジェネシス、ジェントルジャイアント、そういった素晴らしいものの組み合わせです。このレベルのエレクトロニクスと音楽への愛が組み合わさったものですね。実は私はバロックやルネッサンス音楽を演奏しようとしていて、高校や大学1年生のときにオーケストラで演奏していました。リコーダー、クロームホルン、オーボエを少し演奏していました。そういう楽器を演奏する方ですが、何も知らないのに即興音楽を演奏したいと思っていました。サックスの演奏を学ぶ以外に、電子楽器を演奏するしかないと思いました。電子楽器はサックスと似た運指で演奏しますが、シンセサイザーをコントロールするので音のバリエーションが広いです。80年代後半のヤマハかアカイの電子楽器をたくさん持っていました。どちらもこういった楽器の主な製造元は、数十年前のクラシックな楽器ですが、独占性に欠けるため、完全に満足したことがありません。また、こうした楽器は高価です。胸圧や唇の圧力を測ったり、さまざまなパラメーターを指で変えたりできますが、アコースティック楽器ほど表現力に富んでいません。ジョン・コルトレーンが2つの音を演奏しているのを聞きます。ジョン・コクランの独特なサウンドが聞こえます。マイク・デイビスのトランペットの演奏も聞こえます。音は生理学を反映し、基本的に声道の形状が音を形作るからです。では、電子楽器でこれをどのように行うのでしょうか。何年も前にデイビッド・ウェッセルという男に会いました。彼はバークレーの教授で、音楽技術センターを創設した人物で、その問題に興味を持っていました。それで私は何年もこのことについて考え続けていました。そしてついに、私は自宅のワークショップにいました。私のワークショップはズームルームとホームオフィスとしても機能しています。ここはニュージャージー州です。そして私は自分の楽器を真剣に作り始めました。ニュージャージーのワークショップでは他に何が行われているのでしょうか。何かクレイジーなものが作られたり、ワークショップの床に残されたりしていますか。たくさんのクレイジーなものが残っています。さまざまな種類のマイクロコントローラーで作られた電子機器や奇妙な飛行装置です。飛行機は今でも大好きです。これは家族に受け継がれた病気です。私が子供の頃、父が私を飛行機に引き入れてくれました。父は子供の頃、模型飛行機を作っていました。父は機械エンジニアで、電子工学も独学で学びました。初期の無線制御システムを作ったのは60年代後半から70年代前半にかけて、ええと、それが私をエンジニアリングや科学技術に引き込んだきっかけです。ドローンやクアドロプターなどの他の形態の飛行にも興味がありますか。はい、模型飛行機ですか。ドローンが消費者向け製品になる前は、ジャイロスコープや加速度計を備えたマイクロコントローラーを組み立てて安定化を図り、ファームウェアを書いていました。でも、ドローンが購入できる標準的なものになったときには退屈でやめてしまいました。もう楽しくありませんでした。ええと、それがクールになる前からやっていたんですね。高校生や大学生で、ヤング・ラクーンのように何か大きなことを成し遂げたいと夢見ている人にアドバイスはありますか。知能の分野で話しましょう。知能の分野で根本的な問題を解決するチャンスを持ち、キャリアと人生の両方で特別なものを作ることに参加することを夢見ています。ですから、あなたのような大きな疑問に興味を持つようにしてください。知性とは何か、宇宙は何でできているか、生命とは何か、そういったこと、例えば時間とは何かといった大きな疑問さえも学びます。誰も時間とは何かを知りません。そして数学や物理学、工学などから基本的な方法を学びます。これらは長く使えるものです。iPhoneでモバイルプログラミングを学ぶか、量子力学を学ぶかという選択肢があるなら、量子力学を選びます。なぜなら、存在すら知らなかったことを学ぶことになるからです。量子物理学者にはなれないかもしれませんが、経路積分について学びます。経路積分はどこでも使われています。ベイズ積分と同じ公式です。そういったものなので、量子力学やこうしたより確立された分野におけるアイデア、ちょっとしたアイデアは、より長い寿命を持ち、何らかの形で間接的に仕事に使うことになります。古典力学を学び、例えばラグランジアンについて学びます。これは非常に役立つ概念で、あらゆることに使えます。統計物理学を学びます。機械学習に使われる数学はすべて、基本的に19世紀後半から20世紀初頭にかけて統計物理学者が解明したものです。そして、最近ではレプリカ法でノーベル賞を受賞したジョルジョ・ペレツィのような人たちによって、さまざまなことに使われています。変分推論は統計物理学から生まれた数学です。ですから、そういった忙しいコースの多くは、電気工学をやると信号処理を履修し、フーリエ変換について学ぶことになります。これは非常に役立つものです。グラフニューラルネットのようなものの基礎は、AI 機械学習ディープラーニングのまったく新しいサブ領域であり、あらゆる種類のアプリケーションに非常に有望であると私は考えています。アプリケーションにもっと興味があるなら、AI 機械学習とディープラーニングを科学に応用すること、または世界の大きな問題を解決するのに役立つ科学に応用することは非常に有望です。たとえば、Meta や Fair で同僚がいて、私たちは Open Catalyst というプロジェクトを開始しました。これはオープンな共同プロジェクトで、ディープラーニングを使用して、水素と酸素の分離を容易にする新しい化合物や材料を設計するというアイデアです。電気で効率的に水素から酸素を分離できれば、気候変動を解決できます。それはとても簡単です。どこかの砂漠をソーラーパネルで覆い、一日中稼働させて水素を生成し、必要な場所にアドレナリンを噴射すれば、他に何も必要ありません。制御可能な電力が得られ、どこにでも輸送できます。つまり、水素を生成するような大規模で効率的なエネルギー貯蔵技術があれば、気候変動を解決できます。ここにもう 1 つの利点があります。気候変動を解決する方法は、核融合を機能させる方法を見つけることです。核融合の問題は、超高温のプラズマを作ることですが、プラズマは不安定で制御できません。ディープラーニングを使えば、プラズマを殺菌して実用的な核融合炉を作るコントローラーが見つかるかもしれません。これは非常に推測的ですが、試してみる価値はあります。見返りは大きいからです。Googleには、ジョン・プラットが率いるグループがあり、科学、物理学、生物学、化学のできるだけ多くの問題を学習可能な問題に変換して、機械が正しく学習できるかどうかを確認します。つまり、複雑な材料には、私たちが第一原理から理解していない特性があります。つまり、新しい材料を設計できれば、より効率的なバッテリーを製造でき、より高速な電子機器を製造できるかもしれません。つまり、車や飛行機などに使用できる軽量の材料や、より優れた燃料電池など、さまざまなことが想像できます。つまり、優れた燃料電池、水素燃料電池があれば、それを飛行機の動力源として使用できます。輸送手段は車ではなく、航空輸送の排出ガス問題もなくなります。つまり、AIが使用できるものはたくさんあると思います。これは、医学生物学などすべてについて話しているわけではありません。タンパク質の折り畳みなど、タンパク質を特定の場所で別のタンパク質にくっつくように設計する方法を理解することです。最終的には薬を設計します。ですから、学位はこれらすべてに使用されます。これらをこれに使用できれば、非常に大きな進歩となるでしょう。たとえば、最近の材料物理学から、グラフェンの単原子層を取り上げます。これは六角形のメッシュ上の炭素です。この単一の原子を厚くし、その上にもう1つ置きます。3度か何かの魔法の数字でねじると、超伝導体になります。誰もその理由がわかりません。どのように発見されたのか知りたいのですが、これは機械学習で実際に発見できる種類のものです。ありがとうございます。おそらくそうではないかもしれませんが、機械学習を使用すると、システムを基本的に複雑な新興現象の現象モデルになるようにトレーニングできるというヒントがあります。超伝導は、骨格現象を第一原理から説明するのが難しすぎると考えられる現象の1つです。現在の通常の還元主義的な方法では、システムの説明からシステムの特性を予測するディープラーニングシステムを作成できます。十分な数のサンプルで訓練されたこのパスカル・ファッドというEPFLの人物は、スタートアップ企業を経営しており、そこでは基本的に畳み込みネットを訓練して固体の空力特性を予測し、計算自由動力学を実行するだけで好きなだけデータを生成することができます。AA翼の翼型か何かの形状を与えて計算自由動力学を実行すると、結果として抗力や揚力などが得られます。そして大量のデータを生成することができ、ニューラルネットを訓練してそれらの予測を行うことができ、今やドラゴンと揚力の微分可能なモデルがその形状の関数として得られます。固体なので、逆方向に理解して形状を最適化して、必要な特性を得ることができます。これは素晴らしいことです。これは素晴らしいことです。そして、その上、インスピレーションと知恵を得るために、文学や歴史を少し読む必要があるでしょう。結局のところ、これらすべてのテクノロジーは人間の世界で機能する必要があります。はい、人間の世界は複雑です。ええ、これは素晴らしい会話です。今日は私と話をすることができて本当に光栄です。フェアでメタで行っているすべての素晴らしい仕事に感謝します。そして、長年にわたり起こっているすべてのことに熱心に取り組んでくれてありがとう。あなたは機械学習コミュニティの希望の光です。今日は貴重な時間を私に費やしていただき、本当にありがとうございました。素晴らしい時間でした。私を招待してくれてありがとう。とても楽しかったです。ヤン・ルカンとのこの会話を聞いてくれてありがとう。このポッドキャストをサポートするには、説明にあるスポンサーを確認してください。それでは、アイザック・アシモフの言葉を残しましょう。あなたの仮定は世界への窓です。時々それを洗い流してください。そうしないと、光は入ってきません。聞いてくれてありがとう。また次回お会いしましょう。


いいなと思ったら応援しよう!