ヨシュア・ベンジオ - 高次認知のための認知に触発された帰納的バイアス
21,000 文字
今日はね、うちのグループでやってる研究のいくつかについてお話ししたいと思うんやけど。次の段階のディープラーニングを見据えて、高次認知に関わる重要で欠けてる部分を取り入れようとしてるんや。
さて、これからスライドに移るけど、機械学習の根本的な問題にも触れるで。一見、認知とは関係ないように思えるかもしれんけど、実はめっちゃ関係あるんや。それは分布外への一般化の問題や。つまり、訓練セットの分布を超えて一般化する問題やね。
訓練セットは経験的な分布やけど、通常は未知の分布からサンプリングされてるんや。普通、機械学習では同じ分布からのテストサンプルへの一般化に焦点を当てるけど、現実世界では違うんや。世界は変化するし、ある国でデータを集めて別の国で展開することもあるしな。
こういった非定常性や転移の問題があって、現在の学習理論ではうまく対処できへんのや。これを考える一つの方法として、システマティックな一般化の問題があるんやけど、これは人間ができることで、言語学でよく研究されてきたんや。
でも、画像にあるように視覚構造にも当てはまるんや。下の乗り物を見ても、知ってる乗り物を元に意味を理解できるやろ。初めて見る、ありえへんような乗り物やとしてもな。
システマティックの考え方は、既存の概念を動的に、つまりその場で、経験したり新しいことを考えたりする中で組み合わせられるってことや。訓練分布に対応せえへんような組み合わせでもな。
例えばSFのシナリオを読むとき、実際に起こりそうにないことかもしれへん。光速より速く移動するとか、そんな仮定をすることもあるやろ。でも、そのシナリオや小説、映画なんかは理解できるんや。人間はこういうのがめっちゃ得意なんや。
全く新しい街で運転することもできるし、交通ルールが違うとこでもな。適応が必要かもしれんけど、後で説明するけど、慣れた街での運転とは脳の働き方が違うんやろうな。でも、できるんや。
一方で、現在のディープラーニングや最先端の機械学習は、そこまでうまくいってへんことを示す研究がいくつかあるんや。訓練分布へのオーバーフィッティングの概念があるんや。
通常、機械学習ではトレーニングセットへのオーバーフィッティングを考えるけど、ここ数年の研究者は、トレーニングセットにオーバーフィッティングしてへんかもしれんけど、トレーニング分布にオーバーフィッティングしてる可能性があるって考えてるんや。つまり、同じ分布からのテストサンプルには上手く一般化できるけど、何か根本的なものは同じやけど違う分布には上手くいかへんってことや。
じゃあ、どうすればええんやろ?だって、任意の他の分布に一般化できるかって聞かれたら、もちろんできへんよな。トレーニングした分布と全然違う可能性もあるしな。だから、追加の仮定が必要になるんや。
いつもの独立同分布(IID)の仮定を外れる場合、どんな追加の仮定、つまりIIDの仮定を置き換える弱い仮定が必要になるんやろか?
今日の話のいくつかのポイントは、まず人間はどうしてるんやろか?ってことや。機械よりずっと上手くやってるみたいやからな。それと、根本的に何が変わって、何が分布の変化を超えて同じなんやろか?ってことも考えていきたいんや。
これについて面白い視点の一つが知識やね。物理法則みたいに、どこに行っても変わらへん知識の側面があるんや。別の惑星に行っても同じ法則やろ。
古典的な考え方では、事実とルールがあったよな。ルールは定常的なもので、事実は変数の値や出来事みたいなもんや。これらの分布は大きく異なる可能性があるんや。
じゃあ、人間が新しいとか珍しい状況に直面したときどうするんやろか?意識的な注意を呼び起こして、想像力を使って新しい解決策を考え出すんや。過去には必要なかったかもしれへんけど、新しい文脈では正しいかもしれへん組み合わせで、持ってる知識の断片を使って推論するんやな。
心理学者たちは、慣れ親しんだ行動、例えば地元での運転と、全く違う環境での運転の仕方の違いを本当に区別してきたんや。
例えば、右側通行の国で運転してて、突然左側通行の国で運転せなあかんくなったとするやろ。この二つの場合で、認知の仕方がめっちゃ違うのが分かるはずや。
慣れたルートなら、他のことをしながらでもできるよな。道路にそんなに注意を払わんでもええ。まあ、何か起こる可能性があるから注意せなあかんけどな。でも実際のところ、ラジオ聞いたり誰かと話したりしながら運転する人もおるやろ。
でも、反対側を走る初めての街で運転するなら、ラジオなんか聞きたくないし、誰かに話しかけられたくもないはずや。
この注意の問題以上に、触れられてる知識の種類や行われてる計算の種類が違うみたいなんや。
これはダニエル・カーネマンらが言うシステム1とシステム2、つまり無意識の計算と意識的な計算の類似性があるんや。
無意識の計算は直感的で、めっちゃ複雑かもしれへんけど、すごく速く起こって、どうやって起こったかの詳細にはアクセスできへんのや。猫を認識する知識は直感的で、うまく説明できへんやろ。運転の仕方の知識も暗黙的やしな。
現在のディープラーニングの多くはこんな感じで、こういう問題をかなりうまく解決できるんや。でも、他の問題、人間が順を追って考えるような問題ではそれほどうまくいかへんのや。
人間の思考には、一度に扱う実体がごく少数で、言語化できるんや。計画を立てたり、推論したりできる。そして、操作されてる知識は伝達可能みたいなんや。つまり、明示的なんや。
ディープラーニングにもこういうことを含めたいんや。システマティックな一般化に役立つかもしれへんと思うからや。既存の概念を再結合する能力を促進することで、全く新しい状況に対処できるようになるかもしれへんのや。
注意も言うたように重要な要素やな。古典的なニューラルネットには、そんなものはないんやけど、2014年から2015年にかけて、いくつかの要素に特に強く焦点を当てたいタスクがあることが分かってきたんや。他の要素を無視するわけやないけど、少数の要素にずっと強い焦点があるんや。
例えば機械翻訳なら、ソース文の1、2単語に本当に特別な注意を払いたいんや。ターゲット、つまり出力文でほぼ逐語訳される単語やな。もちろん文脈も必要やけど、そこまで強い役割を果たさへんのや。
人間がするように、推論したり情報を順次処理したりするために、一度に少数の要素に焦点を当てる能力は、以前はうまくできへんかったんや。いくつか試みはあったけど、2015年の論文が本当のターニングポイントやったんや。
これが機械翻訳のパフォーマンスにおける最初の革命につながって、その後、トランスフォーマーの出現によってNLP全般で革命が起きたんや。これについては知ってるやろ。
本質的に、この方式を複数のステージに一般化したもので、ニューラルネットが何をしてるのかを再考することもできたんや。従来のMLPのようにベクトルだけを操作するんやなくて、キーバリューペアとして構造化されたセットを操作するんや。キーは、どの要素に焦点を当てるかを決めるのに使われて、値は次の計算を行うために注意が引き出す内容なんや。
もちろん、注意は人間がすることで、意識とは密接に関係してるけど違うもんや。既に意識的な処理と無意識的な処理について話したけど、神経科学と認知科学における主要な意識理論を見るのはええことやな。
最も認知度が高く、おそらくこの分野を支配してる理論の一つが、グローバルワークスペース理論、あるいはニューラルワークスペース理論や。80年代と90年代に提案されて、最近スタン・デハーンのような神経科学者によって拡張されたんや。
その中心的な主張の一つは、少し内省すれば経験できるんやけど、意識的な処理にはボトルネックがあるってことや。本質的に、作業記憶には限界があって、一度に数個のことしか心に留められへんのや。「7プラスマイナス2」の法則ってやつやな。
なんでこんなボトルネックがあるんやろか?脳には膨大なハードウェアがあるのに。もちろん、全てのニューロンを他の全てのニューロンに接続することはできへんけど、それ以上のもんがあるんや。脳の配線の可能性が示唆するよりもずっと制約が強いんや。
ワイの理論では、これは高レベルの変数に対する結合分布に何かを強制してるんや。意識的に操作される高レベルの変数やな。これが一般化に最も役立つ少量の情報を買う、最も一般的な帰納的バイアスやと主張したいんや。
意識はもちろん思考とも関係してるし、言語とも関係してる。普通、思考を言語に翻訳したり、その逆をしたりするからな。完全に一対一の対応ではないけど、かなり強い、ほぼ一対一のマッピングやな。
とはいえ、言語は氷山の一角やで。一方にシステム1の直感的なシステムがあって、もう一方に言語化できるレベルで推論するっていう、そんな単純な二分法やないんや。二つは密接に絡み合ってて、互いに助け合ってるんや。
特に、知覚のほとんどはシステム1のレベル、つまり直感的なレベルで処理されるんや。だからこそ、ディープラーニングで知覚がうまくいってるんやけどな。
でも、うちのグループで追求してる仮説の一つは、システム1もシステム2、つまり推論部分の仕事を助けてるってことや。そうでないと、指数関数的な数の可能性を探索するのが高すぎてできへんやろ。
だから、将来的には言語を理解するシステムの成功が増えると思うんや。テキストだけやなくて、いわゆるグラウンデッド言語学習の方法で訓練された場合、つまり言語的な表現とそれが指し示すものを結びつける方法やな。言葉が世界のものを指し示すように、例えば画像で知覚できるものとかな。
高いレベルで言うと、ワイが問うてる問題は、ディープラーニングの目的を押し進めるもんやと見なせるんや。2000年代初頭に、ワイや他の人たちが考えたディープラーニングの目的は、表現の階層を学習することやった。高レベルの表現がデータの最も抽象的な側面を捉えるんやな。
そうすると、次の疑問が生まれるわな。最上位レベルのこれらの表現は何なんや?何を表すべきなんや?今日提案したい答えの一つは、因果的な解釈を持つってことや。後でまた話すけどな。
高レベルの概念を発見するだけやなく、どう関係してるかも理解したいんや。10年以上も間違った方向に行ってると思う「分離」の概念とは違って、これらの高レベル変数は統計的に独立であるべきやないと思うんや。実際、どう関係してるかを理解するのがめっちゃ重要で、おそらく因果モデルを通じてやな。
つまり、やろうとしてるのは、システム1の部分を共同で学習することや。その中には、画像のような低レベルのものを、言語で名付けられるような高レベルの概念に変換することも含まれるんやけど、これらの高レベルの概念がどう関係してるかも学習したいんや。
過去数年の理論的な研究から分かった重要な教訓の一つは、追加の仮定を加えへんとこれはできへんってことや。つまり、識別可能性の問題があるんやな。低レベルの観察と一致する高レベルの表現が多数あり得るんや。
だからどれを選ぶべきか分からへんし、実際には違いが出るんや。因果関係の理論の多くが言うてるのは、一つの因果的な理解を選ぶか、別のを選ぶかで、高レベルでの介入、つまり行動の結果を異なって予測することになるかもしれへんってことや。
これはめっちゃ重要やで。なぜなら、これが全く新しい設定での一般化能力を決定するからや。後で説明するわ。
まず高いレベルで、因果関係と物理学的な直感にこだわって、この非常に単純な物理学に触発された概念を投げかけたいんや。IID仮定を超えるために、その仮定を弱めて、保存されるもの、不変なものがあるって言うんや。どんな環境にあってもな。これらが因果メカニズム、つまり物理法則みたいなもんや。
確率的かもしれへんけどな。世界は何らかの確率的な動的システムに従ってて、世界がどう機能するかを理解したいんや。
でも気をつけなあかんのは、世界がどう機能するかを理解することは、データの分布がどうあるべきかを教えてくれへんってことや。初期条件に依存するかもしれへんからな。
例えば、同じ物理法則が地球で見られる多様な画像を生み出すけど、月で見られる全く異なる種類の画像分布も生み出すんや。同じ物理法則やけど、初期条件が違うだけやな。
これは、ある環境から次の環境へ変化するものと変化せえへんものの境界を引こうとする有用な方法やと思うんや。そして、これは機械学習で普通使うIID仮定より強力や。つまり、より広範な問題のセットに拡張できるんや。
じゃあ、因果関係についてもっと話そか。分布外への一般化を達成するシステムを構築するのにどう役立つかについてな。
そのために、介入の概念について話さなあかんな。介入の考え方は面白くて、因果関係の理論のほぼ哲学的な側面やな。
考え方はこうや。画像にあるように、デフォルトの因果の流れがあるかもしれへんけど、エージェントが何かをする、つまり介入って呼ぶものをすることで、その流れを壊すことができるんや。
例えば、ボールが落ちてて床に落ちるはずやったけど、ワイがキャッチしたとするやろ。あるいは、テーブルの上にあるグラスがそのまま立ってるはずやったけど、ワイが押して床に落ちたかもしれへん。
こういう介入は、因果メカニズムの一種の方向転換やと見なせるんや。なんで分布外への一般化に役立つかっていうと、トレーニングデータを生み出した介入の種類が、別の環境で起こり得る介入の種類と違う可能性があるからや。
ワイの地球対月の例みたいなもんやな。でも、両方の環境で共有されてる根本的なメカニズムを発見できれば、分布外への一般化の本当にええチャンスがあるんや。
ここで必要なのは、良い世界モデルやな。世界モデルは、強化学習のモデルベース強化学習みたいに考えられるんや。介入や
エージェントの行動の効果を予測できるものやな。
さて、IID仮定以外の追加の仮定が必要やってことと、人間の認知との関連について話を戻したいんや。
覚えてるやろか、このボトルネックについて話したよな。そのボトルネック制約が、このボトルネックを通じて操作される変数、つまり高レベルの変数の結合分布に何かを強制してるんやないかって言うたんや。
ワイが主張したいのは、疎な依存関係を強制してるってことや。これは高レベルの変数と言語化可能な知識に対してのみ当てはまる特定の仮定の形かもしれへんけど、必ずしも全てのことに当てはまるわけやないんや。
例えば、この疎な依存関係の仮定は、知覚処理の低レベルでは意味をなさへんかもしれへん。実際、そうやないって確信してるんや。
ワイがやろうとしてきたことの一つは、これらの仮定を明確にすることや。人間が世界について利用してるかもしれへんことについての科学的理論と考えられるな。
完全に正しい世界についての仮定やないかもしれへんけど、人間が成功裏に利用してる仮定やな。人間と同じような、あるいは少なくとも人間と同じくらい優れた知能を持つ知的な機械を作るなら、おそらくこれらの事前分布、つまり帰納的バイアスを利用したいんや。
じゃあ、いくつか見ていこか。
まず一つ目は、既に話したやつや。これらの抽象的な変数間の統計的依存関係が疎であるという考え方や。疎ってどういう意味かっていうと、一つの変数、例えばボールの次の位置について、非常に少数の他の変数から予測できるってことや。
ボールの直前の位置と、ワイがそれを落としたという事実だけからな。
言語でもこれが見られるんや。「ワイがボールを落としたら、床に落ちる」みたいな文を書くやろ。変数がいくつあるか注目してな。数え方にもよるけど、3つか4つくらい、つまり数個やな。100万やないんや。
でも、ピクセルレベルでは、この小さな動画に100万のピクセルが関わってるかもしれへんのや。
言いたいのは、抽象的な結果が非常に少数の条件付き抽象的変数から正確に予測できるという、この疎な依存関係の制約は、この抽象的なレベルでしか機能せえへんってことや。低レベルでは機能せえへんのや。
つまり、これらの帰納的バイアスは全てに当てはまる必要はないんや。うまく機能する世界の側面のセットがあって、ある意味で、それが何が高レベルで何が低レベルかの自己定義になるんやな。
他にどんな仮定があるんやろか。既に言うたけど、これらの高レベルの変数は因果関係と関係があると思うんや。
自然言語を見てみると、各単語はある種の因果的な物語の中で役割を果たしてるんや。原因、結果、エージェント、行動、介入、操作モード(どのように、いつ、関係してるかとか)の役割を果たす変数があるんや。全てがこんな感じやないけど、意味内容の大部分はこの図式に合ってるみたいやな。
言語は、純粋に統計的な図式では少し奇妙に見えるようなこともできるんや。想像力で行うことがそうやな。人々が反事実的と呼ぶもんや。
つまり、まだ起こってへんこと、あるいは決して起こらへんかもしれんこと、起こり得たけど起こらへんかったことを想像できるんや。
こういうのは因果関係の言語では自然やけど、他の方法で考えるのは必ずしも明白やないな。
もう一つめっちゃ重要な仮定があって、これも物理学を考えると理解できるんやけど、これらの因果関係、因果メカニズムって呼んでるもんやけど、因果関係と対比して因果メカニズムって呼んでるのは、同じタイプの関係、同じメカニズムを多くのインスタンスで使えるからなんや。
ワイはボールを落とせるけど、携帯電話も落とせるんや。ボールを落とす方がええけどな。でも、できるんや。
これは機械学習で重要な概念で、パラメータ共有ってやつや。落とすメカニズムを定義するニューラルネットの同じ部分を、どんな種類のオブジェクトにも適用できるんや。
その場で適用するオブジェクトを決めるために注意のメカニズムが必要かもしれへんけど、5分後には別のセットの引数に適用するかもしれへんな。
これがシステマティック化を可能にするんや。動詞と目的語と主語みたいなもんやな。ここで目的語を置き換えられるんや。「ゾグを落としたら、床に落ちただろう」みたいな感じや。
ゾグが何かは知らへんけど、文脈から目的語をこの単語に置き換えたら、ゾグについて多くのことを推論できるんや。手に持てるくらい小さいものやし、落としたら落ちるくらいの質量があるってことやな。
だからこそ、メカニズムの再利用性によってこのシステマティック化が得られるんや。
もう一つの仮定、うちのグループが最近始めたばかりのもので、古典的なAIの人たちが長い間注目してきたことやけど、これらの高レベルの概念は、必ずしも常にじゃないけど、しばしば離散的あるいは象徴的な性質を持つってことやな。
もちろん言語でもそれが見られるけど、言語でも離散的じゃないものがあるんや。韻律みたいなもんやな。ゆっくり話したり、声に何か特別なものを込めたりすると、連続的なスペクトルで情報を伝えられるんや。
でも、離散性はたくさんあるんや。最近の論文で探求した仮説の一つは、この離散性は離散化と考えられるってことや。低レベルの処理は連続的やからな。現在のディープラーニングみたいにな。
でも、ある時点で離散化があるんや。例えば、グローバルワークスペース理論で見られる脳のモジュール間のコミュニケーションでな。
非常に少ない変数がそのボトルネックを通過するだけやないんや。これらの変数はほとんど離散化されてるんや。
ワイらの仮説では、これもシステマティック化の一形態を助けるんや。離散化すると、異なる脳モジュールが同じ言語で話すのが簡単になるんや。
そして、ある意味で交換可能になるんや。例えば、文の中で名詞を別のものに置き換えられるんや。脳の異なる部分が異なる種類の名詞を扱ってるかもしれへんけど、離散化することで、名詞であるという属性を共有できるんや。
これは属性の一つやけど、このグローバルなコミュニケーションを容易にし、言語で見られるこの種のシステマティック化を可能にするんや。
もう一つの仮定、もう一つの帰納的バイアスは、介入の性質についてや。
また、介入を抽象的な行動と考えられるな。低レベルの行動、特定の筋肉を制御するようなものと対照的にな。高レベルの行動は、言語で簡単に名付けられるものや。何かを落とすとかな。
そして、介入に関係する動詞のほとんどは、典型的に単一のオブジェクトに喜んで適用できることに気づくやろ。
これは、因果関係をめぐる理論でも見られる仮定で、典型的な介入はそうなんや。もちろん、少し一般化できるけどな。でも、典型的な介入は単一のオブジェクトに焦点を当てるんや。
電話を落とすってのはここにある一つのものやな。もちろん、他の多くのものに結果をもたらす可能性はあるけど。洪水の門を開くみたいなもんやな。
これは、これらの高レベルの表現をどう学習するかについても、異なる見方をもたらすんや。
ディープラーニングや、ディープラーニングの表現学習の部分で行われてる多くの作業は、純粋に知覚に焦点を当ててるんや。低レベルのピクセルからこれらの高レベルの抽象的なオブジェクトへのマッピングを学習しようとしてるんや。最近のコンピュータビジョンではこのテーマに関する研究がたくさんあるな。
でも、強化学習のグループがいて、彼らはオプションと呼ばれるこれらの高レベルの抽象的な行動を学習しようとしてるんや。まるで二つの別々の世界で、お互いに話し合ってへんみたいやけど、実際には密接に結びついてるはずなんや。
なぜなら、抽象的な行動は通常、単一のオブジェクトを対象にしてるからや。もしかしたら、そのグラスを正確に押すことには成功せえへんかもしれへん。他のものに触れて、他のものが落ちるかもしれへん。でも、意図は多くの場合、一つのものをコントロールすることやな。
だから、両方を同時に学習すべきなんや。抽象的な行動と抽象的なオブジェクト、抽象的な出来事や実体を共同で学習すべきなんや。
つまり、静的なデータから学習すべきやないってことや。学習者が行動でき、その行動の効果を見れる環境から学習すべきなんや。そして、行動空間とオブジェクト空間を自然な方法で結びつけられるようにな。
さて、うちのグループやその他の人たちの論文をいくつか紹介していくで。時間の関係で早めに進めるけど、気にせんでええで。後でスライドを共有するから、ゆっくり見たかったら後で論文を掘り下げられるからな。
まず紹介したい論文は、ICLR 2020の「A Meta Transfer Objective for Learning to Disentangle Causal Mechanisms」や。これは非常に単純なシナリオで、AがBの原因なのか、BがAの原因なのかを学習するだけやねんけど、学習者が事前に知らへん場合に、どういう原則でこういう質問に答えられるかを見つけようとしてるんや。
考え方はこうや。正しい因果モデルと正しい抽象的な表現があれば、介入による分布の変化への適応が容易になるんや。なぜなら、モデルの変更を一つの小さな部分に局所化できるからや。
例を挙げるわ。サングラスをかけた赤ちゃんの例や。サングラスをかけると、ピクセルレベルで全てが変わるんや。分布が完全に異なるんや。
もしこのレベルの表現で再学習せなあかんかったら、ひどいことになるやろ。視覚システム全体を再調整するのに時間がかかりすぎるんや。
でも幸いなことに、この高レベルの表現があるんや。そこでは、サングラスをかけたかどうかという二値変数を学習してるかもしれへん。
そして、その1ビットが変化の説明になるんや。だから、そんなに多くのことを変える必要はないんや。このビットをすぐに発見して、その値をすぐに推論できるんや。
このように高レベルで作業できれば、分布の変化への適応がずっと容易になるんや。そして、これを使って何が良い表現なのか、そしてこれらの原因変数がどう関係してるのか、AがBの原因なのか、BがAの原因なのかを明らかにできるんや。
これがこの論文の内容やな。
そして、KanとBrouillardによる他のいくつかの論文がこれらのアイデアを拡張してるんや。2つの変数だけやなく、任意の因果グラフに適用できるようにしてるんや。
詳細には立ち入らへんけど、より大きな因果グラフがある場合の課題は、可能なグラフの数が、A=BかB=Aか、それ以外かの2つか3つやなく、グラフのサイズに対して指数関数的になることやな。
じゃあ、それをどうやって発見するんやろか?指数関数的な空間をどうやって探索するんやろか?
ワイらのアプローチは、これらの因果グラフ全体に対する信念を、各エッジを個別に見ることでパラメータ化することや。つまり、この変数がこの変数の直接の因果的親である確率はどれくらいかってことやな。
そして、これらの信念パラメータの勾配の推定量を考え出したんや。これが、ワイらがやったことや。そして、因果発見の既存の方法を上回る結果が出たんや。
この研究は続いてて、より最近の論文では、学習者が意図的に探索できる場合、つまり介入を決定できる場合、この因果発見の勾配がずっと効率的になることを示したんや。
前の研究では、学習者は介入による分布の変化を受動的に見てるだけやったんやけど、子供が遊ぶように、学習者が次に何を試すか、その結果がどうなるかを選べるとしたらどうやろか?
これで完全に状況が変わって、学習がずっと効率的になるんや。オレンジ色の線が青い線よりもずっと速く、より良い結果に収束してるのが分かるやろ。青い線の終わりは見えへんけど、非常に遅くなるはずやな。
グローバルワークスペース理論からの仮説についても研究してきたんや。この理論では、知識は脳の小さなモジュールに対応する部分に分割されてるって言うてるんや。
これらのモジュールは互いに競争してるんや。グローバルワークスペースに入れるものを競い合ったり、入力を説明するために競争したりしてるんや。
この研究の最初の論文は「Recurrent Independent Mechanisms」ってタイトルで、今年のICLRで発表されたんやけど、実際にはこれを2年前に書いたんや。
この主題のもう一つのバリエーションが現在査読中やけど、これらのモジュール間のコミュニケーションを明示的に、ワークスペースのような一種のセットメモリを通じて強制してるんや。
これは、注意を使う多くの現代的なディープラーニングアーキテクチャで人気のある概念やな。これが分布外への一般化にかなり役立つんや。
ワイらはこれをトランスフォーマーを含む多くのアーキテクチャに適用してきたんや。例えば、トランスフォーマーでは、各段階が次の段階と完全に自由に通信する代わりに、前の段階の要素の一部だけがそのボトルネックを通過することを強制してるんや。
これが共有ワークスペースやな。もちろん、前の段階から何に注意を払うかを選ぶ注意メカニズムを学習するんや。
最近提出したもう一つの論文も同じような方向性を持ってるんやけど、注意の問題に焦点を当ててるんや。注意は単にどの要素に焦点を当てるかだけやなく、どのメカニズム、どのルール、どの定常的な知識の断片を適用するかってことにも関わるんや。
この論文を「Neural Production Systems」って呼んでるんやけど、これは古いAIの生成システムにめっちゃ触発されてるんや。ただし、全てがニューラルネットと注意機構になってるけどな。
でも、計算が一連のステージを通じて行われるっていう味わいがあるんや。各ステージは、注意によって選択されたルールの適用やねんけど、ワークメモリから選択された引数にそのルールを適用する一種の二重の注意もあるんや。そして、そのルールがワークメモリに入れるためのより多くのものを生成するんや。
離散値のニューラル通信についても言及したけど、これも最近提出した論文で、arXivで見つけられるはずや。
これも、ニューラルネットで離散化をどうやるかは明白やないんや。バックプロパゲーションを通す必要があるからな。人々が考え出したさまざまな方式があって、ワイらはうまく機能するいくつかの方式を示してるんや。
さて、そろそろ終わりに近づいてきたな。これからやろうとしてることや、まだ構築中のことについて少し話そうと思うんやけど。
人間がする推論を見てみると、本当に信じられへんようなことがあるんや。特に、古典的なAIが推論を想像する方法とは全然違うんや。
推論や象徴的なシステムについての古典的な考え方は、探索に基づいてるんや。定理を証明しようとするなら、適用できる既存の定理がたくさんあって、問題の解決策を計画するあらゆる方法のグラフを形成するんや。
一般的に計画立案や推論はこんな感じやな。同じもんやけどな。
計画立案や推論の問題は、考慮できることが指数関数的にあることや。でも、AlphaGoみたいなシステムで何が起こってるか考えてみてな。ニューラルネットを訓練して、その探索を切り詰めて、一発で良い候補を提案するんや。
自分の心や想像力について考えてみると、これとよく似た感じで進んでるみたいやな。少なくともワイはそうやな。ワイはどうか知らへんけど、ワイの場合、解決策や少なくとも問題の候補解決策が心に浮かぶんや。
探索するとき、つまり問題について考えるとき、解決策がポンと浮かぶんや。時には機能せえへんし、何も浮かばへんこともあるけど、浮かぶんや。ワイの研究の仕方はこんな感じやな。
この想像力のマシンは本質的にシステム1なんや。中を覗くことはできへんけど、解決策が出てくるんや。これはええことやと思うんやけど、そう思う理由は分からへん。
もちろん、それについて推論することはできるんや。小さな部分に分解して、定理を証明するためのアイデアが筋が通ってるかを確認できるんや。これはより通常のシステム2の一貫性チェック能力に近いな。
でも、これらの候補はどこから来るんやろか?解決策を提案する生成モデルから来るんや。
現在の注意の仕方を、その方向への小さな一歩と考えることができるな。選択を行うことについてやからな。
でも、組み合わせ的な選択のセットをどうやって作るんやろか?多くのルールがあって、それらを組み合わせて、それぞれの引数を選んで、どうやってそれらを互いに接続して問題の解決策や計画を立てるんやろか?
ワイが想像してるのは、動的に構築されるグラフのようなもんや。これが問題を解決するための候補案になるんや。過去に起こり得たことを想像する反事実的なものかもしれへんしな。
こういうことを最近やろうとしてるんや。
最後に、ワイが概説しようとしてきた計画が、古典的な象徴的AIプログラムや、ハイブリッドシステムの多くの提案とどう違うかをはっきりさせたいんや。
ハイブリッドシステムっていうのは、低レベルのディープラーニングみたいなシステムがあって、その出力を離散化して、それからすべて古典的なAIになるみたいなもんや。
ワイはこの図式が機能するとは思わへんのや。いくつか理由があるんやけど、まず古典的なAIの、いわゆるルールベースの単純な操作アプローチとの違いを見てみよう。
これらのシステムには、現代のディープラーニング、つまり機械学習ベースのアプローチが回避を可能にした問題があるんや。ワイらはこれらの現在のディープラーニングの利点を維持したいんや。
効率的な大規模学習、システム1での意味的な接地、知覚や低レベルの行動のような暗黙的な知識、エンティティの表現(シンボルとしてやなく、ベクトルとして、学習された複数の属性を持つ分散表現として)、これらは一般化にめっちゃ強力やからな。
言語モデリングでさえ、全てシンボルのはずなのに、この表現の側面が古典的な、統計的な自然言語処理手法と現代の自然言語の機械学習との間の大きな違いを生み出してるんや。
それから、探索問題についてワイが指摘したポイントもあるな。完全な探索、網羅的な探索はうまくいかへんのや。良い解決策を提案することを学習せなあかんのや。それはシステム1から来るんや。
つまり、良い説明や良い計画を推論することを何らかの形で学習する、これらの生成的なディープネットから来るんや。
最後に、古典的な考え方に確率を組み込むのはちょっと難しかったんや。マルコフ論理ネットワークのようなもので行われてきたけどな。でも、現代の機械学習ではこれがずっと便利になってるんや。
ただ、古典的なAIの特徴で、人間の思考と共通するものも取り入れたいんや。システマティック化、知識を小さな交換可能な部分に分解すること、これらの高レベルの変数を操作できることなんかやな。
変数(これらのルールの引数)とインスタンス(実際のオブジェクト)の違いを理解することも大事や。プログラムでは、関数を定義するときに引数は変数やけど、その後、メモリ内の実際のオブジェクトでこれらの引数をインスタンス化するんや。
これが参照と相互作用の概念をもたらすんや。これらは古典的なプログラミングではどこにでもあるけど、現代の機械学習とニューラルネットの分野にも取り入れる必要があるんや。
ワイはこれが完全に実現可能やと思うし、それを目指してるんや。
以上や。質問に答えるのを楽しみにしてるで。
(質疑応答セッション)
ありがとうございます。この刺激的な、そして聴衆の皆さんも同意してくれると思うんやけど、非常に考えさせられる講演をしていただきました。
最初の質問は、最も多くの投票を集めた、ちょっと物議を醸すようなもんやな。「報酬は十分である」というビットコイン論文の声明について、一般化を達成するためのあなたの意見はどうですか?これについてコメントはありますか?
ああ、そうやな。その声明には賛成もあれば反対もあるんや。説明させてな。
もちろん、ある規模、進化的な規模で見れば、報酬は十分やな。進化的な適応度、つまり生存と繁殖みたいなもんや。少なくとも動物界、生物界ではな。
そういう意味では、全てはそこから派生してるんや。ワイらの知性やその他全てがそこから来てるんや。
でも、AIを構築するのに10億年も待ちたくないんや。そういう意味で「報酬は十分」という声明に同意せえへんのや。十分やないんや。
ワイは、賢くなって、何十億年もの進化をバイパスする必要があると思うんや。人間から着想を得て、どんな種類のトリックやヒューリスティック、帰納的バイアス、事前分布(好きな言葉を選んでな)を投入できるかを考えるべきやと思うんや。
これらは自然が進化を通じて構築してきたものやけど、人間と同じくらい上手くやれる機械を素早く構築できるようにするんや。
そういう意味で同意せえへんし、この究極の報酬だけに注目すべきやないと思うんや。
報酬の世界でも、どんな報酬やねん?適応度という究極の報酬はあるけど、実際には人々がRLを使う方法は報酬を設計することやな。それはエンジニアリングや。そこにもたくさんの事前知識があるんや。
じゃあ、どんな事前知識を入れたいんやろか?これはめっちゃ面白い質問やな。
90年代、ワイは機械学習のタブラ・ラサ(白紙)的な見方の大きな支持者やったんやけど、もちろんその後、ノーフリーランチ定理が出てきて、完全にタブラ・ラサな機械学習なんてないって言うてるんや。何らかの仮定を投入せなあかんのや。
じゃあ、ワイらはどうすべきなんやろか?ワイはこう考えてるんや。ワイらが欲しいのは、最も一般的な帰納的バイアスや。つまり、ワイらが気にする問題、人間が解決する問題に対して、一般化において最も多くを買える非常に少ないビットの情報やな。
ゼロやないけど、イプシロンやな。でも、任意のイプシロンやないんや。人間が住む宇宙の種類に関係するものやな。少なくとも、それが知的システムの最初のターゲットやからな。それは良いターゲットやと思うんや。
ありがとうございます。二番目に重要な質問は、赤ちゃんが因果関係について実験を通じて学ぶという研究があるんやけど、この過程における動機付けの役割と、その背後にある潜在的な帰納的バイアスについて、あなたの考えを教えてください。
ああ、ワイはアリソン・ゴプニクの研究や、発達科学や認知科学で同様の目標を追求してる他の人たちの研究が大好きなんや。
実際、ワイの発表で話したことには、おそらく純粋に受動的な方法では世界がどう機能するかを発見できへんっていうメッセージも含まれてたんや。
もしできたとしても、本当にたくさんのデータが必要になるやろな。人間が生み出すよりもずっと多くのデータがな。
だから、GPT-3は十分やないと思うんや。世界と相互作用せえへんからな。もちろん、データが増えてモデルが大きくなるにつれて常に良くなるやろうけど、人間レベルの理解には近づかへんと思うんや。
ワイが言及したいくつかの実験では、学習者が介入することを許された場合、つまり子供が何で遊ぶか、どこを探索するかを選ぶように、学習者が能動的に選択できる場合、知識獲得がずっと効率的になることが分かったんや。
低次元の空間では問題ないかもしれへん。ランダム探索でもできるかもしれへんな。でも、物理学のいくつかの微妙な法則をランダムな実験を通じて発見することを考えてみてな。うまくいかへんやろ。
実験を計画せなあかんのや。それが現代の科学がやってることやな。生物学や物理学、化学なんかでな。運任せで、ただあっちこっち動き回って粒子を発見するなんてことはできへんのや。
だから、実験はめっちゃ重要なんや。
で、動機付けについてやけど、これは内部報酬の内在化なんや。情報をもたらすことができるものを探索したいという欲求をワイらに与えるんや。
これが唯一の報酬やないけど、めっちゃ強力な報酬の一つやな。子供や科学者の多くの行動を駆り立てるものやな。
だから、人間にとって動機付けは重要なんや。機械ではあまり考えてこなかったけど、教師なし強化学習の研究は似たようなことをしようとしてると思うんや。
帰納的バイアスは必要になるやろな。そういう報酬が必要だっていう考えを超えて、それがどう構造化されてるか、ワイらが何を求めてるのか、知識をどう構造化するかなんかについてな。
ありがとうございます。それはとても興味深いですね。聴衆の皆さんで興味のある方は、赤ちゃんがどのように学ぶかについての素晴らしいドキュメンタリーシリーズがNetflixにありますよ。おすすめです。
次の質問は、科学者や研究者であることについてもう少し詳しく聞きたいんやけど。この分野を始める学生に対して、迅速な出版、最先端の結果の達成、大量の計算資源の使用など、典型的なプレッシャーを避けながら、成功した学術キャリアを積むためのアドバイスはありますか?
ああ、難しい問題やな。ミラのような、かなり資金が豊富で、多くの面で学術界に有利な環境でさえ、学生たちが大きなプレッシャーを受けてるのを見るんや。
面白いことに、ワイが大学院生やった頃や、90年代のワイの学生たちを見ても、そんな質問は感じへんかったんや。何かが変わったんやな。
社会全体で何かが変わったんやと思うんや。周りを見てみ。人々はもっとストレスを感じて、もっと長時間働いてるんや。ちょっと狂ってるな。
特に機械学習でこんなに変わったのは、おそらく機械学習が産業界で展開されるようになって、博士課程でどれだけうまくやるかによって、はるかに多くの収入を得られるようになったからやと思うんや。
ワイの時代は、自分の分野で仕事を見つけられるだけでラッキーやったんや。こんな変なアカデミックなことをやってな。
じゃあ、これにどう対処すればええんやろか。ワイは、みんながこの議論に参加せなあかんと思うんや。魔法のような答えはないけど、問題があることを認識して、それが科学の進歩に反してること、あらゆるレベルの研究者のメンタルヘルスに反してることを認識することが大切やと思うんや。
若い教授たちも同じやな。テニュアを取るために、めちゃくちゃなプレッシャーを受けてるんや。
「発表せよ、さもなくば滅びよ」っていう考え方は、科学にとってめっちゃ悪いんや。近道を取ったり、再現性のないことをしたり、間違ったことをしたり、微増的な仕事に時間を無駄にしたりするからな。
博士課程の期間は、最も深い思考ができる時期やってことを言えるんや。一つのことに集中することになってるからな。
教授になると、もしなれたらやけど、10個の異なることを並行して作業することになるかもしれへんし、教授としては、少なくともワイがやってる研究のスタイルではな、同じくらい深く掘り下げるのは難しくなるんや。それだけ集中できへんからな。
だから、それを守る必要があるんや。貴重なんや。
同時に、論文を発表すべきやないって言うてるわけやないんや。後々問題になるし、論文は論文のためにも必要やからな。
でも、ワイの学生たちや他の人たちを見てると、10本もの論文を書いて卒業してるのを見るんや。それ以上のこともあるな。なんやねん。
論文はそんなに多く必要やないんや。論文2、3本あれば十分や。でも、良いものにせなあかんな。
でも、ワイがこういうこと言うのは簡単やな。そういう競争のプレッシャーの下で生きてると、抵抗するのは難しいんや。
でも、抵抗すれば役立つって言えるんや。抵抗すれば、より独創的なアイデアを出せる人たちの中にいられるんや。より慎重に考え抜かれたアイデアを出せるんや。最終的にはより変革的になる可能性があるんや。
それが、他の人たちと区別されるものになるかもしれへんな。
ごめんな、長くなってもうた。
ありがとうございます。聴衆の皆さんにとって、これらはとても有用なアドバイスになると思います。
次の質問は神経科学に関するものですが、おそらくあと2つくらい質問する時間があると思います。
意識を研究している人々は何に焦点を当てるべきだと思いますか?神経科学者たちのどのような研究路線に最も興奮していて、彼らは何をうまくやっていると思いますか?
まず第一に、神経科学者たちは全ての科学の中で最初に意識を研究する勇気を持った科学者たちやな。そのことに対して報われるべきやと思うんや。重要やと思うからな。
意識の研究は、生命という概念や生命科学に類似した段階的な転換期にあると感じてるんや。
数世紀前、生命という概念は、ほとんど神秘的で宗教的な謎に包まれてたんや。生きてるものには特別なもの、魂みたいなものがあるんやないかって考えられてたんや。
でも、徐々に化学者や生物学者が生物学の背後にあるメカニズムを解明していって、理解が深まるにつれて謎が解けていったんや。以前のように考える必要がなくなったんや。
ワイは、意識も今はちょっとこんな感じやと思うんや。まだあまりにも理解が浅いから、魔法みたいに感じるんや。特に主観的な側面があるからな。
でも、過去20年から30年の間に神経科学や認知科学で行われてきたことを研究すると、状況が変わってきてるんや。今では正当な研究対象になってるし、重要な研究対象にもなってるんや。
少なくともワイの考えでは、意識の研究はAIの今後の進歩の鍵になるからめっちゃ重要なんや。哲学や人文・社会科学にとっても鍵になるんや。ワイらが誰であるか、人間であるとはどういうことかに関わるからな。
でも、機能的な理由でも重要なんや。意識はただそこにあるわけやないんや。進化がワイらに意識を与えたのは、問題をより良く解決するのに役立つからやな。少なくともワイが選んだ視点ではそうや。
これらのメカニズムをより良く理解できれば...さて、質問に直接答えるとしたら、AIの人たちと協力することをお勧めするな。人間の意識を説明できる理論を、機械学習のシミュレーションを実行することで実験できる人たちと協力するんや。
そういう理論が何かを買えるかどうか、つまりより良い一般化をもたらすかどうかを検証するんや。
それがワイの提案や。ワイの方でも、神経科学者や哲学者とつながって、この大きな問題に一緒に取り組んでるんや。
それは非常に興味深そうですね。では、次の質問を見てみましょう。
ああ、これは...質問はこうです。「いわゆる古き良き時代のAIのアイディアの中で、あなたのお気に入りは何ですか?そして、その中で特に、ディープラーニングの分野に取り入れるべきだと思うものはありますか?」
ああ、それがワイの講演の大きなテーマやったんやな。どんなアイディアかって?最後の方にスライドがあったと思うんやけど。
知識を再結合可能な部分に分解すること、これやな。事実とルールのことを考えてみ。まさにそれやねん。良い知識表現というのは、知識を交換可能な部分に分解するだけやなくて、もし部分の一つが間違ってたら、コード全体を書き直す必要がないようにすることなんや。
コードを書くとき、そうしようとするやろ。コードの部分部分がお互いにできるだけ独立するように設計しようとするんや。つまり、どうやってるかを変えたり、意味を変えたりしても、他の部分とどうつながってるかを変えるだけで済むようにな。
でも、大まかに言えば、独立するように因数分解しようとするんや。これは実は、因果関係の考え方からの
アイディアで、より最近のものなんや。この概念を情報理論の観点から数学的に形式化しようとしてるんや。
これが一つの側面や。知識表現についてやな。でも、全てに当てはまるとは言ってへんで。高レベルの知識、ワイらが言語化したり推論したりするような種類の知識に当てはまるって言ってるんや。
だから、視覚システムやコンボリューションをこれでやり直そうとしたらあかんで。高レベルの知識を操作する問題、計画立案、因果レベルでの推論なんかの問題を解決しようとしてるんや。
二つ目は...間接参照やな。変数と値の概念、引数とインスタンスの概念なんかやな。これはプログラミングにもあるし、古典的なAIだけのものやないんやけど、古典的なAIはこれをうまく利用してきたんや。
再帰もあるし、同じコードや知識の断片を何度も何度も、新しい方法で組み合わせて再利用できるんや。
古典的なニューラルネットにはこれがないんや。古典的なニューラルネットを考えてみ。固定された関数があって、最初の層が次の固定された関数と合成されて、それがまた次の層の固定された関数と合成されるんや。
でも今や、注意機構を使って、古典的なAIで見られるようなことに近づき始めてるんや。「どの関数を最初に適用するか選んで、次にどれを適用するか」みたいな感じやな。
ワイらはもっとできると思うんや。例えば、再利用可能な部分を持つ概念、これらのルールは再利用可能な部分みたいなもんやけど、シンボリックなルールの代わりにMLPかもしれへん。パラメータ化された小さな部分で、学習するものやけど、引数を持つという概念があるんや。
そして、その場でこのコードの部分、この関数、このメカニズムを何に適用するか決めて、そういう質問に答えるみたいな感じやな。
だから、古典的なAIからこういう重要な概念をたくさん取り入れられると思うんやけど、古いコードを取って、そのままニューラルネットの上に乗っけられると思ったらあかんで。それはゴミ箱に捨てた方がええな。
それは興奮しますね。聴衆の皆さんにとっても、追求する価値のあるアイディアがたくさんありそうです。この分野はまだあまり探求されていないように思えますね。
じゃあ、最後の質問にしましょうか。
これはいくつかの解釈ができそうですね。人々には複数の認知バイアスがあります。合理的なものもあれば、明らかにそうでないものもあります。例えば、8.99ドルの方が9ドルより安いと感じるようなものですね。でも、これらは全て進化的なプレッシャーから来ているので、存在する理由があるんです。
では、ディープモデルは人間のようにショートカットを学ぶべきでしょうか?それともこれはバグだと考えるべきでしょうか?
ああ、ええ質問やな。ワイはこの質問を、ニューラルネット研究と神経科学の関係から来る類似の質問を使って答えようと思うんや。
神経科学の多くは記述的なんや。これを観察しました、こういうタイプのニューロンがこんな風にコミュニケーションしてます、こんな化学物質がありますって感じやな。
なぜそうなのかについてやなくて、観察したこと、どうなってるかについてなんや。同様に、認知科学者たちは人間の帰納的バイアスを観察してるんや。
定義上、多くの帰納的バイアスは、ある文脈では適切なんや。進化がそれらを生み出した文脈ではな。でも、他の文脈では失敗するんや。これが帰納的バイアスの定義やねんな。
適切な文脈では正しいことをさせるけど、通常はこれらが進化によって生まれてきた文脈やな。でも、それ以外では愚かなことをする可能性があるんや。
なんでこんなこと言うてるかっていうと、まず、良いものと悪いものがあるわけやないんや。異なる文脈で適切なものがあるだけやな。
例えば、ワイらは社会的環境と物理的環境で異なる進化をしてきたかもしれへんし、例えば、全く意味のないストレスを感じたりするんや。前の質問に戻るけどな。
コンピュータサイエンスの観点から、AIの観点から、これらの帰納的バイアスのそれぞれについて理論が必要なんや。なぜそれが有用なのか、少なくともそれに対する説明、理論を考え出せれば、ワイらが構築したい機械に入れるべきかどうかを判断できるんや。つまり、合理的に考えられるんや。
神経科学に話を戻すと、ディープラーニングやニューラルネットにとっての間違いは、「ニューロンでこの現象が見られるから、そのまま組み込んでうまくいくことを期待しよう」って考えることやと思うんや。
試してみて、機械学習の実験で実験的に見てみることはできるやろうけどな。ワイがやってきたことの一部、例えば整流器、つまりReLUはそうやって生まれたんや。
「この神経科学者たちが変な非線形性を使ってるな。MLPでも試してみようか」って思って、「おっ、めっちゃうまくいくやん。これでネットを訓練できるわ」みたいな感じやったんや。
まだ説明はできてへんけどな。これが反例やな。
もっと良いのは、何をしてるのか理解することや。そうせえへと、認知科学でも、もっと悪いのは神経科学でも、たくさんの細かい部分があって、それらを組み合わせてうまくいくことを期待するのは難しいからな。
ワイには、これを説明するちょっとした話があるんや。これはジェフ・ヒントンの話なんやけど。
宇宙人がいて、高い所から地球を観察してるとするやろ。たくさんの存在が地球中を動き回ってて、支配的な種がいるように見えるんや。実際には車なんや。人間は車の周りにいる小さなものに過ぎへんのや。
まず、大きなものの方が重要やと思い込んでるから解釈を間違えてるんや。そして、宇宙人はこう考えるかもしれへん。「これらの車がどう機能するか理解するために、モデルの車を作ろう」ってな。
彼らが持ってる写真を元に、シートの革とか色や形を再現しようとするんやけど、エンジンは隠れてるから分からへんのや。でも、エンジンがなければ、キーを回しても絶対に動かへんよな。
言いたいのは、何をしてるのか理解せえへと、おそらく無駄になるってことや。