見出し画像

人工海馬を作ることはできるか?

7,808 文字

ほな、みなさん、こんにちは。今日はな、人間の長年の夢やった「考える機械」についてお話しするわ。でもな、「考える」言うんがどういう意味やねんて話やねん。
知能の特徴の一つに、知識を一般化して新しい状況に柔軟に適用する能力があるんやけど、この一般化ってのが、今の機械学習の重要な問題の一つなんや。
せやから今回のビデオではな、記憶と空間認識に関わる脳の構造である海馬の生物学的な組織を参考にして、抽象化や一般化を学習できる計算モデルを作る方法について見ていくで。そして、このモデルから得られる洞察を、私たちの脳と人工知能の分野の両方について考えていくんや。
始める前に言うとくけど、このビデオは認知マップに関するシリーズの前回のビデオの続きやねん。前回は海馬の計算の神経生物学的背景を探って、いくつかの一般的な原則を紹介したんや。まだ見てへん人は、今回の内容の土台になるから、先に見てからこっちを見ることをおすすめするで。
興味あるんやったら、続きを見てってな。
ほな、想像してみてや。お前が世界中を歩き回って、報酬を見つけることだけが目的のエージェントやとしよう。進化の観点から言うたら、こんなエージェントは初期の生物で、食べ物やメイトを探す必要があるもんやと考えられるわな。
エージェントとしてのお前には、取れる行動がいくつかあるんや。例えば、特定の方向に動くために筋肉の配列を活性化するとかな。最も報酬の高い行動を選ぶには、行動の結果を予測できる必要があるんや。それには効果的に周囲の環境の心的モデルが必要になってくるんや。
こういうモデルがあると、頭の中でシミュレーションを走らせて、行動の重みづけができるわけや。例えば、「まっすぐ行ったらどうなるかな」とか「右に曲がった方がええんかな」とかな。
人生の中で様々な環境に遭遇するうちに、最初はそれぞれの環境に対して、他のモデルとリンクせずに、もつれた分割不可能なモデルを構築するかもしれへん。でも、表現を最適化していくと、あるとき「待てよ、今まで作ってきたこれらのモデルって、実はめっちゃ共通点があるやん」って気づくんや。
実際、進路を妨げる壁とか、壁を通り抜けられるドアとか、さらには開かれた2D空間の構造自体とかが、どの環境でも同じように機能するんやな。だから、こういう共通要素は簡単に再利用できるんや。
言い換えると、各モジュールを構成要素に分解するのが理にかなってるんや。例えば、空間、境界、報酬なんかの構成要素やな。これらの構成要素を学習したら、新しい構成で組み替えたり混ぜたりして、その場で新しい世界モデルを構築できるわけや。そうすることで、柔軟な行動を生み出せるんや。
パート1で覚えてるかもしれんけど、これはまさに哺乳類の海馬がやってることなんや。この過程の神経生物学的証拠は、個々の細胞の反応に見つけられるんや。
ほんなら、機械にも同じことをさせることはできるんかって話やけど、人工システムにとって課題を簡単にするために、予測問題として定式化してみよう。つまり、モデルは観察の連続と、それらにつながった行動の連続を受け取って、次の観察を正しく予測することを学習するんや。
これって生物学的にもめっちゃ理にかなってるんや。脳の主な目的は、入力される刺激を予測して、予測誤差を最小化しようとすることかもしれへんって示唆するデータがたくさんあるんや。これは予測符号化理論って呼ばれてるんや。
例えば、こんな観察と行動の連続を見てみ。次の要素が何になるか言えるか? 無理そうやろ? でも、1から4までの行動が実は北、西、南、東の方向を表してるって言うたらどうや?
そしたら、これらの行動をどうつなげるかのルールを知ってるから、タスクがめっちゃ簡単になるやん。本質的にループを閉じたことになるから、次の観察は最初のと同じやって予測できるんや。
言い換えると、空間の構造を知ってると、予測問題がかなり簡単になるんや。でもモジュールはもちろん、この根底にある構造を知らへんわ。そやったら面白くないからな。
代わりに、観察と行動の連続から繰り返しのパターンを抽出して、なんとか根底にある世界の構造を推論せなあかんのや。例えば、こういう連続をたくさん見た後には、異なる行動がどう関連してるかのルールを推論せなあかんのや。これは空間の構造を構築するのと同じことやねん。
ここで重要なのは、「モデルが世界の根底にある構造を学習する」って言うとるけど、正確にはそうするように言われてへんってことや。モデルには、連続の中の次の観察を予測する以外の目的はないんや。
本質的には、観察と行動を符号化する数字の集合を受け取って、それらに計算を行い、次の予測される観察に対応する別の数字の集合を吐き出す、パラメータがたくさんある fancy な数式にすぎへんのや。
でも、この予測誤差を最小化するように訓練されてて、これらの観察がランダムじゃなくて何らかの構造化された世界から来てるから、この予測問題の最適解は、観察の中の規則性の基になってる世界の何らかの構造的表現を構築することなんや。だから、最適化の結果として構造に関する知識が自然に現れることを期待してるんや。
ほんじゃ、モデルはどんな感じになるんやろか? 好きなアーキテクチャを選べるから、日常的にこの問題を解決してる既存の生物学的機械、つまり海馬体から着想を得るのが理にかなってるんちゃうか。
前回のビデオで見たように、海馬は2つの入力ストリームを受け取るんや。一つは側頭内側皮質からの感覚的な「何を見てるか」という情報で、もう一つは内側嗅内皮質からの構造的な「どこにいるか」という情報や。これらは海馬で結合表現に組み合わされるんや。
同様に、我々のモデルにも、内側嗅内領域のアナログがあって、世界での現在位置を追跡する役割を果たすんや。これを位置モジュールと呼ぼう。常に行動を受け取って、それを使って現在位置の推定、つまり空間内でどこにいるかの最良の推測を計算するんや。
この位置情報は、その中のニューロンの活性化パターンでエンコードされてるって考えられるんや。位置モジュールは純粋に行動だけで動作して、感覚観察に関する情報は受け取らへんことに注意してな。
これは、目を閉じて部屋を歩き回っても、何も見えへんのに大体どこにいるかわかるのと似てるんや。これは脳が自己運動ベクトルを蓄積して位置を推定できるからで、このプロセスは経路積分として知られてるんや。だから、モデルが訓練されたら、位置モジュールも同じことができるようになると期待してるんや。
もう一つの重要な要素は海馬自体で、「どこ」の情報と「何」を結びつけるんや。この結合は効果的に2つの入力の間の関連付けを形成するんや。だから、位置モジュールが提供する位置情報と感覚入力のストリームを受け取って、遭遇した組み合わせを記憶に保存するメモリモジュールを追加する必要があるんや。
本質的には、位置と観察の間の関連性を記憶するんや。「Xにいたときにyを見た」みたいな感じやな。でも、記憶を保存するだけじゃ意味がないやろ? 取り出せなきゃあかんのや。
重要なのは、これが連想記憶モジュールやから、部分的な情報から完全な記憶を再構築できるはずやってことや。例えば、位置だけを提供して、この位置に伴うすべての保存された記憶を検索できるんや。つまり、「ここにいた最後に何を見たんやろ?」という質問に答えられるわけや。
同様に、感覚観察だけを提供して、位置を取り出すこともできるんや。「これを最後に見たとき、どこにいたんやろ?」みたいな感じやな。
ほんじゃ、予測問題を解決するのに必要な要素は全部揃ったな。訓練されたモデルが成功した予測を出すためにどうするか、一歩ずつ見ていこか。例えば、家系図を歩いてるとしよう。覚えとってな、これは4つの接続されたグリッドだけじゃなく、どんなタイプの構造でも学習できるはずなんや。
まず、ジョンから始めて、姉妹の行動でメアリーに移動し、それから娘の行動でケイトに移動するんや。最後に、モデルに叔父という行動を与えて、予測をするように求めるんや。
内部で何が起こってるかというと、こんな感じや。まず、位置モジュールは現在の位置について何らかの初期の信念を持ってて、これがジョンと組み合わされて、メモリモジュールに保存されるんや。
次に、姉妹の行動が位置モジュールに入力されて、位置に関する新しい信念が生まれるんや。これがメアリーと組み合わされて、対応する結合がメモリに保存されるんや。
同様に、娘の行動が位置モジュールの内部状態を更新するのに使われて、これがケイトと組み合わされてメモリモジュールに送られるんや。
最後に、叔父の行動が位置モジュールに入力されるんや。重要なのは、結果として得られる位置情報、つまりニューロンの活性化パターンが、最初に始めたときと同じになることや。
これは、モデルが同じルールに基づく多くの家系図で訓練された後、位置モジュールがこういうループを作るときにいつも同じ位置に戻るように設定されてるからや。言い換えると、世界のグラフを支配する一般的な法則が、位置モジュールが状態を更新する方法のルールに組み込まれてるんや。
経路積分を正しく行った後、この開始位置に戻るんやけど、対応する感覚観察を記憶するものはないんや。代わりに、モデルが連続の終わりに達したから、次の観察を予測しようとするんや。でも、経路積分された位置がこの予測を導くんや。
だから、メモリモジュールに位置情報で問い合わせて、この特定の位置に対応する感覚観察を取り出すんや。我々のケースでは、それがジョンになるわけや。
すごいやろ? ここまでは、真空の中で球状のモデルについて理論化してきただけやけど、実際にうまく機能するんやろか? そして、もしそうなら、我々自身のナビゲーションシステムについて何を教えてくれるんやろか?
モデルの性能を評価する最も直接的な方法は、その精度を見ることや。これは単に正しく行った予測の割合やねん。そして重要なのは、精度がどれだけ速く成長するかを見ることや。
ここで言いたいのはこういうことや。ちょっと想像してみて。この fancy な機械の代わりに、単純な古い参照テーブルがあるとしよう。これは単に全ての遷移を「前の観察+行動=新しい観察」のペアとして記憶するだけや。
だから、「ジョン+姉妹=メアリー」「メアリー+娘=ケイト」などを保存するんや。次の観察を予測するには、単に参照テーブルをスキャンして、特定の組み合わせを検索するだけや。
我々の家系図の例の場合、最初の試みではケイトの叔父がジョンであることを予測できへんやろう。なぜなら、この特定の組み合わせに以前遭遇したことがないからや。
言い換えると、100%の精度に達するには、まず観察と行動のすべての可能な組み合わせに遭遇する必要があるんや。つまり、モデルの性能は、訪れたこのグラフのエッジの数に依存するってことやな。
対照的に、トールマン・エイゲンバウム・マシン(TEM)は、すべてのノードからすべての行動の結果を明示的に教えてもらう必要はないんや。なぜなら、構造の概念を持ってるからや。
例えば、ケイトがメアリーの娘やって言うたら、残りの関係を自動的に推論するのに十分やろ? これは本質的に、100%の精度に達するには、すべての可能なエッジではなく、すべてのノードを訪れるだけで十分ってことを意味するんや。
だから、TEMの性能は訪れたノードの割合に依存してて、これはエッジの割合よりもずっと速く成長するんや。
つまり、我々の機械は確かに世界の表現を構築してるみたいやな。やったぜ!
でも、いわゆる「脳」の中で何が起こってるんやろか? まず、位置モジュールの中を見てみよう。現在の位置に関する信念は、ニューロンの集団的な活性化のパターンによってエンコードされてるって覚えてるよな。
でも、個々のニューロンに尋ねて、エージェントがランダムに歩き回るときに各ニューロンが何をしてるかを見ることもできるんや。ここでは視覚化のために、モデルが規則的な4つ接続グリッド、つまり物理的な2D空間のアナログで訓練された後の結果を見せるで。社会的階層じゃなくてな。
驚くべきことに、位置モジュール内の個々のユニットが、位置の関数として周期的な活動パターンを発達させてるのが見えるんや。異なるサイズの規則的な六角形のグリッドや、これらの周期的な縞模様で空間を敷き詰めてるんや。
これはまさに、哺乳類の脳の嗅内皮質のグリッド細胞やバンド細胞が位置をエンコードする方法と同じやねん。そして、個々のユニットの選択性は環境全体で保たれてるんや。これは、確かに一般化できることを示唆してるんやな。
メモリモジュールのニューロンは少し違うことをするんや。位置と感覚情報の結合を形成するから、各ニューロンは上流の2つの要素の両方が活性化されたときに活性化されるんや。
実際、メモリモジュール内のユニットは、様々なサイズの海馬の場所細胞に似てて、特定の空間のパッチで発火するんや。重要なのは、実際の脳の海馬の表現と同じように、入ってくる観察が異なるため、環境ごとに発火パターンが異なることや。これは海馬の再マッピングとして知られてるんや。
強調しておきたいのは、こういったグリッド様や場所様の表現がモデルにハードコードされたことはないってことや。本質的にランダムなパラメータセットから始めて、予測問題の最良の解決策を見つけるようにモデルを最適化させただけや。そして、それらの反応が自然に現れただけなんや。
ここまでは、与えられた環境でのランダムウォークから生成された連続でモデルを訓練してきたんや。つまり、すべての観察が等しく起こりやすかったってことやな。
でも、実際の生活では、動物は拡散によって移動するわけじゃないんや。報酬や物体の探索に偏ってるし、安全を感じるから壁の近くにいるのが好きで、開けた空間を避けるんや。
だから、この感覚観察の統計を変えて、一部の刺激が他よりも一般的になるようにしたら、予測問題の最適解として現れる表現に影響するんやろか?
例えば、境界の近くで時間を過ごすことを好み、物体に近づく実際のマウスの行動を模倣した観察の連続でTEMを訓練してみよう。
この場合、位置モジュールに現れる表現には、世界の境界に選択的な境界細胞や、動物が特定の距離や特定の方向にある物体から離れているときに活性化するように見えるオブジェクトベクトル細胞が含まれるんや。
これらのタイプの反応は、ちなみに文脈全体で一般化されるんやけど、嗅内皮質から記録するときに実験的に観察されるんや。
メモリモジュールの一部のニューロンは、海馬のランドマーク細胞に似た特定の物体への選択性を発達させるんや。
交替タスクを行う動物を模倣したもっと複雑な連続を取ると、モデルは報酬が両側で交互になるというルールを首尾よく学習するんや。
重要なのは、メモリモジュール内の一部のニューロンの表現が、実験的に見つかった分離細胞に似てることや。これらは位置と将来のターンの方向の両方によって調整されるんや。
これは、TEMが直接観察に与えられてない潜在空間を学習してマッピングする能力を持ってることを示唆してるんや。TEMが潜在空間をマッピングする別の例は、パトロンサポーターへのボーナスクリップとして利用可能や。詳細はこのビデオの最後に出てくるで。
素晴らしいな! これで一般化できて、自然に海馬体と同じ空間表現を発達させるモデルができたわけや。ほんじゃ、これからどんな洞察が得られるんやろか?
場所細胞が再マッピングする、つまり異なる環境で好ましい発火位置を変えるってことを思い出してな。このプロセスはランダムではないと考えられてきたんや。だって、これらの表現がどう移動するかには即座の論理がないからな。
でも、海馬体のモデルを手に入れたことで、この質問に全く別のレベルで取り組み始められるんや。
我々のメモリモジュールのニューロン、つまり場所細胞に似たものは、実際には感覚情報と構造情報の結合やってことに注目してな。これは、特定の場所細胞の発火が、構造情報を提供するグリッド細胞によって部分的に制御されてるってことを意味するんや。
例えば、ある環境で、ある場所細胞の位置が特定のグリッド細胞の六角形の活動パターンと一致してるとするやろ? そしたら、周囲を変えて場所細胞が再マッピングした後、その場所フィールドは、このグリッド上にある別の位置にシフトするんや。
言い換えると、再マッピングは完全にランダムじゃなくて、むしろグリッド細胞によって制御されてて、ある程度の構造情報を保持してるんや。
場所細胞とグリッド細胞の位置の関係は、2つの環境にわたる場所細胞とグリッド細胞の発火位置の一致度の間に相関があるはずってことを示唆してるんや。
これはモデルでは当てはまるんやけど、驚くべきことに、著者らが実験データでこの予測をテストしたとき、実際の脳でも真実であることがわかったんや。
まあ、これ大量の情報やったから、処理するのは大変やったと思うわ。ほんじゃ、全部をまとめてみようか。
世界の内部モデルを構築する問題は、生物学的知能と人工知能の両方にとって重要な問題やねん。周囲を構成要素に分解して、特定の感覚文脈と組み合わせて新しいモデルをその場で生成することで、急速な一般化が可能になるんや。
この分解と合成は、連続の次の観察を予測するタスクを与えられたとき、世界の根底にある関係構造を学習する計算モデルで示すことができるんや。
このモデルで自然に現れる表現は、海馬体で見つかる実際のニューロンに似てて、嗅内皮質と海馬の間の相互作用の統一された枠組みを示唆してるんや。
この機会を借りて、元のTEM論文の筆頭著者であるJames Whittington博士と、機械学習の専門知識を持つ友人で同じくパトロンのGusに、このビデオのスクリプト準備に多大な助けをいただいたことに大きな感謝を表したいと思うわ。
最後に、今日見たトールマン・エイゲンバウム・マシンは、実は現代の機械学習の中核にあるニューラルネットワークの一種であるTransformerアーキテクチャにとても似てるってことを言うとくわ。
実際、小さな修正を加えると、この類似性を正確な数学的等価性に変えることができるんや。そして、この修正版、トールマン・エイゲンバウム・マシン・トランスフォーマーと呼ばれるバージョンは、はるかに速く学習して、より良いパフォーマンスを発揮するんや。それでも、ほとんどの点で生物学的表現に似てるんやけどな。
これは、神経科学と現代の機械学習の間に非常に有望なリンクを提供する可能性があって、両分野をこれまで以上にエキサイティングなものにするんや。
まあ、これはかなり簡略化した説明やったけど、この等価性を完全に探求するには、TransformerとHopfieldネットワークについて詳しく見ていく必要があるんや。こういう技術的なビデオを見たいかどうか、コメント欄で教えてくれへんか?


いいなと思ったら応援しよう!