世界モデルのモデルと物象化の問題

2020年11月16日 01:21

先日、WBAI勉強会でプログラム委員長（開催テーマや演者を設定する役割）をする機会をいただき、その立場特権を使って北海道大学CHAINの田口さんと吉田さんに無理を言って講演をお願いした。（WBAI山川さん、田口さん、吉田さん、WBAIの皆様、その節はたいへんお世話になりました！！！）

このときの議論はなかなかに白熱して、自分のなかにいろいろなものを残してくれたのだけど、平気そうな顔をしつつも案外プレッシャーを受けていたらしく、終わってホッとしてすこし燃え尽き気味の心理状態になってしまい、会社のほうも急に忙しくなってきてしまってゆっくり反省する時間がとれずに３週間ばかり経過してしまった。先だって脳内のモヤモヤを整理しながら連ツイする機会が生まれたので、その結果にあらためて少し書き足してまとめておこうと思う。

前置きがはじまるまえのまとめ

以下、ちょっと前置きが長くなるので、前置きの前にまず言いたいことを簡単にまとめておく。

要するに言いたいことは

「真に客観的な認識を作ることは可能か」とか「意識や主体性とは何か」のような抽象度の高すぎる問いを考える前に、人間の脳やAIの動作原理となっている世界モデル計算（予測符号化とか、自由エネルギー原理とか）の自然な拡張で説明できそうなところまでを説明してしまったらよいのではないか？それで解消してしまう問題もあるかもよ。

ということ。

ひとは脳内の「世界モデル」をうまく使うことで認識を作り出していて、その仕組みはそんなに複雑怪奇なものではないのだけど、この考え方は慣れないひとには難しいかもしれないので、まず前置きとして準備を行いながら言いたいことにすこしずつ近づいてゆく。

世界モデルのモデル

ひとの脳のはたらきを「予測する脳」（予測誤差最小化機械としての脳）として説明しようとするのは、第一義的には神経科学の問題だが、もちろんそこに留まらない。脳を模した人工知能を作ろうと思えば、同様の仕組みを検討しなければならない。いや、そもそも僕らが人生を生きながら、身の回りのものごとを感知し認識して判断行為する過程の全てが脳の働きに依っているのならば、僕の人生の問題の全ての命運が「予測する脳」に握られていると言っても過言でないかもしれない。過言でないかもしれないなら、ついでにもっと過言をしてみよう。僕の人生だけでなく、あなたの人生も、日本アメリカ中国の元首たちの認識・判断・行為の全ても「予測する脳」を経由しているっていうことにまで思いを馳せるなら、ひとつのなめらかに地続きになっている全ての問題の大事な首根っこのところに、「予測する脳」があると言える。実はこれは大きな問題の大事な一部なのだ。

「予測する脳」の問題は、「世界モデル」の問題。「予測する脳」のモデルの問題は「世界モデル」のモデルの問題だ。ここで、脳の機能だけに興味を絞りたいので、あえてこの問題を「世界モデル」の問題と呼ぶことにする。また、世界とは僕やあなたが脳を使って感知する環境世界のことを指すが、あなたが国際関係に頭を悩ます国家元首である場合には世界とは、緊張関係を持つ国際世界のことを指すかもしれない（半分冗談ですが半分は本気です）。さらに、さらに、ここでは僕ら各個人がそれぞれに持っている個別の世界モデルよりも、世界モデルがどのように作られて、どのように使われているのか？という一般論に興味がある。そこで、「世界モデル」のモデルを問題にしたいのだ。

「世界モデル」のモデルとして、「予測する脳」を想定するとき、その原型は以下の予測符号化モデルである。

予測符号化

左図のように、脳のなかには内部状態があって、これは外部環境から得られる観測状態（に関するこれまでの履歴）を抽象化することによって作られる。脳のなかにある内部状態は、脳にとっての外部環境世界を抽象化したものであるから、世界のモデルと解釈してもよいだろうというわけだ。

この抽象化の過程を右図の「予測符号化」と呼ばれる計算過程が実現してくれる。脳は、内部状態として持っている情報を用いて、いまの観測状態を予測しようと試みる。予測はある程度当たるが、ある程度は外れる。その誤差フィードバック信号を用いて、内部状態を予測誤差が小さくなるように更新する。この仕組みが適切にはたらけば、内部状態は外部環境の抽象化（すなわち世界のモデル）と言えるものとして保たれ続ける。

予測符号化の計算過程は、まさに「世界のモデル」のモデルであると言える。

世界のモデルとその周辺機能

例えば、こちらを見ているひとの正面顔を見ながら、その横顔を想像して破綻の無い絵を心中に描く心的機能があり、メンタルローテーションと呼ばれている。これはひとの脳が脳内世界モデルを用いて行うタスクの一種である。

これができるためには、網膜に写った映像から、顔のパーツやその位置関係を抽出できなければならない。次に、これを回転して各種パーツの見え方の位置関係がどうなるか、計算できなければならない。三次元的な回転をするさいには、自分の視点から死角になっているせいで直接観測できないパーツについては過去の経験から拾ってきて埋めねばならない。

「ひとはこういう作業を苦もなくやってのけるが、機械には難しい」と言いそうな流れであるが、そういう時代は過ぎ去った。機械はたいていの一般人以上にこういう作業を正確にやってのける。言い方を変えると、ここ最近の情報科学の研究者は、こういう作業を計算問題に書き換えて計算機で解けるようにしてしまった。

世界モデルとその周辺機能は、こういうメンタルローテーションのような心的機能のなめらかな一般化として理解することができる。たとえば

- 逐次的に得られる感覚情報を使い、心中の世界モデルをキャンバスとして詳細な絵を描いてゆくこと

- これを言葉に写すこと

逆に

- 言葉を心中世界モデルに映すこと

- 他人の言葉を信頼して自分の心中の世界モデルの暗所を埋めてゆくこと

どれも世界モデルを用いて実現できる普通のタスクと言える。

- 世界モデルによる感覚予測と実際の感覚との違和に驚くこと

- これまでの見間違い見落としに気付くこと

- 二度見して心中の世界像を修正すること

こういうのもそうである。

- 信頼していた他人の語りと、自分の心中の世界像との矛盾から、他人への信頼を失うこと

- 逆に自分の心中の世界像への信頼を失ったりすること

こういうのもそうである。

- 未来の自分の身に起こり得る危機の萌芽を目の前に見つけて未然に摘むこと

- 未来の自分にとってふさわしい姿への経路を描いて目の前の行動を決めること
- 壊れた機械が正常に動いていた過去の姿や、これが壊れるに至った過去の履歴を推定して、修理すべき一点を見つけること

こういうのもそうである。

こうして、身の回りの現象のほとんどは、心的世界モデルとその周辺機能の自然な拡張の範囲で説明できる。

説明できない謎はどこに残るだろうか？

主観と客観と視点移動

さきほどからの続きになるが、メンタルローテーションの能力をちょっとだけ拡張すれば、僕が自分の目の前で起こった交通事故の状況を、轢いた乗用車の運転手の視点から、轢かれた自転車の運転手の視点から、もしくは上空から俯瞰した視点から想像して述べることができる。もちろん、これが得意／不得意なひとが、精度の良い／悪い説明を作り出すとか、そういう違いはあるだろう。

「自動車の運転手のひとは、ギリギリまでなにか上の空であるような表情だったのですが、ぶつかった次の瞬間には自転車に対して怒っていたんです」

「自転車は、わざとぶつかりにいったように見えましたよ」

などの感情や当事者の都合まで推し量って語ることもあるだろう。

また、さまざまな目撃者が、それぞれ複数の視点から状況を述べるのを聞いて報告書をまとめる警察官が「このひとは主観的／客観的にモノを見て説明しているな」と判定することもあるだろう。複数人の言っていることを聞いて、矛盾を見つけたり、矛盾を解消する見解を見つけ出したりということもあるだろう。

メンタルローテーションが映像と３次元空間的な回転だけを扱っていたところから比べると、他人の視点だけでなく感情や都合などを取り扱うのは少し拡張されているが、もちろんこれも世界モデルに基づいて、移動した視点から観測されるものを予測しているという点で同じことだ。

ものごとを主／客観的に語ったり、他人の語りを主／客観的と判定するのは、心的世界モデルを用いたごく普通のタスクと言える。

真の＊＊の物象化

前段までに、認識や語りが、主観的だったり客観的だったりすることは、世界モデルの中の視点移動で十分に表現できているではないか？と提案した。だが、それはサイエンスが求めるタイプの真の客観性とは異なる、という反論があるかもしれない。ここで、僕はたとえば「真実の愛は永遠であるか？」のような問いと、「サイエンスは真の客観性を得られるか？」のような問いを同一視し、どちらも記述や形容の物象化が行き過ぎて擬似問題が作り出されているのだと言いたい。

（先に進む前に、自分でツッコミと言い訳を入れておきます。まず、藁人形を叩いているように見えるところは、ここからはそういうスポーツをしているものとして読んでいただきたい。また「真の客観性」と「真実の愛」の同一視はいかにも乱暴です。ただ、同一視できる範囲もゼロでなく存在するだろうと思われるので、吟味すれば以降の議論が有効な範囲はゼロでないはず。以上、ツッコミと言い訳はここまでとし、以降は言い訳無しで進めます）

心的世界モデルの一部をなす言語モデルの周辺機能は、いかなる妄言をも無限に吐き出すことができる。妄言のなかでも、モノでないものの記述・形容をモノ扱いさせる物象化が行き過ぎるとやっかいな擬似問題を作り出しかねない。ただ、擬似問題は、それが擬似問題だと気づくことで解消される。

心的世界モデルはその一部として、言語世界のモデル（言語モデル）を含む。言語モデルが人間においてどんな形をしているものか、神経科学的に分かっていることは少なさそうだが、機械学習技術としては予測符号化を想定した世界モデルと同等の仕組みで言語を扱うことが普通に可能であることが分かっている。

予測符号化

さっき出したのと全く同じ図であるが、ここで観測状態が言語であり、内部状態に基づく予測もまた言語であり、その誤差フィードバックを使って内部状態を更新してゆく仕組みがあったとき、この内部状態空間のことを言語世界モデルと解釈してもバチは当たるまい。

視覚、聴覚、身体運動感覚、などなどのモダリティ毎に世界モデルがあり、それと並列に言語世界モデルがあり、これらは相互にカップリングしている。（具体的にどのように？という問いに答えられるほどの研究はないが、そういうものがあるだろうというぐらいは前提にしておく。）

さて、われわれが話す日本語において、「寒い」という形容詞から「寒さ」という名詞化を、「動く」という動詞から「動き」という動名詞を作る機能が含まれている。これが、まるで名詞に対応する物体が身の回りに存在するような錯覚を作り出す。これを物象化と呼ぶ。物象化は、言語世界と視聴覚運動感覚世界とをつないで思考をすすめるうえで便利な機能である。だが、作り出した幻想にとらわれてしまうなどで判断を過たせる理由にもなる。

配偶者の行動に愛情をラベル付けしたり、愛情を感じさせる行動パターンベスト１０を抽出するなどすれば、あくまで思考の利便のための仮想としてなら便利に使える。「真実の愛を誓えば永遠である」のような言葉も、社会的な契約を表す機能を果たすのだと考えれば、「永遠」を文字通りに解釈する必要は無い。

しかし「愛」という「永遠」のモノがある、とする世界モデルは現実と遊離しており、僕らの言語世界のモデルはその機能としてこういう遊離を許すようにできている。

遊離にも妄言にも、必ずしも目くじらを立てる必要はない。

この例から学ぶべきは、言語モデルが物象化してみせた擬似問題を、それと気づいて、それにふさわしく取り扱えるようになることだと思う。

ひとの語りに主観的・客観的という識別・形容ラベルをつけるところまでは普通に可能だが、そこから究極の主観・至高の客観なる物象化が起こり始めたときには、妄言による擬似問題化を疑って注意を払うべきだろう。

まとめ

心的世界モデルとその周辺機能のなめらかな拡張によって、世の中の現象の説明可能な範囲を拡大してゆきたい。

さまざまな実世界タスクを計算機で解いてくれるような人工知能づくりはもちろん大事。だが、「世界モデル」のモデルによって現象を説明するというのもだいぶ大事なことだと考えている。こっちが大事であることの最大の理由は、人類が擬似問題の処理に食われ続ける無駄なリソースを、もっと有意義なところに振り向けたいということだ。計算リソースは自分や身の回りの人々が楽しく豊かに生きるための経路・行動探索に使いたい。

自分や他人や集団の未来の指針を作れば、それをもとにして現在〜未来の理想的世界像を生成したり、誤差を感知して修正行動を作ってゆくのが、心的世界モデルの働き。

指針が言葉で表現され、その抽象化程度が高い場合には、その影響範囲は時間・空有間範囲として大きくなり、また影響を受ける人数も多くなる。

その言葉に意図しない擬似問題が内在しているなら、ぜひとも解消をしておきたい。「自由」とか「人権」とか「愛」とかのイデオロギー用語の定義の齟齬はふつうに戦争の原因になっている。

そこで、言語〜概念世界を整序しておくことは、現実世界においてとても大事。哲学が現実世界に対して与えてくれる価値のなかでも、このあたりが最たるものなのだと思う。

「世界モデル」のモデル、というコンセプトはこういうことを考えるための基礎的な道具としてたいへん優れていると思うのだけども、おそらくまだその意義を汲み尽くすには程遠い。いま僕らは近年の機械学習モデルの工夫を参考にできるので、「世界モデルの周辺機能の自然な拡張」として想定できる範囲が過去の人類の想像を超えて拡大していることを知っている。これを前提にして考えるのは、きっと新しい武器が切り開いた新しい切り口なのだと思う。このことの意味をなんとかすこしずつでも理解してゆきたい。

（話のスジの骨折には気づいていますが、時間と能力と情熱の限界により、断片だけでも活かせないかと、このまま公開。）

この記事が気に入ったらサポートをしてみませんか？