自由エネルギー原理と変分オートエンコーダ(VAE)の親和性について
以前あげた記事の続きになります。
例えば、窓ガラスが割れた原因がなんなのか考えるとします。これはベイズの定理に沿って考えると、事後分布となります。しかし、分母の周辺確率分布を考慮すると、人はもっと効率的(もしくはヒューリスティックに)考えているのではないでしょうか。
手法としてはマルコフ連鎖モンテカルロ法や、変分ベイズ法などがあります。
ここまでが前回の流れでした。ここで一旦、自由エネルギー原理について考えていきます。
下にわかりやすく書かれた記事があります。そちらを参考にしていただければ幸いです。
Q.そもそも自由エネルギーを小さくするとは何か?
➡︎一つは、KLダイバージェンス(近似分布と事後分布の距離)を小さくする
➡︎もう一つは、行動を通してサプライズを小さくすること
数式で書くとこうなります。(式展開から)
結果的に、自由エネルギー = KLダイバージェンス+シャノンサプライズ
で、表現できます。
先ほどの例では窓ガラスと泥棒について変数を当てはめていました。
では視知覚の場合では、どうでしょうか。
視覚についての推論に焦点を当てると、扱う変数はより抽象的になります。
➡︎zは隠れ変数(状態)、yは感覚信号(本質的には原因と結果で変わらない)
➡︎感覚信号を介して推論するしかないから”隠れ”と呼んでいる
・(一応定義するなら、、)隠れ変数(状態): 時間的に変化するものとなります
Twitterより引用したわかりやすい参考画像があります。
Yを観測している対象、Zを観察者の頭の中(内部モデルの隠れ変数)としています。そうすると、こう考えることができます。
この考えは予測符号化理論(predictive coding)の土台となる考えです。
ところで、予測符号化と自由エネルギー原理と何が違うのか?という疑問があるでしょう。
以下で異なります
➡︎ 平均場近似: 𝒒(𝒛𝟏,𝒛𝟐,𝒛𝟑)≈𝒑(𝒛𝟏)𝒑(𝒛𝟐)𝒑(𝒛𝟑) 各確率変数の独立性
➡︎ラプラス近似: (結果的に)ガウス分布で近似
平均場近似については以下の記事で詳しく書かれています。
ラプラス近似について軽く紹介し、自由エネルギー原理の話に繋げます。
ラプラス近似について
➡︎パラメータが指定されていれば、最も不確実性(エントロピー)の高い確率分布をガウス分布と仮定できる。
導出方法➡︎ラグランジュの未定乗数法を用いてエントロピー最大化すればガウスが求まる
つまり、、、
➡︎近似分布q(x)にガウス分布を仮定することで、平均、分散共分散行列の最適なパラメータを探すことがKLダイバージェンスの最小化につながることになる。
➡︎最適なパラメータを探すことが、自由エネルギーの最小化につながる結局、
➡︎結局、自由エネルギー原理は変分ベイズの枠組み
大雑把に言えば、自由エネルギー原理は変分ベイズ!
ピントこない方へ、補足のスライド
ちなみに、上記の著書を参考にしています。
阪口先生、乾先生 著
以前の付箋回収ですが、自由エネルギー原理を考えることで、ヒト(らしい)認知を表現できるのではないでしょうか。
事後分布の効率(もしくはヒューリスティック)な処理に対して、変分ベイズの考えをもとにしていくことが、自由エネルギー原理の考えであるということなのです。
さて、一部の方はこう思うはずです。
自由エネルギー原理の実装はできないかと。
ここで、ある考えを手掛かりに、自由エネルギー原理の実装を探っていきます。それがこちらです。『認知的な閉じ』です。
詳しくは読めってことになってしまうですが、結論だけ書きますと、、
この『認知的な閉じ』の考え方は谷口忠大先生の考えですが、認知モデルを考える際、教師なし学習による実装を目指していくといった具合です。
では、自由エネルギー原理と同様、変分ベイズの枠組みで、目的関数が自由エネルギーである、かつ、教師なし学習で実装されたモデルがあれば、自由エネルギー原理の実装モデル候補になるのではないでしょうか
結果、二つ見つけました。
・VAE(variational Autoencoder) (Kingma and Welling, 2014)
・Diffusion Model(J Sohl-Dickstein,2015)
です。
日本語ではそれぞれ変分オートエンコーダと拡散モデルと言われてます。
詳しくはこちらの文献からhttps://proceedings.neurips.cc/paper/2020/file/ac10ff1941c540cd87c107330996f4f6-Paper.pdf
さて、変分オートエンコーダに注目すると、下画像にまとめることができます。特にラプラス近似を仮定していることから、推論の部分をパラメータ探しとみなすことができます。
もう少し見ていくと、最適パラメータを考えることで、KLダイバージェンスの最小化を目指し、結果として自由エネルギーの最小化に繋げることができます。気になるのがVAEでは推論部分で、償却変分推論を使っています。
以下はVAEの一つのモデル例です。
自由エネルギー原理との親和性を考えるとき、いくつか問題点が出てきます。
(1)このままではパラメータの更新ができない
(2)入力画像の潜在変数を全て推論するのは認知モデルに不適切
(3)そもそも償却変分推論では、自由エネルギー原理と違いパラメータと潜在変数を同じ確率変数として統一的に扱えない
(1)はreparametrization trickを採用すればいいため、あまり本質的な問題点ではなさそうです。
(2)は入力画像の調整が問題になりそうです
問題は(3)。
VAE(変分オートエンコーダー)は、観測されたデータから複雑な世界を理解するために、データの生成過程を学習します。
その際、自由エネルギーという指標を最小化することを目的としています。これは自由エネルギー原理と基本的に同じ目標です。
しかし、VAEはより複雑なニューラルネットワークを使うため、パラメータが多く、計算が大変です。
具体的には、自由エネルギー原理で扱うモデルは比較的単純なものが多いのに対し、VAEでは複雑なデータを表現できる深層ニューラルネットワークを使います。
そのため、モデルのパラメータはたくさんあり、それぞれを点推定で求めます。一方で、潜在変数は確率変数として扱い、償却変分推論を使って迅速に推論します。
要するに、自由エネルギーを最小化する点では自由エネルギー原理と似ていますが、複雑なモデル構造と高速な推論方法を使う点で異なります。
また、モデルのパラメータと潜在変数の扱いが統一的でない点も、この二つの違いを表しています。
ざっくりとは自由エネルギー原理とVAEは親和性が高そうですが、具体的な実装となり得るかは微妙なところです。
今後は、Diffusion Modelについても考えていきたいところです。
おまけ。
シャノンサプライズが気になった方へ
能動的推論について
事後分布の感覚信号は定数より、シャノンサプライズも定数で動かせない。
動かすには当然、感覚信号を変化させる必要がある。
このことを能動的推論と呼ぶ。
➡︎能動的推論とは、知覚と行為を通じて、変分自由エネルギーを最小化することによって、生物がどのように自らの存在を支えているかを示す理論
例えば、りんごの裏を見て、そのりんごについて新たな知見を得ることなど
➡︎能動的推論では、あるポリシーの対数確率が、そのポリシーで進んた場合の期待自由エネルギーに比例すると設定されることである。最も起こりうる、あるいは最もサプライズが低い経路は、期待自由エネルギーを最小化することを意味する。
結局、自由エネルギー原理では環境に対して知覚と行為を行い、認識を得ていくことなのです。下の図はその概略図。
能動的推論は時系列が絡んでるため、実装が難しいと思います。
(いずれ考えたいところですが)
以上です。