見出し画像

自由エネルギー原理 - 推論

推論と運動という一般的には全く別の脳の活動と思われている動作について、共通した原理を与えてくれるのが「自由エネルギー原理」と呼ばれる理論です。この不思議な理論についてその一端を簡単に覗いてみましょう。今回は、自由エネルギー原理において推論がどのように扱われるのかを見ていきます。

推論

雨が降るかどうかを知りたいとして、空の様子を眺めることを考えてみます。つまり、空の様子をみた刺激(s)得た時の、雨が降るかどうか(u)について確率を計算したいという状況です。

sを得たときのuの確率は、事後分布P(u|s)と呼ばれます。この事後分布が分かれば目的達成です。ところが私たちの脳は、真面目にP(u|s)を計算しているのではなく、近似計算によって楽をしているでしょう。この近似した確率分布をq(u)とすると、q(u)をP(u|s)になるべく近づけることが作業のことを推論と呼べそうです。

KLダイバージェンス

分布q(u)と事後分布P(u|s)をなるべく近づけるためには、分布同士の差を減らせば良いですね。分布同士の差はKLダイバージェンスと呼ばれます。KLダイバージェンスはq(u)とP(u|s)の各uにおける差の期待値です。ただし、差は対数軸での差を表し、期待値を取る時はどちらかの分布を前提に計算するところがちょっと特殊です。今の場合はq(u)で期待値の計算をします。

式で書くと下のような形で難しそうに見えますが、要するに分布の差の期待値です。下の図で二つの分布の間の差を表していると思えば大丈夫です。

画像1

自由エネルギーの最小化としての推論

KLダイバージェンスを最小化するようなq(u)を見つけることが推論になります。KLダイバージェンスを変形すると、下のような形に書けます。

(2)では条件付きの定義、(3)は確率の総和が1であることを使いました。
新たに出てきた記号を説明しておくと、p(u,s)はu,sについての同時確率、p(s)はsについての周辺化確率です。

さて、今はsが与えられた下で、q(u)を計算していたので、p(s)は定数です。そのため、KLダイバージェンスの最小化の際には意識しなくて良いものです。

大事なのはゴチャっとした第一項ですが、もう少し整理してみましょう。

(2)式では、確率をエネルギー関数p(u,s)=exp(-E(u,s))で置き換えました。エネルギーの高い事象ほど珍しく、エネルギーの低い事象ほど起きやすいという置き換えです。

まだごちゃっとしているように見えますが、第一項はエネルギーの平均値で、第二項はエントロピーの定義そのものです。つまり、
(エネルギーの平均値)-(エントロピー)
と表されています。

熱統計力学におけるヘルムホルツの自由エネルギーと呼ばれるものは、
(自由エネルギー)=(内部エネルギー)-(エントロピー)
ですので(ここでは温度は無視します)、実は上の式は自由エネルギーに対応しています。

つまり、推論とは、自由エネルギーを最小下するq(u)を見つけることであると言えます。

参考


この記事が気に入ったらサポートをしてみませんか?