自由エネルギー原理の解説:知覚・行動・他者の思考の推論 3
変分自由エネルギー導入
自由エネルギー原理では、生物は感覚入力の予測しにくさを最小化するように、自身の内部モデルと行動を常に最適化していると仮定しています。この予測しにくさを「サプライズ」と呼びます。サプライズを最小化するということは、生物は常に外界で何が起きているのかを予測し、その予測と実際の感覚入力との誤差を減らすように行動しているということを意味します。
しかし、サプライズを直接最小化するように計算するのは困難です。そこで、サプライズの上限値として「変分自由エネルギー」を導入します。変分自由エネルギーは、サプライズとKLダイバージェンスの和で表されます。
変分自由エネルギー(F) = サプライズ(S) + KLダイバージェンス
ここで、KLダイバージェンスとは2つの確率分布の差異を表す指標です。自由エネルギー原理では、エージェントの信念(事後確率分布)と、生成モデルが予測するもの(条件付き確率分布)との間の「ずれ」を表すために用いられます。
変分自由エネルギーを最小化することは、サプライズとKLダイバージェンスの両方を小さくすることを目指します。つまり、変分自由エネルギーを最小化することで、間接的にサプライズを小さくすることになります。
変分自由エネルギーの構成要素
変分自由エネルギーは、さらに「精度の項」と「隠れ変数とパラメータの複雑性」に分解できます。
変分自由エネルギー = 精度の項 + 隠れ変数の複雑性 + パラメータの複雑性
精度の項:エージェントが感覚入力をどれだけ正確に予測できているかを表します。
隠れ変数の複雑性:外界の隠れた状態を表す隠れ変数の分布の複雑さを表します。
パラメータの複雑性:感覚入力を生成する生成モデルのパラメータの分布の複雑さを表します。
変分自由エネルギーを最小化するには、精度の項を大きく、複雑性を小さくする必要があります。
具体的な説明
変分自由エネルギー F(s, q(u, θ)) の説明
F(s, q(u, θ)) ≡ S + DKL[q(u, θ)||p(u, θ| s, m)] は、自由エネルギー原理において中心的な役割を果たす変分自由エネルギーを表しています。この式は、生物が外界をどのように認識し、学習していくのかを理解する上で重要な意味を持ちます。
サプライズ (S) とは?
まず、サプライズ (S) について説明します。サプライズは、エージェント(生物)にとって、感覚入力 s がどれだけ「意外」であったかを表す尺度です。
生成モデル p(u, θ| s, m)
次に、生成モデル p(u, θ| s, m) について説明します。生成モデルは、エージェントが外界を理解するために用いる「モデル」であり、感覚入力 s がどのようなプロセスで生成されるのかを表現します。
生成モデル p(u, θ| s, m) は、感覚入力 s が与えられたもとで、隠れ変数 u とパラメータ θ がどのような値をとる可能性が高いかを表す確率分布です。
エージェントの信念 q(u, θ)
エージェントは、生成モデル p(u, θ| s, m) を用いて、感覚入力 s から、隠れ変数 u とパラメータ θ を推定します。この推定結果が、エージェントの「信念」となり、q(u, θ) という確率分布で表されます。
KLダイバージェンス DKL[q(u, θ)||p(u, θ| s, m)]
KLダイバージェンス DKL[q(u, θ)||p(u, θ| s, m)] は、エージェントの信念 q(u, θ) と生成モデル p(u, θ| s, m) との「ずれ」を表す尺度です。
エージェントは、自身の信念と生成モデルの予測とのずれが小さくなるように、信念を修正したり、行動を起こしたりします。
変分自由エネルギー F(s, q(u, θ)) の意味
変分自由エネルギーは、サプライズ S と KLダイバージェンス DKL[q(u, θ)||p(u, θ| s, m)] の和として定義されます。
F(s, q(u, θ)) = サプライズ(S) + エージェントの信念と生成モデルのずれ
自由エネルギー原理では、生物は変分自由エネルギーを最小化するように行動すると仮定しています。
変分自由エネルギーを最小化することは、サプライズを小さくすること、つまり、予測しにくい感覚入力を減らすことにつながります。
また、エージェントの信念と生成モデルのずれを小さくすることで、エージェントはより正確に外界を予測できるようになります。
変分自由エネルギー F = Eq(u,θ)[− log p( s, u, θ|m) + log q(u, θ)]
この式は、自由エネルギー原理における変分自由エネルギー F を、隠れ変数 u とパラメータ θ についての期待値の形で表現したものです。以下で、それぞれの項について詳しく説明します。
●Eq(u,θ)[ ]: これは、隠れ変数 u とパラメータ θ についての期待値を表す記号です。つまり、括弧内の式を、u と θ の事後確率分布 q(u, θ) で平均することを意味します。
●log p(s, u, θ|m): これは、感覚入力 s、隠れ変数 u、パラメータ θ が与えられたもとでの、生成モデル m の対数尤度を表します。言い換えれば、この値が大きいほど、現在のモデル m は観測されたデータ (s, u, θ) を生成しやすいことを意味します。
●log q(u, θ): これは、エージェントが持つ、隠れ変数 u とパラメータ θ についての信念(事後確率分布)の対数確率を表します。
この式全体を見ると、変分自由エネルギー F は、生成モデルの対数尤度と、エージェントの信念の対数確率の差の期待値を計算していることになります。
自由エネルギー原理では、エージェントは変分自由エネルギー F を最小化するように、自身の信念 q(u, θ) と生成モデル m を調整すると仮定しています。
●変分自由エネルギーを最小化することは、生成モデルの対数尤度を大きく、つまり、観測されたデータを説明しやすいモデルを獲得することにつながります。
●同時に、エージェントの信念の対数確率も大きくすることで、エージェントはより確信度の高い信念を獲得することができます。
変分自由エネルギー F の各項の説明と最小化の方法
与えられた式は、自由エネルギー原理において重要な役割を果たす変分自由エネルギー を表しています。この式の意味を理解するために、各項について詳しく説明し、F の値を小さくする方法について解説します。
F = Eq(u,θ)[− log p(s|u, θ, m)] + DKL[q(u)||p(u|m)] + DKL[q(θ)||p(θ|m)]
各項の説明
Eq(u,θ)[− log p(s|u, θ, m)]:精度の項
この項は、負の対数尤度の期待値を表しており、精度 と呼ばれます。
s は感覚入力、 u は隠れ変数、 θ はパラメータ、 m はモデル構造を表しています。
p(s|u, θ, m) は、隠れ変数 u とパラメータ θ が与えられたもとでの、感覚入力 s の条件付き確率分布、つまり生成モデルを表します。
q(u) と q(θ) は、それぞれ隠れ変数 u とパラメータ θ の事後確率分布を表しています。
この項は、現在の推定値 (u, θ) が、実際の感覚入力 s をどれだけうまく説明できるかを表す指標と言えます。
DKL[q(u)||p(u|m)]:隠れ変数の複雑性の項
この項は、隠れ変数 u の事後確率分布 q(u) と事前確率分布 p(u|m) の カルバック・ライブラーダイバージェンス (KLダイバージェンス) を表しています。
KLダイバージェンスは、2つの確率分布間の「距離」を測る尺度であり、値が小さいほど2つの分布は似ています。
この項は、隠れ変数 u の推定値が、事前知識 p(u|m) からどれだけ離れているかを表す指標と言えます。
DKL[q(θ)||p(θ|m)]:パラメータの複雑性の項
この項は、パラメータ θ の事後確率分布 q(θ) と事前確率分布 p(θ|m) の KLダイバージェンスを表しています[1]。
この項は、パラメータ θ の推定値が、事前知識 p(θ|m) からどれだけ離れているかを表す指標と言えます。
F の値を小さくする方法
変分自由エネルギー F を最小化することは、以下の2つを同時に行うことを意味します。
精度の最大化: 感覚入力 s をうまく説明できるように、隠れ変数 u とパラメータ θ を調整する。
複雑性の最小化: 隠れ変数 u とパラメータ θ の推定値が、事前知識 p(u|m) や p(θ|m) から極端に離れないようにする。
言い換えれば、外界をよく説明できるようなシンプルで無駄のないモデルを獲得することが、変分自由エネルギーの最小化に繋がると言えます。
精度の項と隠れ変数とパラメータの複雑性について
自由エネルギー原理において、精度の項と隠れ変数とパラメータの複雑性は、外界の推論と学習を理解する上で重要な概念です。
精度の項
精度の項は、エージェントが感覚入力 s̃ をどれだけ正確に予測できているかを測る尺度です。
式(7)では、精度の項は負の対数尤度 -Eq(u,θ)[log p(s̃|u, θ,m)] として表されています。
p(s̃|u, θ,m)は、隠れ変数 u とパラメータ θ が与えられたもとでの、感覚入力 s̃ の条件付き確率分布を表しています。
Eq(u,θ)[...] は、事後確率分布 q(u, θ) についての期待値を表しています。
これは、エージェントの信念 (事後分布 q(u, θ)) に基づいて計算された、感覚入力 s̃ の予測分布と、実際の感覚入力 s̃ とのずれを表しています。
精度の項が小さいほど、エージェントは感覚入力をより正確に予測できていることを意味します。
隠れ変数とパラメータの複雑性
隠れ変数とパラメータの複雑性は、エージェントが外界を表現するために使用しているモデルの複雑さを測る尺度です。
式(7)では、隠れ変数とパラメータの複雑性は、KLダイバージェンスを用いて表現されています。
隠れ変数の複雑性: DKL[q(u)||p(u|m)]
パラメータの複雑性: DKL[q(θ)||p(θ|m)]
KLダイバージェンスは、2つの確率分布間の「距離」を測る尺度です。
q(u) は隠れ変数 u の事後確率分布、p(u|m) はモデル m に基づく u の事前確率分布を表しています。
q(θ) はパラメータ θ の事後確率分布、 p(θ|m) はモデル m に基づく θ の事前確率分布を表しています。
隠れ変数とパラメータの複雑性が小さいほど、エージェントはより単純なモデルを使用していることを意味します。
複雑性の抑制と過学習の防止
一般的に、複雑すぎるモデルは、ノイズを含むデータにも適合しやすくなってしまい、過学習を起こしやすくなります。
隠れ変数とパラメータの複雑性を考慮することで、モデルの複雑さが過度に増大することを防ぎ、過学習を抑制することができます。
まとめ
精度の項は、感覚入力の予測精度を表し、小さいほど予測が正確であることを示します。
隠れ変数とパラメータの複雑性は、モデルの複雑さを表し、小さいほど単純なモデルであることを示します。
自由エネルギー原理では、精度の項を大きく、複雑性を小さくすることで、外界をより良く説明できるモデルを獲得しようとします。