エントロピーを最大にする分布
確率分布に対して、エントロピーという量が定まります。
$${H(p(x)):=\sum_x -p(x)\log p(x)}$$
これは「情報量」を表す量であり、熱力学(物理)的なエントロピーとも対応する興味深い対象です。この記事では、「情報量」であることの直感的なモチベーションを回収し、どんな確率分布だとエントロピーが大きくなるか、について考察します。
1.エントロピーの意味
エントロピーの表式$${H(p(x)):=\sum_x -p(x)\log p(x)}$$は、$${-\log p(x)}$$という値に対する平均値と見ることができます。砕けた言い方をすれば、この量は「ビックリ度合い」を表すものです。
例えばある人が、
・宝くじで3等を当てた
・宝くじで1等を当てた
というようなとき、よりビックリするのは当然1等を当てた場合でしょう。なぜよりビックリするのかと言えば、その発生確率が後者の方が小さいからです:
$${p_1 < p_3}$$
logを取っても大小関係はそのままで、両辺を-1倍します:
$${\log{p_1}<\log{p_3}}$$
$${-\log{p_1}>-\log{p_3}}$$
このように、$${p>0}$$に対して減少的であることが「ビックリ度合い」を表すのに重要で、他にも$${-\log(pq)=-\log p-\log q}$$や$${-p\log p\rightarrow0\;\;(p\rightarrow0)}$$という性質を備えているため、$${-\log}$$という関数を採用しています。
2.エントロピーの最大化-未定乗数法
エントロピーの最大化は重要なテーマで、物理の話になってしまいますが、「エントロピー増大則」は熱力学第二法則として基本法則になっているほどです。熱力学的なエントロピーと情報論的エントロピー(後者は本記事で考えているエントロピー)に対応があるとすれば、後者のエントロピーを最大にする分布というのは興味深い問題です。また耳学問ですが、このエントロピー最大化を基礎において統計的分析を行う分野もあるようです。
ここでは、単純にエントロピーを最大化する分布が何か、計算してみます。
確率分布の規格化を拘束条件とみて、ラグランジュの未定乗数法を用いるのがポイントです。
問題
拘束条件$${\sum_{i=1}^np_i=1}$$の下で、エントロピー$${H(\vec p)=\sum_{i=1}^n-p_i\log p_i}$$を最大にする分布$${\{p_i\}_i}$$を求めよ。
未定乗数法より、
$$
F(\vec p;\lambda):=\sum_{i=1}^n-p_i\log p_i-\lambda(\sum_{i=1}^np_i-1)
$$
を最大化することを考えます。$${p_i}$$で偏微分することにより、
$$
\begin{array}{}
\frac{∂F}{∂p_i}=-\log p_i-1-\lambda =0\\
\log p_i=-(1+\lambda)\\
p_i=e^{-(1+\lambda)}
\end{array}
$$
と、各$${p_i}$$がiに依存せず一定であることがわかります。すなわち一様分布であり、規格化条件から$${e^{-(1+\lambda)}=\frac1n}$$であることが従います。
3.分散の拘束条件
規格化条件に加えて、分散に関する拘束条件も課してみます:
$${\sum_{i=1}^np_i=1\;,\;\sum_{i=1}^n(x_i-\mu)^2p_i=\sigma^2}$$
未定乗数法より、最大化するのは次の関数です:
$$
F(\vec p;\lambda,\nu):=\sum_{i=1}^n-p_i\log p_i-\lambda(\sum_{i=1}^np_i-1)-\nu(\sum_{i=1}^n(x_i-\mu)^2p_i-\sigma^2)
$$
$${p_i}$$で偏微分しましょう:
$$
\begin{array}{}
\frac{∂F}{∂p_i}=-\log p_i-1-\lambda-\nu(x_i-\mu)^2 =0\\
\log p_i=-(1+\lambda)-\nu(x_i-\mu)^2\\
p_i=e^{-(1+\lambda)}e^{-\nu(x_i-\mu)^2}
\end{array}
$$
ここで得られた確率分布は非常に正規分布に似ています。しかし、考えているのが離散分布である以上、連続分布である正規分布にはなり得ません。実際、拘束条件を扱う際に議論が破綻してしまいます。
規格化条件$${1=\sum_ip_i=\sum_ie^{-(1+\lambda)}e^{-\nu(x_i-\mu)^2}}$$より、$${e^{1+\lambda}=\sum_ie^{-\nu(x_i-\mu)^2}}$$であることが従います。これは問題ありません。
さらに分散の条件も適用しようとすると、困難が生じます。途中までは、次のように対数微分を用いるテクニカルな計算ができます:
$$
\begin{array}{}
\sigma^2&=&\sum_i(x_i-\mu)^2p_i\\
&=&e^{-(1+\lambda)}\sum_i(x_i-\mu)^2e^{-\nu(x_i-\mu)^2}\\
&=&\left(\sum_ie^{-\nu(x_i-\mu)^2}\right)^{-1}\cdot -\frac{d}{d\nu}\left(\sum_ie^{-\nu(x_i-\mu)^2}\right)\\
&=&-\frac{d}{d\nu}\log\left(\sum_ie^{-\nu(x_i-\mu)^2}\right)
\end{array}
$$
一般の$${\{x_i\}}$$に対して、和$${\sum_ie^{-\nu(x_i-\mu)^2}}$$を計算してνを特定することは困難でしょう。(少なくとも筆者は執筆時点ではできるかどうかわかっていません。)
しかし、そもそもの問題設定を離散型ではなく連続型で考えると、正規分布を導出することができます!
4.連続分布に対する議論-変分法
これから考える連続分布は、実数全域で定義されているものとします。定積分の区間$${(-\infty,\infty)}$$は明示せずに省略して表記します。
連続分布に対するエントロピーは、確率密度関数を用いて次のように定義されます:
$${H(p(x)):=\int -p(x)\log (p(x))dx}$$
次の二つの拘束条件の下で最大化することを考えます:
$${\int p(x)dx=1\;,\;\int(x-\mu)^2p(x)dx=\sigma^2}$$
未定乗数法で着目すべき関数は次のとおりです:
$$
F(p(x);\lambda,\nu):=\int-p(x)\log p(x)dx-\lambda(\int p(x)dx-1)-\nu(\int (x-\mu)^2p(x)dx-\sigma^2)
$$
このときFを最小にする関数p(x)を求めるのが目標です。(Fは関数を引数に持つので汎函数と呼ばれます)
微分して最小になる点を求める、というときのここでの意味はどういうものでしょうか?厳密な深入りは避けますが、いわゆる変分法(汎函数微分)という方法を用いることができます。行わなければならない計算は離散型のときと全く同様ですので、見比べてみましょう。
$$
0=\frac{\delta F}{\delta p}=\int\left\{ -\log(p(x))-1-\lambda-\nu(x-\mu)^2\right\}dx
$$
積分の中身=0とすることで、
$$
\begin{array}{}
\log(p(x))&=&-1-\lambda-\nu(x-\mu)^2\\
p(x)&=&e^{-(1+\lambda)}e^{-\nu(x-\mu)^2}
\end{array}
$$
と、離散型の場合とパラレルに求めることができました。二つの拘束条件を適用できるか見ていきます。
規格化条件:
$$
1=\int p(x)dx=e^{-(1+\lambda)}\int e^{-\nu(x-\mu)^2}dx\\
e^{1+\lambda}=\int e^{-\nu(x-\mu)^2}dx
$$
分散の条件:
$$
\begin{array}{}
\sigma^2&=&\int (x-\mu)^2p(x)dx\\
&=&e^{-(1+\lambda)}\int (x-\mu)^2e^{-\nu(x-\mu)^2}dx\\
&=&\left(\int e^{-\nu(x-\mu)^2}dx\right)^{-1}\cdot-\frac∂{∂\nu}\left(\int e^{-\nu(x-\mu)^2}dx\right)\\
&=&-\frac∂{∂\nu}\log\left(\int e^{-\nu(x-\mu)^2}dx\right)\\
&=&-\frac∂{∂\nu}\log\left(\sqrt{\frac{2\pi}{\nu}}\right)\\
&=&\frac1{2\nu}
\end{array}
$$
従って、ガウス積分を利用することで$${\nu=\frac1{2\sigma^2}}$$を得ることができました。なお規格化定数の方結果と併せて、密度関数p(x)は確かに正規分布を示しています。
$$
p(x)=\frac1{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
$$