ネコでも分かる情報幾何学入門 part1　～情報幾何学とは何か～

MUTEI

2024年11月16日 14:37

この記事について

本記事は第26回数物セミナー合同合宿において行った特別講演の内容をnoteに落とし込んだものです。情報幾何学という分野の基本的な設定や概念について概観して興味を持ってもらうことを目指します。逐一証明を与えるようなことはしません。

なお、導入こそ統計学を題材にしていますが、（数物セミナーという場の特性上）全体としては数学畑の人が読みやすいように作ってます。統計学への応用にフォーカスを当てた記事もいずれ投稿予定です。

長い記事は読むのが大変なので全4partに分割しました。

part2：ネコでも分かる情報幾何学入門 part2　～微分幾何速習～｜MUTEI
part3：執筆中
part4：執筆中

元のスライドはこちら。ただし当時の口頭説明を文字にした上で加筆している分、記事の方が情報量が多いです。

導入

端的に言うと、情報幾何学とは「確率分布たちの集合に幾何構造を入れてその性質を調べる分野」です。本章ではそのお気持ちを導入します。

統計学的モチベーション

まず「確率分布たちの集合」というのが何を表すか・どうして幾何学が必要なのかのイメージを統計学を何も知らなくても分かる程度の例で紹介します。（むしろ統計的にはかなり雑です）

猫の体重（単位: kg）が何らかの正規分布に従うと仮定して, 大量のネコの体重を測ったデータからその平均と分散 ($${\mu}$$と$${\sigma^2}$$) を推定したいという状況を考えます。ここで、パラメータ$${\mu,\sigma^2}$$をもつ正規分布 $${N(\mu,\sigma^2)}$$とは、次の確率密度関数$${p(x ; \mu,\sigma^2) }$$で表されるものでした。

$$
p(x ; \mu,\sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}}\exp(-\frac{(x-\mu)^2}{2\sigma^2})\hspace{1cm}(\ (\mu,\sigma^2)\in \mathbb{R}\times \mathbb{R}_{>0} \ )
$$

さて、この状況下で素朴な推定として、次のようなことが考えられます。

猫100匹分の体重データは、平均4.5kg・分散1.2 だった
⇒$${\mu=4.5}$$、$${\sigma^2=1.2}$$と推定

パラメータ$${(\mu,\sigma^2)}$$と正規分布$${N(\mu,\sigma^2)}$$は一対一に対応していますから、このようにパラメータを$${(\mu,\sigma^2)=(4.5,1.2)}$$と推定することは「"真の"正規分布」を$${N(4.5, 1.2)}$$と推定することに他なりません。
したがって、我々が統計的推定とよぶものとは、次のようなプロセスだと言えます。

正規分布全体 (統計モデル) の中から、データを基に尤もらしい正規分布を決めること。

現時点では「正規分布全体」とはただの集合に過ぎません。ここで、正規分布同士の"距離"が定義されているとしましょう。すると、「予測する正規分布」と「"真の"正規分布」はどれだけ近いのか？ということを考察できることになります。
これはつまり、確率分布の集合（統計モデルといいます）に何らかの"距離"という構造を付加することに相当します。
「ある正規分布」の性質は確率論で調べることができます。しかし、「正規分布全体」の性質は確率論の問題ではないでしょう。では統計モデルにどんな構造を与えるのが自然なのか、というのが問題になります。

確率分布同士の"距離"

正規分布はパラメータ$${(\mu,\sigma^2)}$$で指定できます。では$${\mu\text{-}\sigma^2}$$平面のユークリッド距離で測ればそれで解決なのでしょうか。

そこで、正規分布を少し弄ってみましょう。簡単な計算で、正規分布は次のように書き換えられます。

$$
\begin{align*}
&p(x ; \mu,\sigma^2) \\
=& \frac{1}{\sqrt{2\pi \sigma^2}}\exp(-\frac{(x-\mu)^2}
{2\sigma^2})\\
=& \frac{1}{\sqrt{2\pi \sigma^2}}\exp(\frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}x^2-\frac{\mu^2}{2\sigma^2})\\
=& \exp(\theta^1 x-\theta^2 x^2-\psi(\boldsymbol\theta)) \\
&\begin{cases}
(\theta^1, \theta^2):=(\frac{\mu}{\sigma^2}, \frac{1}{2\sigma^2}) \\
\psi(\boldsymbol\theta):={1\over 2}\theta^1+\log\sqrt{{\pi\over\theta^2}}=\frac{\mu^2}{2\sigma^2}+\log\sqrt{2\pi\sigma^2}
\end{cases}
\end{align*}
$$

ここで、$${\sigma^2}$$や$${x^2}$$のせいで紛らわしいですが$${\theta^1,\theta^2}$$はべき乗ではなく上付き添え字であることに注意してください。

$${(\mu,\sigma^2) \mapsto (\theta^1, \theta^2)}$$は一対一のパラメータ変換（より強く同相）であることに注意すると、この計算結果から $${(\theta^1, \theta^2)}$$は正規分布の別表現を与えています。このとき、それぞれの座標系によるユークリッド距離は矛盾した分布間の距離を与えてしまいます（下図）。

確率分布の実体はパラメータの与え方 (パラメトリゼーション) に依存しないので、パラメトリゼーションに依存した尺度は不適切でしょう。

一般に、確率分布間の"距離"として、次のKLダイバージェンスというものが統計学・機械学習・統計力学などでしばしば本質的な役割を果たします。

定義: KL ダイバージェンス
$${p, q}$$を(適当な測度空間上の) 確率密度関数であって, 台が等しい($${\log\frac{p(x)}{q(x)}}$$が定義できる) とする.
$${p}$$から$${q}$$へのKLダイバージェンス$${KL(p\mid\mid q)}$$を以下で定義する.
$${KL(p\| q) := \int p(x)\log\frac{p(x)}{q(x)} dx = \mathbb{E}_{p}\left[ \log\frac{p}{q} \right]}$$.

KLダイバージェンスは以下の性質をみたします。

$${KL(p\| q) \geq 0 \hspace{2cm} (非負性)}$$
$${KL(p\| q) = 0 \Leftrightarrow p=q\hspace{0.3cm} (非退化性)}$$

しかし、一般に対称性と三角不等式を満たしません。したがって厳密には距離関数ではないですが、定義にパラメータが関係しないため、先ほどのような不都合は起こりません。このKLダイバージェンスを距離の二乗のようなものだと思うことにしましょう。
実は、情報幾何学においてもこのKLダイバージェンスが本質的な役割を果たすことになります。特に、特定のセットアップの下で一般化ピタゴラスの定理をみたし、距離の二乗という直観は正当化されます。

確率分布の実体はパラメトリゼーションに依存しないので、パラメトリゼーションに依存しない構造を与えるべきでしょう。一方で、パラメトライズされた確率分布の集合が与えられたとき、パラメータで論じれるものはパラメータで論じたいです。
このような要望を解決してくれるのが微分幾何学（＝座標不変な幾何学）による定式化という訳です。

情報幾何学のアイディア

情報幾何学に固有の概念は、純粋な微分幾何としてのアイディアと確率分布族の幾何としてのアイディアの二つから構成されます。

リーマン多様体に微分構造 (接続と双対接続) を盛る ( → 統計多様体、双対平坦空間、ダイバージェンス )
$${\theta}$$でパラメトライズされた確率密度関数の族$${\mathcal{S}=\lbrace{p_\theta}\mid \theta \in \Theta \rbrace}$$に "自然な" リーマン多様体の構造を入れる (→ Fisher計量、$${\alpha}$$接続)

→これら二つを合わせて$${\mathcal{S}}$$を幾何的に調べる.

非対称性は問題にならないか？

余談ですが、KLダイバージェンスの非対称性についての統計的な事情も述べておきます。KLダイバージェンスは
$${KL(p\| q) := \int p(x)\log\frac{p(x)}{q(x)} dx = \mathbb{E}_{p}\left[ \log\frac{p}{q} \right]}$$.
で定義されました。統計学では、

$${p}$$ : 観測値から計算された分布
$${q}$$ : 統計モデルに存在する「真の分布」

とした上で、統計モデルも動かすことが念頭にあります。
(e.g.ネコの体重が正規分布に従うモデルと, ポアソン分布に従うモデル)
つまり第一変数と第二変数で役割が違うので、むしろ非対称なのは自然だという見方ができるという訳です。
なお、これが後に「接続と双対接続のペア」を考える統計的背景になります。

part2に続く：ネコでも分かる情報幾何学入門 part2　～微分幾何速習～｜MUTEI

ネコでも分かる情報幾何学入門 part1 ～情報幾何学とは何か～