正規分布の数式は複雑?数式の意味を大雑把に解説
はじめに
大学の統計学の講義などで正規分布というものを習います。正規分布は統計学の基本かつ最重要概念なのできちんと理解しておきたいところです。しかし、正規分布の概念自体は理解できていても数式をみると複雑に見えて面食らってしまう方も少なくないと思います。ですので、今回は正規分布の数式の意味をわかりやすさ重視で大雑把に解説しようと思います。
1次元の正規分布
まずは1次元の正規分布の数式を復習してみましょう。
これが1次元の正規分布の数式になります。μは平均でσは標準偏差とします。それでは、それぞれの項が何を表しているのかを見ていきましょう。
正規化項
まず、先頭のこの項は確率の総和を1にするための正規化項です。要は総和が1になるように後付けしただけの項なので、あまり深く考えなくて良いでしょう。
2乗距離の項
exp()の中にあるこの項はxとμの2乗距離です。つまり各要素xが平均μからどれくらい離れているかを表すものですね。この式をグラフで図示すると次のようになります。
μ=0としてグラフを書きました。普通の2次関数ですね。
重み付き距離の項
先ほどの2乗距離に重み(分母)を付け加えたもので、xとμの重み付き2乗距離を表しています。つまり、(xとμの距離が同じでも)σの値が大きくなればxとμの距離は大きくなり、σの値が小さくなればxとμの距離は小さくなります。この式をグラフ表示すると以下のようになります。
緑の方はμ=0, σ=0.5 灰色の方はμ=0, σ=1のときです。σの値が大きくなればxとμの距離は大きくなり、σの値が小さくなればxとμの距離は小さくなっています。この関係は元の正規分布でも成り立ちます。
wikipediaにあった画像ですが、μ,σの値と正規分布のグラフの形状を表しています。σの値が大きくなれば全体的にxはμに遠くなり、σの値が小さくなれば全体的にxはμから近くなっていることがこの図からわかると思います。これは標準偏差(分散)という概念がデータの散らばりを表していることから直感的にも理解しやすいと思います。
ほぼ最終形態
これは先ほどの2乗距離にマイナスをつけて指数関数にしたものです。この操作を施すことでグラフが正規分布っぽい形になります。
μ=0, σ=1としてグラフを書きました。形はほぼ正規分布ですよね。それもそのはず、ここに最初に説明した正規化項を掛けると正規分布になります。
おわりに
正規分布の式がなぜそうなるのかということをイメージできたでしょうか。
一見複雑に見える式もこのように一つ一つに分解していけば自ずと全体像も理解しやすくなったかと思います。次回は多次元の正規分布の式について解説しようと思います。
この記事が気に入ったらサポートをしてみませんか?