Pythonを用いた機械学習8日目
今回から3回に分けて「確率」について学んでいく。試行や事象といった確率の考え方(①)と、離散型・分散型などがある確率変数や期待値をふくむ確率分布(②)についてまとめる。ということで今回からPythonからは少し離れて、統計学の基礎を固める。
前回の学習内容はこちら。標準化と様々なデータの分布についてまとめている。
1.確率の考え方
・サイコロを振ったときに、どの目がでるかを調べるときに使われる。
例えば、サイコロを投げて、偶数の目が出る確率は次の式で求められる。
「試行」・・・サイコロを投げる
「事象」・・・サイコロの目が1つに決まる
・事象Aが起こる確率は以下の式で求められる。
確率が正しいかどうか確かめるには、試行を何回も繰り返す。
「統計的確率」・・・何度も試行を繰り返した場合に得られる事象の割合
「数学的確率」・・・数学的に求める確率
2.確率分布
「確率変数」・・・サイコロの目のように、確率的に値が決まる変数のこと。サイコロを投げたときに出た目をXとすると、Xは確率変数である。
「確率分布」・・・確率変数のとる値と、それに対応する確率との対応のこと。
「確率分布表」・・・確率分布を表で表したもの。
↓確率分布表
↓一般の確率分布表
「期待値(expected value)」・・・ある試行を行ったとき、その結果として得られる数値の平均値のこと。
↓期待値はこのように表す
↓分散(variance)はこのように表す
なお、分散は平均との差を2乗した値の合計をデータの個数で割って算出した値なので、下のように書くこともできる。
これを変形して
この式を使うと簡単に計算ができる。
・「離散型」・・・値がとびとびになっている確率変数のこと
・「連続型」・・・値と値の間に取りうる値が無限にある確率変数のこと
連続型の確率変数の場合、その分布を表にまとめることは難しい。統計的確率の場合は度数分布表を用いる場合もあるが、数学的確率の場合は「確率密度関数」を使う。
・平均(μ)、分散(σ^2)の正規分布は次の式を満たす
ただし、連続型の場合、確率変数の値xを直接指定はせずに、確率密度関数のグラフにおいて、確率変数の範囲を指定して、その面積を求める。
・「標準正規分布」・・・標準化を行って平均を0、標準偏差を1にした正規分布
実は前回から、TeXclip v3.0を使って数式を書いている。とても時間がかかったが複雑な数式をきれいに表現できるので、これからも積極的に活用したい。慣れたら、数式を入力する作業も早くなるかな^^
次回は、同時確率と条件付き確率について学ぶ。