Pythonを用いた機械学習８日目

2020年5月20日 13:17

今回から３回に分けて「確率」について学んでいく。試行や事象といった確率の考え方（①）と、離散型・分散型などがある確率変数や期待値をふくむ確率分布（②）についてまとめる。ということで今回からPythonからは少し離れて、統計学の基礎を固める。

前回の学習内容はこちら。標準化と様々なデータの分布についてまとめている。

１．確率の考え方

・サイコロを振ったときに、どの目がでるかを調べるときに使われる。

　例えば、サイコロを投げて、偶数の目が出る確率は次の式で求められる。

スクリーンショット 2020-05-17 14.30.04

「試行」・・・サイコロを投げる

「事象」・・・サイコロの目が１つに決まる

・事象Aが起こる確率は以下の式で求められる。

スクリーンショット 2020-05-17 14.33.32

確率が正しいかどうか確かめるには、試行を何回も繰り返す。

「統計的確率」・・・何度も試行を繰り返した場合に得られる事象の割合

「数学的確率」・・・数学的に求める確率

「確率変数」・・・サイコロの目のように、確率的に値が決まる変数のこと。サイコロを投げたときに出た目をXとすると、Xは確率変数である。

「確率分布」・・・確率変数のとる値と、それに対応する確率との対応のこと。

「確率分布表」・・・確率分布を表で表したもの。

↓確率分布表

↓一般の確率分布表

スクリーンショット 2020-05-17 14.54.04

「期待値(expected value)」・・・ある試行を行ったとき、その結果として得られる数値の平均値のこと。

↓期待値はこのように表す

スクリーンショット 2020-05-17 15.02.47

↓分散(variance)はこのように表す

スクリーンショット 2020-05-17 15.09.55

なお、分散は平均との差を２乗した値の合計をデータの個数で割って算出した値なので、下のように書くこともできる。

スクリーンショット 2020-05-17 15.12.58

これを変形して

スクリーンショット 2020-05-17 15.14.10

この式を使うと簡単に計算ができる。

・「離散型」・・・値がとびとびになっている確率変数のこと

・「連続型」・・・値と値の間に取りうる値が無限にある確率変数のこと

連続型の確率変数の場合、その分布を表にまとめることは難しい。統計的確率の場合は度数分布表を用いる場合もあるが、数学的確率の場合は「確率密度関数」を使う。

・平均（μ）、分散（σ^2）の正規分布は次の式を満たす

スクリーンショット 2020-05-17 15.46.45

ただし、連続型の場合、確率変数の値xを直接指定はせずに、確率密度関数のグラフにおいて、確率変数の範囲を指定して、その面積を求める。

スクリーンショット 2020-05-17 15.55.41

・「標準正規分布」・・・標準化を行って平均を０、標準偏差を１にした正規分布

実は前回から、TeXclip v3.0を使って数式を書いている。とても時間がかかったが複雑な数式をきれいに表現できるので、これからも積極的に活用したい。慣れたら、数式を入力する作業も早くなるかな^^

次回は、同時確率と条件付き確率について学ぶ。

よろしければサポートお願いします。いただいたサポートを皆さんに還元していきたいと思っております。