毎日統計8
ここのところ外出続きでまともに学習を進められていなかったが、今日は少し腰を据えて勉強する。
安定の入門書、今日は第5章。
前章で確率の基本的な考え方についておさらいした。本章では確率変数の基礎について学ぶ。確率変数とは、それがとる各値に対してそれぞれ確率が与えられている変数である。通常、大文字を用いて表す。
この辺りから離散変数と連続変数の話がよく出てくる。離散では確率分布と呼ばれるfも、連続の確率変数ほ確率密度関数と呼んだりする。連続型の確率密度関数に関しては、実は、その分布における1点をとる確率というのは0に収束するという特徴がある。これはx,x+Δx の間に任意の一点があるとすると、Δx→0とした時に確率密度関数が積分型で表されることから、Δxの重みによって0に収束してしまうことからも分かる。
一点をとる確率が0というのは、一瞬理解に苦しむ。しかし、感覚的な理解としては、変数が連続である以上、1と1.00000001のいずれも取りうるわけで、それはつまり1.00000809585369...と無限に続くある数値を一点と称しているわけで、それをとる確率は0であるという風に考えれば良さそうだ。
ちなみに連続型の確率分布にはいくつか代表的なものがあり、指数関数や一様分布などがある。
〇
確率密度関数はこれまでのローレンツ曲線のように、その積分をとることで累積分布関数を求めるができる。累積分布関数は確率変数を異なる方法で表す手段であり、幾つかの特徴がある。それは
①広義の単調増加、②xが正の無限大に向かう時1を取り負の無限大に向かうとき0になるという性質、③右連続であるという性質、である。
確率変数についても一般的な変数同様、代表値を考えることができる。最頻値であるmodeは確率を最大にする点すなわちf(x)が最大値を取る点を指す。いわゆる極である。また、累積分布がちょうど1/2となる点が中央値medianにあたる。
そして、確率変数における平均の概念にあたるのが、期待値である。これは変数と確率の積の総和を取る形で定義されるため、正確には重み付きの平均となる。期待値には4つの演算に関する性質がある。わかりやすく纏まっていたのは下記ページ。
これは意外と重要なように思える。
〇
平均が同じようなデータに関して、ヒストグラムや分布を描くと全然異なっていることがあった。これは期待値に関しても同じことが言える。これに対する方法として一般的なデータの例と同じく、確率変数に関しても分散や標準偏差SDの考え方が当てはめられる。
数式は若干難解だが、考え方はこれまでのデータに対する扱いと同じで、期待値(平均値)と変数の差の二乗に対して、重みつけのための確率変数f(x)をかけたものの総和を取る。また、分散の二乗根が標準偏差となる。
分散についても期待値と同様に、以下のような性質がある。
ちなみに、ここまで確率変数の分散や標準偏差を出してきたが、これもデータの時と同じく、他の変数と比較するためには数字を整える、つまり標準化が必要になる。確率変数の場合も他のものと同じように、(確率変数-期待値)/標準偏差 をしてやれば標準化が可能である。
5章は半分程度だが、本日はここまで。
この記事が気に入ったらサポートをしてみませんか?