毎日統計2

昨日から開始した、毎日少しでもいいから勉強をして、勉強を習慣化させようという取り組み。週末にまとめてやるという戦略は、幾度となく阻まれてしまった経緯から、これに至っている。

昨日の振り返り

昨日のは後半勢い任せになってしまっていたので、詳細な情報が落ちていた。相関係数や共分散を言葉だけで定義していたので、後から読んでわかりにくかった。がしかし、ここに式を書くのは億劫なので、参考リンクを貼っておく。ここの定義が簡易で例題もあっていい。

今日のお題

今日も昨日と同じ、統計学入門復習の続きである。

第四章:確率

統計的な判断「統計的推測」とも言われるが、それには確率が利用される。本性は確率の基本についておさらいしている。

またしても言葉の定義だ。

標本点:さいころの出る目で言うところの1~6のような「その事象がとりうる結果」のことを指す。

標本空間:標本点の全体集合のこと。全事象と言ってもいい。例えば2個のサイコロを投げる場合は、36通りの目の出方があるため、標本空間は36個の点からなる。と言える。

空事象:標本空間においてとり得ない事象のこと。例えば、「サイコロを二回振った時に13になる。」「コインを投げた時に表でも裏でもない値をとる」など。難しいがこのようなとり得ないものも事象とみなす。

根元事象:ただ一つの標本点からなり、分解できない事象。

複合事象:複数の根元自称に分解可能な事象

ここはイマイチよく分からないが、サイコロを1回投げた時に{1}{0}の事象は根元事象だが、{0,1}は複合事象と言うことになる。

この説明の方がしっくりくるかもしれない。恐らく、通常は複合事象=部分集合、根元事象=集合内の一つの事象。と理解していい気がする。

続いて、順列(nPr)と組み合わせ(nCr)である。定義は覚えている通り。ちなみに組み合わせの方のnCrは二項係数とも呼ばれるらしい。

計算の中で、n!などの階乗を求める時があるが、これはコンピュータがない時代には、数が多いと算出が難しかった。そんな時に、近似値を求めることができるのがスターリングの公式である。正直対数ってとっつきづらいけど、階乗するよりいいのね〜。昨日出てきたのはスタージェス、今日はスターリング、紛らわしいわ。

↓こっちの方が図解的にその成立を説明してて証明はわかりやすい。すごい。基になったのは積分なのね。そしてこの近似を使うためにはnが十分に大きくなくてはいけないと言うのが逆に面白かった。

そしてまたしても言葉の定義である。集合A,Bにおいて、、

排反事象:AとBが共通な部分集合を持たない時Aの事象が起きれば、Bの事象は起きないので、これを排反事象という。

和事象:AorBのどちらか一つが起きる、いわゆるA∪Bの事象

積事象:A且つBとなる、いわゆるA∩Bの事象

補事象:事象Aがおきないという事象を指す≠空事象(一致することもあるが、必ずしもイコールではない。)

そして上記の集合A,Bにおいて、その事象がおきうる確率をP(A),P(B)と書くと、以下のような定理が存在する。

加法定理:和事象の確率は、それぞれの確率の和で求まる。すなわち、P(A∪B)=P(A)+P(B)である。

乗法定理:積事象の確率は、それぞれの確率の積で求まる。すなわち、P(A∩B)=P(A)P(B)である。

条件付確率:「Bが起きた上でAが起きる確率」のような条件付の場合は、積事象の確率を条件が起きる確率で割ると求まる。すなわちP(A|B)=P(A∩B)/P(B)である。

かなり端折ったが、大まかに自分自身忘れかけていた部分をまとめると以上の通り。最後に一つの重大な前提と次の学習ステップを。

これらの一般的な確率論には、ある2種類の前提がある。それは確率の算出にあたって、「①各事象が起きる確率が同様に確からしい。」という前提に基づいているか、もしくは「②無限に試行してその結果から確率を算出する」というような前提を敷いているところである。ちなみに①をラプラスの定義、②を頻度説というらしい。このような算出方法は、誰が計算しても同一の値が算出されることから客観説と呼ばれる。

一方で、実際の現場では、実験ごとに統計的規則が変わってしまうような事象や、まだほとんど起こっていない事象について分析することがある。しかしこのような状況では、①も②も利用できない。そんな時に使うのが主観確率という。これはベイズ統計学と呼ばれる統計分析で、本書では扱われないらしいので、別途勉強することにする。覚えておこう。


ということで今日は1章分だけだが進められた。明日は旅行だがなんとか時間作って、頑張る。






この記事が気に入ったらサポートをしてみませんか?