毎日統計2
昨日から開始した、毎日少しでもいいから勉強をして、勉強を習慣化させようという取り組み。週末にまとめてやるという戦略は、幾度となく阻まれてしまった経緯から、これに至っている。
昨日の振り返り
昨日のは後半勢い任せになってしまっていたので、詳細な情報が落ちていた。相関係数や共分散を言葉だけで定義していたので、後から読んでわかりにくかった。がしかし、ここに式を書くのは億劫なので、参考リンクを貼っておく。ここの定義が簡易で例題もあっていい。
今日のお題
今日も昨日と同じ、統計学入門復習の続きである。
第四章:確率
統計的な判断「統計的推測」とも言われるが、それには確率が利用される。本性は確率の基本についておさらいしている。
またしても言葉の定義だ。
標本点:さいころの出る目で言うところの1~6のような「その事象がとりうる結果」のことを指す。
標本空間:標本点の全体集合のこと。全事象と言ってもいい。例えば2個のサイコロを投げる場合は、36通りの目の出方があるため、標本空間は36個の点からなる。と言える。
空事象:標本空間においてとり得ない事象のこと。例えば、「サイコロを二回振った時に13になる。」「コインを投げた時に表でも裏でもない値をとる」など。難しいがこのようなとり得ないものも事象とみなす。
根元事象:ただ一つの標本点からなり、分解できない事象。
複合事象:複数の根元自称に分解可能な事象
ここはイマイチよく分からないが、サイコロを1回投げた時に{1}{0}の事象は根元事象だが、{0,1}は複合事象と言うことになる。
この説明の方がしっくりくるかもしれない。恐らく、通常は複合事象=部分集合、根元事象=集合内の一つの事象。と理解していい気がする。
続いて、順列(nPr)と組み合わせ(nCr)である。定義は覚えている通り。ちなみに組み合わせの方のnCrは二項係数とも呼ばれるらしい。
計算の中で、n!などの階乗を求める時があるが、これはコンピュータがない時代には、数が多いと算出が難しかった。そんな時に、近似値を求めることができるのがスターリングの公式である。正直対数ってとっつきづらいけど、階乗するよりいいのね〜。昨日出てきたのはスタージェス、今日はスターリング、紛らわしいわ。
↓こっちの方が図解的にその成立を説明してて証明はわかりやすい。すごい。基になったのは積分なのね。そしてこの近似を使うためにはnが十分に大きくなくてはいけないと言うのが逆に面白かった。
そしてまたしても言葉の定義である。集合A,Bにおいて、、
排反事象:AとBが共通な部分集合を持たない時Aの事象が起きれば、Bの事象は起きないので、これを排反事象という。
和事象:AorBのどちらか一つが起きる、いわゆるA∪Bの事象
積事象:A且つBとなる、いわゆるA∩Bの事象
補事象:事象Aがおきないという事象を指す≠空事象(一致することもあるが、必ずしもイコールではない。)
そして上記の集合A,Bにおいて、その事象がおきうる確率をP(A),P(B)と書くと、以下のような定理が存在する。
加法定理:和事象の確率は、それぞれの確率の和で求まる。すなわち、P(A∪B)=P(A)+P(B)である。
乗法定理:積事象の確率は、それぞれの確率の積で求まる。すなわち、P(A∩B)=P(A)P(B)である。
条件付確率:「Bが起きた上でAが起きる確率」のような条件付の場合は、積事象の確率を条件が起きる確率で割ると求まる。すなわちP(A|B)=P(A∩B)/P(B)である。
かなり端折ったが、大まかに自分自身忘れかけていた部分をまとめると以上の通り。最後に一つの重大な前提と次の学習ステップを。
これらの一般的な確率論には、ある2種類の前提がある。それは確率の算出にあたって、「①各事象が起きる確率が同様に確からしい。」という前提に基づいているか、もしくは「②無限に試行してその結果から確率を算出する」というような前提を敷いているところである。ちなみに①をラプラスの定義、②を頻度説というらしい。このような算出方法は、誰が計算しても同一の値が算出されることから客観説と呼ばれる。
一方で、実際の現場では、実験ごとに統計的規則が変わってしまうような事象や、まだほとんど起こっていない事象について分析することがある。しかしこのような状況では、①も②も利用できない。そんな時に使うのが主観確率という。これはベイズ統計学と呼ばれる統計分析で、本書では扱われないらしいので、別途勉強することにする。覚えておこう。
ということで今日は1章分だけだが進められた。明日は旅行だがなんとか時間作って、頑張る。
この記事が気に入ったらサポートをしてみませんか?