統計検定2級に向けて、有意確率を理解したい(前編)
はじめに
分析屋の小泉と申します。
統計学に触れなくても確率という言葉はよく耳にしますよね。
もちろん統計学の勉強をし始めれば避けては通れない概念です。
統計検定2級では単純な確率の問題も出ますが、「確率分布」「有意確率」「確率密度関数」など、確率に関わる様々な概念が登場します。
その中でも、統計検定2級の取得には統計的仮説検定とそれに付随する有意確率の理解が必要になります。
有意確率はp値とも呼ばれますが、結局「0.05未満なら差がある」としか覚えられず、
何を求めているのか、何故差があると言えるのか、
きちんと理解できていないことも多いのではないでしょうか。
今回は、統計学における確率の定義と公理、および偶然と必然の違いについてを前編に、
後半ではそれを踏まえた有意確率(p値)の解説、そして現在議論されているp値の問題点について解説していきます。
いずれも有意確率というテーマを理解するのに必要な概念ですので、前後編に分けてじっくり考えていきます。
徐々に肌感覚と統計学における定義がズレ始めてきますが、
「少し本を読んだけど結局よく分からなかった」という方に向けて頑張って執筆しました。
身近な事例から、一緒に有意確率の概念を押さえていきましょう。
前回の記事はこちらからどうぞ!
確率と偶然・必然の定義
wikipediaで「確率」と調べてみると、
とあります。
パッと聞いてこの定義には納得できますよね。
「この確率は〇〇%!」みたいな話って結構日常会話でもする気がします。
ところで、私は学生時代に量子化学に触れて「偶然って量子論的には必然だし、必然って量子論的には偶然じゃね?」という迷宮に入ったことがあります。
こうなるとめんどくさいので、こんなことは気にしないでください。
ミクロに見れば様々な事象には理由や原因があるかもしれませんが、
もっとマクロに(広い視点で)見ると、「”たまたま”この結果が出た」と観測するのを私たちは偶然とみなしています。
逆に、”何らかの要因”があると考えるなら、どんな低確率でも「アレが原因だ」と考えてしまいますよね。
統計学では、”何らかの要因”を受けた上での結果を必然として扱います。
余談ですが、”何らかの要因”とは別に何でもいいです。
「今日早起きしたから」とか、
「最近運が悪かったから」とか、
「神のご加護を受けたから」とか、
自分の主張に結びつける要因なら何でも良くなります(検証する必要はありますが)。
では、あらかじめ確率が分かっている(推測できる)状態で、ごく低確率のはずの結果が出たらどうでしょうか。
例えば、宝くじが当たったり、全然分からなくて鉛筆を転がして埋めたマークシートで合格したり…。
びっくりするし、「何らかの要因がある」と考えることが多いのではないでしょうか。
「普通に考えてこの低確率は引かないだろ」と考えていた結果を引いたら、
「最近運悪かったからなー、やっと運が戻ってきた」とか考えませんか?
無理矢理でも要因を結びつけてしまうのが人間の性です。
問題は、『確率に対してどんな印象を抱くか』という点です。
ちなみに、何らかの未来を予測する上で「この確率は〇〇%だ」という話をすることがありますよね。
これは、これまでの過去も同じ環境のパラレルワールドの自分が同じ状況に置かれたとき、
100人いたら〇〇人はその結果になるという解釈でもあります。
例えば天気予報での降水確率30%は、「同じ気象条件の環境が100回あったとき、30回は雨(もしくは雪)になる」という主張でもあります。
だから、10%とか90%も肌感覚では確定と思いがちですが、統計的には外れる可能性があるんですね。
確率の公理と印象
統計学において、
確率の総和は1(=100%)である
という約束(公理)があります。
確率を考えるとき『こんなことがあり得る』と想定したパターンのどれかが必ず出る、という約束事とも言えます。
これを逆手に取れば、定義していなければあり得ないパターンも存在すると主張できてしまいます。
例えば、「6面のサイコロを振る」という事象について。
1~6の面が出るという事象はもちろんですが、
『斜めに止まる可能性は?』とか『地球の重力が突然なくなったらどの面も出なくなるのでは?』ということも、
“定義をしなければあり得る”という事態になってしまいます。
だから、問題文には「ただし、~~でないものとする」のような文言が多いです。
わざわざ注意書きをしないと、”理論上はあり得る”というパターンがいくらでも存在してしまうからです。めんどくさいエンジニアみたいですね
よって、事象を定義すればどんなに低確率でも「なくはないです」となります。
その事象がどんなに低確率だとしてもあり得るし、その事象がもし得られたら『何らかの要因がある』と考える方が矛盾がないということですね。
ここまで文章でややこしいことを解説したので、実際に数値を見ながら確率を体感してみましょう。
予測確率の取り扱い
確率の話をするなら天気予報かソシャゲのガチャが身近だと思うので、今回はガチャで考えてみます。
ただし、パターンが多いと面倒くさいので、
SSRを引くことを「成功」、それ以外を「失敗」の二択とし、
10連確定SSRなどの要素はないものとします。
今回はSSRが当たる確率が1%のガチャを考えます。
ありがちですが、これを当てる確率はどれくらいでしょうか。
今回は成功と失敗の2択しかないとみなし、成功確率が1%と考えます。
こうなると統計学をかじった人ならおなじみ、二項分布で確率を予測することができます。
「全然分からないよ!」という方も大丈夫です。
エクセルで確率を予測できるくらいよくあるという話ですし、いずれ解説します。
今回は、「成功確率が1%なら、100回やれば1回くらいは当たりそう!」と考え、
成功回数をkとし、
100回やって1回も当たらない(k=0)確率
100回やって1回当たる(k=1)確率
100回やって2回当たる(k=2)確率
・
・
・
100回やって100回当たる(k=100)確率
を求めてみましょう。
エクセルで成功回数kの0~100を適当な列に入れ、隣に次のような関数を入れてみます。
この関数は、二項分布での確率を求めるものです。覚えなくてOKです。
=BINOM.DIST([成功回数k],100,0.01,FALSE)
このようになりました。
ところで、1回も当たらない(k=0)確率が0.366ならば、
1回以上当たる確率は「全体のうち”1回も当たらない(k=0)”以外の確率」となります。
「確率の総和は1である」という公理から、全体とは1(100%)を表しますから、全体からk=0の確率を引き、
$${1-0.366=0.634}$$
よって、63.4%の確率で1回以上SSRが出るという予測が立てられます。
もちろん、k=1~100の確率をSUM関数で合計しても同じ結果になります。
ぜひ試して確率の公理を体感してみてください。
さて、これはあくまで予測確率です。
同じ過去を辿ってきた自分がパラレルワールドに何人もいたとき、
1000人中634人は1回SSRを引くと言えます。
ですが、未来(結果)は1つしか体感できません。
もしあなたが1回でもSSRを引いたらパラレルワールドの63.4%と同じ未来に進んだといえますが、
もし1回もSSRを引かなければ、残り36.6%の未来を進んだことになります。
結果はガチャを引いた時点で確定しますが、求めた値は予測確率でしかありません。
1回以上SSRを引いた後に予測確率を考えれば
「確率の過半数63.4%を引いたんだ、当たり前だね」
と考えるかもしれませんが、
1回も引けずに予測確率を振り返ると
「36.6%を引いたのか…確率的にはレアだけど…運が悪かったのか?」
と考えるかもしれません。
このように、予測確率が求められる状況で、事実から確率の印象を評価することが、
有意確率(p値)を理解する上で非常に重要になります。
終わりに
今回はここまでです。時系列と確率の印象について理解できたでしょうか。
次回はいよいよ今回の例題を用いて有意確率(p値)について解説します。
有意確率は”確率”である以上、時系列の解釈が非常に重要です。
ここまで回りくどく説明しているのには理由があります。
有意確率は統計学の初学者と専門家で認識の齟齬が大きく、度々議論になる話題でもあるからです。
後編の余談として説明しますが、安直に「p<0.05だから有意差あり」という認識に対し、
警鐘を鳴らす専門家が非常に多いのです。
ぜひ後編も読んでいただき、確率の解釈と有意確率の利用についてご自身の中へ落とし込んでいただければと思います。
後編の記事はこちらです!
ここまでお読みいただき、ありがとうございました!
この記事が少しでも参考になりましたら「スキ」を押していただけると幸いです!
これまでの記事はこちら!
株式会社分析屋について
弊社が作成を行いました分析レポートを、鎌倉市観光協会様HPに掲載いただきました。
ホームページはこちら。
noteでの会社紹介記事はこちら。
【データ分析で日本を豊かに】
分析屋はシステム分野・ライフサイエンス分野・マーケティング分野の知見を生かし、多種多様な分野の企業様のデータ分析のご支援をさせていただいております。 「あなたの問題解決をする」をモットーに、お客様の抱える課題にあわせた解析・分析手法を用いて、問題解決へのお手伝いをいたします!
【マーケティング】
マーケティング戦略上の目的に向けて、各種のデータ統合及び加工ならびにPDCAサイクル運用全般を支援や高度なデータ分析技術により複雑な課題解決に向けての分析サービスを提供いたします。
【システム】
アプリケーション開発やデータベース構築、WEBサイト構築、運用保守業務などお客様の問題やご要望に沿ってご支援いたします。
【ライフサイエンス】
機械学習や各種アルゴリズムなどの解析アルゴリズム開発サービスを提供いたします。過去には医療系のバイタルデータを扱った解析が主でしたが、今後はそれらで培った経験・技術を工業など他の分野の企業様の問題解決にも役立てていく方針です。
【SES】
SESサービスも行っております。