♡恋愛で学ぶ統計学♡(No.6 検定とは?浮気調査です!)
今回も、モテるため、統計学を学びましょう!
♡恋愛で学ぶ統計学♡(No.5 回帰分析)の記事で、「モテ度」をあげるためには、何が1番影響を与えるのかを統計学の知識をつかって考えました。
ぜひ、その記事も読んでみてください!
そこで、重回帰分析した結果、、、、
「モテ度には、ファッションへの興味度とコミュ力がプラスに影響して、財力と学力はマイナスに影響する。そして、一番影響が大きいのは、コミュ力だ!」
となりました。しかし、この結果だと
ファッションへの興味度とコミュ力が
上がれば上がるほど「モテ度」も上がり
財力と学力が上がれば上がるほど「モテ度」は下がっていく
となります。さらに、いいかえれば、、、
「学力」と「財力」をあげればあげるほどモテないなら、逆に、より「バカになって」、より「貧乏になれば」モテるようになるのか???
バカで貧乏になればなるほど、モテるって、ちょっと意味わかりません(;^ω^)
でも、分析結果は、そう言っているのです。
(この分析結果は、これまでの♡恋愛で学ぶ統計学♡の記事で使ったアンケート調査をもとにしています。)
このエクセルをみると、モテ度という列の下に数値がありますね。
「コミュ力」の右の.724が意味するのは「もしもコミュ力が1上がるとモテ度は0.724上がる」です。
もう一つの例を考えましょう。
「財力」の右の-.127が意味するのは「もしも財力が1上がるとモテ度は0.127下がる」です。
でも、やっぱり「財力と学力が上がれば上がるほど「モテ度」は下がっていく」という分析結果は納得いきません。
この分析結果って正しいの?と思いますよね。その感覚は鋭いです。
この分析結果は間違っています。
実は、「有意な差がないため、「学力」、「財力」は「モテ度」にマイナスの影響を与えると結論付けれない」といえます。
さて、またまたよく分からない言葉がでてきましたね(;^ω^)
「有意な差」という言葉は統計を使う上で、ものすごく大切です。でも、あまり日常生活では出てこないので、イメージしにくいですよね、、、
では、この言葉をちゃんと使いこなせるようにしていきましょう!
「有意差」とは「意味がある差」という意味です。
しかし、この「有意な差」という言葉だけでは、理解しにくく、有用さを感じることが難しいので、「検定」という統計手法と一緒に説明していきます!
「検定」というと、「漢字検定」や「英語検定」をイメージされるかと思います。「検定」と聞くと、ある基準があって、合格か不合格かを決めるようなものですよね!
統計における「検定」も、「ある仮説を調べるテスト」のようなものが合格か不合格かを判断するようなものです。
もうすこし、統計的に言うと「検定は、母集団に関する仮説を標本の情報から検証すること」です。
しかし、考え方がすごく特殊ですので、ちゃんと確認していきましょう!
ここからは少し堅苦しい統計の話になるので、具体例から見たい方は、とばしてください(^^)/
検定について(真面目な話)
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
まず「検定」のやり方についてです。「検定」は決まった流れがあります。
検定の流れ
1. 手法を決める
2. 帰無仮説と対立仮説を立てる
3. 有意水準を決める
4. 検定統計量の産出
5. 有意水準と4の数値を比較
じつは、「検定」は、たくさんの種類があります、、、
それは、調べたいものの性質によって変わってきます。
この手法を選ぶ方法については、別の記事で紹介しようと思います。
手法を決めたら、帰無仮説と対立仮説を立てます。
帰無仮説は、比較したいものどうしの値が等しいという仮説
対立仮説は、比較したいものどうしの値が等しくないという仮説
です。基本的に、検定では等しくないことを示します。
ですので、等しいという仮説は無に帰したいので、帰無仮説と言います。
続いて、有意水準を決めます。これが、仮説を無に帰すかどうかの基準になります。よく有意水準5%というのが基準として使われ、α=0.05と表現されます。
なんでこんな基準を設けるかというと、帰無仮説で作った「比較したいものどうしの値が等しい」という現象が起きる確率が小さいということを示したいからです。そして、帰無仮説が起きる確率は5%より小さいなら、帰無仮説って、ほとんどあり得ないことだ!ということができます。そうなれば、「比較したいものどうしの値が等しい」は、ほとんどあり得ないことなら、「比較したいものどうしの値が等しくない」といえるよね?という考え方です。
そして、その5%以下の確率で起こりうる現象かどうかを判断するために、検定統計量というものを算出します。これは検定の手法によって計算式が違います。基本的には、エクセルなどの統計処理ソフトが計算してくれるので安心です。
そして、帰無仮説が起きる確率は5%より小さいということが示せたら、「等しくない」つまり「差がある」ことが言えるわけです。
しかも偶然できた差ではなく、「意味のある差」つまり「有意差がある」ということです。
帰無仮説は棄却(すてられる)され、対立仮説が採択されたとなります。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
検定について(恋愛の場面で理解しよう!)
では、具体的な恋愛のシチュエーションで検定の考え方を確認しましょう!
あなたが付き合っている彼氏が、浮気をしているかもしれない!
という状況です。本当に彼氏が、浮気をしているのかを考えるとき
まず仮説を立てます。彼氏が浮気をしていないことを信じたいですよね、、、ですので、仮説は下のように立てます。
無に帰したい仮説「彼氏は浮気をしている(彼氏=浮気している人)」
上の仮説に対立する仮説「彼氏は浮気をしていない(彼氏≠浮気している人)」
そして、ネットで調べたところ、「男性の5%は浮気をする」という情報があった。この5%が基準になる(有意水準のこと)
「では、彼氏のアリバイを調べてみよう!」
(パターン1:彼氏は浮気をしていない場合)
彼氏の友達に調査したところ、ほかの女性と遊んだり、食事をしたりするところは、ほとんど見ない。とのこと。SNSを見ても、女性と一緒にいる写真や証拠は見つけられなかった。さらに、彼氏の職場は95%が男性だから、職場の女性と交流はほとんどない。探偵事務所にも依頼して、ここ1週間の素行調査もしてもらったが特に他の女性とかかわりはなかった。
このことから、彼氏は浮気をしている可能性は5%以下になるだろう
そう考えると
「彼氏は浮気をしている(彼氏=浮気している人)」が間違っていた!
つまり「彼氏は浮気をしていない(彼氏≠浮気している人)」だ!
(パターン2:彼氏は浮気をしているとは言い切れない場合)
彼氏の友達に調査したところ、最近、女性の影がちらつくような会話をしたそうだ。SNSを見ると、自分と一緒に行ったことのない、おしゃれなお店の写真がアップされている。さらに、彼氏の職場は男性が多いが、最近新入社員の女の子が何人か入ってきたそうだ。探偵事務所にも依頼して、ここ1週間の素行調査もしてもらったが、会社で女性社員と仲良く話をしている姿は確認できたそうだ。
このことから、彼氏は浮気をしている可能性は5%よりも、高いだろうと言える、、、つまり
「彼氏は浮気をしている(彼氏=浮気している人)」という仮説を無に帰すことができなかったのだ、、、
しかし、ここで、早まってはいけない!「彼氏は浮気をしている(彼氏=浮気している人)」という仮説を無に帰すことができなかっただけで、「彼氏は浮気をしている」と言い切ることはできないのです!
よって、パターン2の場合は彼氏は浮気をしているとは言い切れないという表現になるのです。
もしかしたら、彼氏は、彼女をサプライズで驚かせるために、いろんなお店に行って下調べをしたり、女性社員に女性が喜ぶものをきいていたのかもしれませんからね。
このように、検定によって、「比較するもの同士が等しい」ということは難しく、基本は、「比較するもの同士が等しくないこと」をいうことができると考えておくことが重要です!
もちろん検定をつかって、「比較するもの同士が等しい」と主張をすることもできなくはありませんが、そのためには、もう少し統計を勉強する必要があります。「検出力」と「サンプルサイズ」というものを、さらに勉強することで、その主張をすることができます。
また「検定」で「有意な差」が示されたとしても、100%の確証があるわけではありません。そこがまた、不確実なものを扱う統計の難しさです。
重回帰分析における有意な差について
では、ながながと「検定」について説明をしましたが、、、話を戻すと
「学力」と「財力」をあげればあげるほどモテないなら、逆に、より「バカになって」、より「貧乏になれば」モテるようになる
という分析結果について、考えていたんですね。
もう一度言います。
再度、この表を見てください。
**p<.01, * p<.05 と書いてありますよね。
このpは、先ほどまで話していた例だと「彼氏が浮気をしている可能性(確率)」のことです。
つまり、調べた無に帰したい仮説(帰無仮説)が起こる確率を表しています。ですので「p<.05」という意味は「確率が0.05以下、つまり5%以下になっているよ」ということです。
この5%は、有意水準でよく使われる数値でしたね。
もちろん「p<.01」は、「確率が0.01以下、つまり1%以下になっているよ」となり、5%よりもさらに起こりにくい場合を想定しているんですね!(科学の世界では、有意水準1%をつかうことが多いです。)
ということは、「ファッションへの興味度」と「コミュ力」には**のマークがあるので「確率が0.01以下、つまり1%以下になっているよ」と考え、「有意な差」があると言えます。
よって、「ファッションへの興味度」と「コミュ力」が「モテ度」に「意味のある差」をもたらすので「影響している」といえます。
しかし、「学力」と「財力」にはマークがありませんね、、、
ということは、「有意な差」がないため、本当に「モテ度」へ影響しているのか分からないという結論になります!
よって、「学力」と「財力」をあげればあげるほどモテないなら、逆に、より「バカになって」、より「貧乏になれば」モテるようになるという理論は崩壊しますね(笑)
このように、「有意な差」があるかを統計を扱う際には、注意していきましょう!
まとめ
①有意な差は、意味のある差
②有意な差があることを示すのが検定
③回帰分析の場合、有意な差が示されていない説明変数(今回なら学力や財力やコミュ力のこと)は、目的変数(今回ならモテ度)に影響を与えているか分からない。
では、重回帰分析の結果は、標準回帰係数と有意差だけ見ればいいのか?というと、実は、まだ考えなくてはいけないことがあります(T_T)
一筋縄ではいきませんね😅
別の記事で、重回帰分析で注意するべき「多重共線性」と「決定係数」についてはなしていこうと思います!
それにしても、、、浮気をしているかどうかを100%の確率で見極めるには、やはり現行犯逮捕しかありませんね、、、!笑