統計に騙されない
こんにちは😃
統計学の考え方はいろんなところに使われています。今回注目するのは統計を使って主張が正しいと言うとき、誰かが言っているときに気をつけることです。
統計いろいろ
統計って分かっているようで分かっていない感じです。いくつかのサンプルから全体を知ろうという考えです。有名なところでは平均値です。それぞれいろんな値を取りますが、全部足して、サンプル数で割ります。調べたい集団の全部を見ることもあるし、いくつかを取り出して平均値を計算することもあります。
今回取り上げたいのは「検定」なるものです。その中で、「差があるか、差があるとは言えないか」のもの。
知っていることと知らないこと
統計で勘違いしやすいポイントがあります。いくつかの言葉は知っています。例えば95%です。知らない言葉も多いです。「有意」です。統計的に意味がある、ということです。例えば、56と57では差があります。この差が統計的に意味のある差なのか、バラツキの範囲なのか、ということが大事になります。意味がある差のとき、有意な差があると言います。
独り歩きの有意差
実のところ、統計的に有意差があります、というのは客観的に見えそうですがとても主観的です。
検定で有意差がある、というのは自らに主張の補完にしかなりません。それをもって証明されるわけではないのです。ここに統計を不誠実に利用する人、理解していないけど統計で出たからいいやと言う人の思惑があります。
有意水準0.05でt検定の結果、有意差がある、と言ったとき、0.05は知っていること、t検定は知らないこと、有意差は意味のある差と説明されたとします。もう、知らなきゃほとんど勘違いします。
「差」があるかどうか、ということだけでそれ以外の情報がほとんど無くても「差がある」ということに注目してしまいます。
全体を見る
もし実験データを見ることができる立場なら、実験の条件、サンプリング方法、評価方法が妥当かどうかを確認したら良いです。実験の順番はランダムになっているか、偏ったサンプリングではないか、評価方法は適切か、導かれた結論は妥当なものか。統計は、あくまで実験データの評価でしかありません。実験が適切に行われ、データが取られたかは実験方法や生データを確認しなければ分からないことです。しかし、生データまで一般に公表して発表することはありませんから、公表されている情報を見て、どのくらい信頼できるものかをイメージするべきです。難しそうだから結論だけ聞いておくこともできますが、後で不都合なことが出て来るかもしれません。
統計はズルなのか
そんなこと言っても、知識がなけりゃ妥当かどうかなんて分かりません。これが悪用されるポイントなのです。実験の中身はほとんど示さないのに、「有意水準がー、有意な差がー」として聞かせるものだから、知識のない人を丸め込んでしまいます。言っている方も、よくわからないけど言われた通り計算して「差がある」と言っているだけの場合もあります。こうなると、計算に意味があっても主張に意味がありません。
基礎知識を持っておく
検定を行うための計算方法や、妥当な実験方法を完全に理解しておく必要はありません。大雑把なことを知っておくことで、誰かの統計的に意味のあるという主張が妥当なのか、そうでないかを見ることができます。
自分がなんらかの事象を検定を用いて評価するときは、しっかりした知識が必要です。完全に手順化されたものでも出来そうです。そのときは知識のある人がときどきチェックしてくれれば、異常にも気付くことができると思います。
では。