今さらながらデータ分析でやってはいけない15のこと:チェリーピッキング
本記事では geckoboard が「Data fallacies」としてまとめている15個の項目を参考にさせていただきます。
1.Cherry Picking : チェリーピッキング
2.data dredging : データの浚渫(しゅんせつ)
3.Survivorship Bias : 生存バイアス
4.Cobra Effect : コブラ効果
5.False Causality : 偽の因果関係
6.Gerrymandering : ゲリマンダー
7.Sampling Bias : サンプリングバイアス
8.Gambler's Fallacy : ギャンブラーの誤謬(ごびゅう)
9.Regression Toward the Mean : 平均への回帰
10.Hawthorne Effect : ホーソン効果
11.Simpson's Paradox : シンプソンのパラドックス
12.McNamara Fallacy : マクナマラの誤謬(ごびゅう)
13.Overfitting : 過学習
14.Publication Bias : 出版バイアス
15.Danger of Summary Metrics : サマリーメトリクスの危険性
はじめに
みなさん、データ分析してますか?
データ分析をする上で、やってはいけないとはなんとなくわかっていながらもつい疎かにしてしまったり、気づかないうちにやってしまったことなどあるのではないでしょうか。
そんなことを避けるために、
なぜやってしまうのか?
やらないためにはどうすればよいのか?
を個人の見解や経験をもとにまとめたいと思います。
ここでまとめることはそこまで専門的な内容は含まれないので、分析する人に限った話ではなく、その分析結果を活用する人にも読んでほしいです。
本記事では、その中の「チェリーピッキング」についてまとめます。
チェリーピッキングとは?
心理学用語の1つに「認知バイアス」というものがあり、これは人が物事を判断するときに、個人の常識や様々な要因によって非合理的な判断を行ってしまうことを言います。
その認知バイアスの1つに「チェリーピッキング(確証バイアスともいわれる)」があり、簡単に言うと
自分が既に持っている意見・信念を肯定する情報ばかりを集め、
そうでないものを除外しようとする傾向
ということです。
これを聞くと「そんなことしない」とみなさんが口を揃えると思います。
しかし、たとえば以下のようなことに心当たりはありませんか?
・仮設がいつのまにか前提となってその前提を正しいことを説明するための根拠を集めていませんか?
・サービスを改善するための提案がいつの間にか、上司が納得するための提案とするための根拠を集めていませんか?
・戦略を遂行するための施策がいつの間にか、今期の目標を達成するために実施する施策の根拠を集めていませんか?
これらに心当たりがある人は、チェリーピッキングをしてしまっている可能性が高いです。
なぜやってしまうのか?
チェリーピッキングをやってしまう原因は、
自分が正しいと思いたい
からです。
これを聞くと、こんな自分勝手な人は周りが止めればよい、と考えるかと思います。
しかし現実は周りはこれを止められないことが多いです。
なぜなら、チェリーピッキングをしてしまう人は、以下のようなテクニックを駆使して自分が正しいことを証明しようとして、まわりがそれに納得してしまうからです。
1. 妥当な根拠にみせる
「根拠としてこういうデータがある」、「専門家の人もそう言っていた」などというと、それらに詳しくない人は反論できず納得せざるを得なくなってしまいます。
2. バーナム効果で納得感を与える
当たり前の結果ではあるがそれをデータで示すことで納得してもらい、利用するデータが妥当であるかのように見せてしまいます。
3. 論点をすり替える
意見や見解に対して指摘すると、「そこではなくこっちが重要で」や「そこは既に決定事項なので前提として考えてほしい」などと議論ができなくなってしまいます。
やらないためにはどうすればよいのか?
以下2つを試すことで、チェリーピッキングを避ける可能性が上がると思います。
・クリティカルシンキング(批判的思考)
・根拠の妥当性
クリティカルシンキング(批判的思考)
クリティカルシンキングとは、目的を明確にした上で自他の考えにはバイアスが含まれていることを前提に、本当にこれでよいのか?と問い続けることです。
具体的には、根拠までのプロセスに対して、なぜこのようなプロセスで根拠に至ったのかを明確にしていきます。根拠に至るためにはいくつかの前提が出てきて、その前提がどのような根拠で決まったのかなどを問い続けることが重要です。
根拠の妥当性
logicadiaの記事では妥当な根拠の3つの条件として「客観性」、「普遍性」、「網羅性」の3つの条件が重要と記載されています。
前述の例だと、データを示したり専門家の意見をすことで客観性はあるものの、普遍性と網羅性がないので妥当な根拠は言えないことになります。
また、注意点としては専門家の意見をもらうときに専門家との認識がずれてしまうことがあるので、ずれないように対処することが大事です。
おわりに
チェリーピッキングが起きず、正しくデータ分析の結果を活用できるようになるための参考となればと思います。
参考
・https://www.geckoboard.com/best-practice/statistical-fallacies/
・https://effectiviology.com/cherry-picking/
・https://logicadia.com/logical-thinking/valid-reason
・https://www.kaonavi.jp/dictionary/criticalthinking/
この記事が気に入ったらサポートをしてみませんか?