数学の小ネタ#29 シンプソンのパラドックス
10年くらい前に、『統計学が最強の学問である 西内 啓 (著)』という本が出版されました。確かに統計学は重要な学問ですが、”最強”とまでは思えません。統計学を使いこなす能力があれば、ビジネスなどで最強となるかもしれませんが、統計学自体が最強というわけではありません。
統計学はマーケティングなどで力を発揮しますが、使い方を間違えると最強ではなく”最悪の結果”をもたらします。統計で重要なキーワードに”母集団”という言葉があります。母集団はその名前の通り、統計データの元になった集団のことです。この母集団の選択を間違えると、統計データが無意味になってしまいます。
統計学の有名なパラドックス(逆説)に『シンプソンのパラドックス』というのがあります。これは、イギリスの統計学者エドワード・シンプソンによって記述された統計学的なパラドックスのことです。言葉による説明だけでは難しいのですが、「母集団全体での相関と、母集団を分割した集団での相関は、異なっている場合があるという逆説」のことです。具体例は次の通りです。
あまり良い例とは言えませんが、次のように解釈することができます。B君は最初のテストで正答率が90%、二回目は30%でした。それに対して、A君の正答率は1回目が60%、2回目が10%でした。個別の正答率だけで考えると、B君が優れているように思えますが、全体の正答率ならA君は54.5%、B君は35.5%となります。当然優れているのはA君になります。
統計データが与えられた時、それをそのまま鵜呑みにするのは危険です。まずは、その統計データの背景に隠れている様々な要因を考えることが必要です。