シンプソンのパラドックスを直感的に理解する
シンプソンのパラドックスってごぞんじですか?
分析の仕方によって矛盾した(ようにみえる)結果が現れる現象で、シンプソンという人が見つけたのでシンプソンのパラドックスと呼ばれています。
少し前、イスラエルの新型コロナワクチン評価でこの現象がみられ、話題になっていました。今回はこの現象について、統計の前提知識が無い方にも直感的に理解いただけるよう説明してみたいと思います。
野球選手の打率
こちらの打率表を見てください。A選手とB選手どちらが打者として優秀だと思いますか?
A選手が打率3割台なのに対してB選手はなんと5割台!これを見るとB選手の方が圧倒的に優秀にみえますね。
でも、もう少し詳しく見ていくと、がらっと印象が変わります。
実は上の数字はプロでの成績と草野球での成績を足したものでした。プロと草野球の成績を分けたのが下の表です。
A選手はプロで打率3割、草野球で打率9割の成績を残しています。それに対してB選手は草野球では6割ですが、プロではわずが1分の成績です。
これを見ると明らかにA選手の方が優秀という印象に変わりますね。
さらによく見ると、興味深い現象に気づきます。全体で見たときと分けて見たときで結果が正反対に見えるのです。
全体で見たときはB選手の方が打率が上でした。しかしプロ、草野球に分けて見たときはどちらもA選手の方が打率が上になっています。
これがシンプソンのパラドックスと言われる現象です。
この例だと「A選手はレベルの高いプロ野球での実績が大部分だから、草野球の実績がほとんどのB選手より打率低いのは当たり前、ごっちゃにして比べてはいかん」と直感的に理解できたのではないでしょうか?
直感的に理解出来たのはもしかしたら私が野球好きだからかもしれません。直感的に理解出来なかった方いらっしゃたらすみません。。。
ワクチンの効果
ここからは架空のワクチンの効果というストーリーでお話しします。
野球選手の打率のストーリーと数字は同じで、項目名だけワクチンの効果ストーリー用に変えています
こちらワクチン接種者と未接種者の重症化率を比較した表です。
この表ではワクチン接種者の方が重症化率高く、ワクチンの効果が無い、それどころか状況悪くさせているようにみえます。
しかしシンプソンのパラドックスを知っていれば、これだけで結論づけることは出来ないと気づきますね。
調査したところ、若年層と高齢層では重症化のリスクが異なることが分かりました。そこで上の表をさらに若年層と高齢者に分けてみました。
若年層、高齢層とも未接種者の方が重症化率が高く、ワクチン接種の効果があったことが分かります。
全体で見たときは接種済みの方が重症化率が上でした。しかし若年層、高齢層に分けて見ると、どちらも未接種の方が重症化率が上になっています。
この例「高齢者の方が重症化率が高いから優先して接種した結果、接種者のほとんどが高齢者、未接種者のほどんどが若年層」という状況で発生します。
最近イスラエルでこれと似た状況が発生し「ワクチンは効果無い」という噂がひろまっていたようで、データ分析の専門家の人が「数値の見方間違ってますよ」という内容をブログの記事にされていました。
数字を見るときは注意しよう!
全体で見たときと分けて見たときで結果が正反対に見える。
この直感に反する現象について理解しておかないと、全体の数字だけ見て過った結論をだしてしまう可能性があります。気をつけましょう!
最後まで読んでいただきありがとうございました。
Photo by Fakurian Design on Unsplash