【騙されない思考論】何と比べるかが重要
新型コロナウイルスのワクチン接種が推奨され、ほぼすべての都市で大規模に集団接種が行われていた際、ワクチン接種後に亡くなってしまった方がかなり多かった旨の報道、言説が世の中には溢れていました。亡くなった方には心からお悔やみ申し上げます。ただし、死亡の原因がワクチンの接種であるかのように触れ回る、悪意のある(あるいは、善意であるからこそ悪質な)言説については、データから反論することができます。
同様の問題は、世の中にありふれています。そして私たちは簡単に騙されてしまいます。
ですから、「適切な比べかたをしていないデータに騙される」ことを防げるようになっておきましょう。
騙されない思考論の第一回、「何と比べるかが重要」を始めます。
「統制」は難しい言葉ではない
データを扱う方は、統制群(Control group)という言葉をよく使いますし、その意味も十分にご存知だと思います。これは様々なデータの比較検討を行う際に登場する言葉で、少し堅苦しい感じがしますが全く難しくありません。まさしく「何と比べるか」を考える際に、主に検討したいデータと比較するデータのことです。
例えば、今年の夏は異常に暑かったために、ポータブルタイプのエアコン(窓に設置出来たりするタイプ)の売れゆきが例年の4倍ほどだったらしいです。このときの「例年の」というのが、比較されるべきデータ、統制データです。この値は適切なものである必要があります。例えば、ここ数年、毎年のように冷夏であった場合。この部分を比較対象にしても、異常な暑さゆえに売り上げが向上したというデータの補足にはなりえません(ほかの年が涼しくて売り上げが落ち込んだだけかもしれない)。同じ理由で、ある一年のデータとの比較も適切ではありません(たまたま暑い、寒いという影響が強い)。あくまで「例年の」売上よりも多いというのが重要なわけです。正しい比較をしなければ、正しい考察は得られません。ここをしくじると、データの意味するところ、解釈が歪められてしまいます。
比べなければ主張できない
例えば、ポータブルエアコンの今年の売り上げは市場全体で約3億円でした。この数字を見ても、それが多いのか少ないのかはわかりません。例年は1億円でした、ということを知り、初めて多い/少ないことがわかります。すなわち値は比較しなければ、値についての考察はできないと考えてよいでしょう。
あなたは100メートルを10秒ちょうどで走ることができます。これがかなり速いほうだとわかるのは、適切な統制群が頭の中にあるからです。初出のデータについて、あるいは込み入った分析をしたデータについては、必ず統制群を横に置いて比較しなければなりません。
なぜなら、データというものは基本的に私たちの印象により解釈のされかたが大きく変わってしまうからです。正しくデータを理解するためには、この印象の混入を防ぎ、冷静に客観的にデータを俯瞰する必要があるのです。
印象の混入というインシデント
では、少し重たいお話ですが、先に述べた新型コロナウイルスのワクチン接種後の死亡例で説明をしてみましょう。
大変残酷な事実ですが、新型コロナウイルスを摂取後に亡くなった方が多数いたことは事実です。2023年4月30日までに、2075名の方が亡くなっています(「接種後」の定義、死因の詳細などについてはここでは省略します)。この事実を受け止めないことには話が進みません。しかしながら、それがワクチン接種のせいであると考えるのは時期尚早です。2075人という数の大きさ、そしてそもそも誰しもが持っているワクチンが危険であるという印象、これがデータの解釈を大きく歪めています。
さて、この場合、「ワクチンによって多くの方が亡くなった」という主張をするためには、どのようなデータと比較する必要があるでしょうか。「いや、亡くなっているのは事実なんだから、比べる必要などないのでは」と思った方は、重要な事柄を見落としています。あくまで「ワクチンによって」亡くなったと主張するために必要なデータが、対にすべきデータがあります。
あるいはこう考えるかもしれません。「ワクチンを打ったあとに亡くなっているのだから、ワクチンのせいだろう」。しかしそれは冷静な分析とは言えません。そう思ってしまうのは仕方がないことかもしれませんが、それはあなたがワクチンを危険なものだと思っているからです。
勿体ぶっても仕方がないので種明かしをしますが、この件について私たちが忘れがちなある絶対的な事実があります。それは、何もしなくても人は死んでしまうということです。何もしなくても人はある一定の確率で死んでしまいます。がんでも交通事故でもなく、いわゆる心不全(原因不明死)は、実は毎日、日本中で低確率で起きていることです。何もしなくても、私たちは一定の確率で死にます。
つまりワクチンを打っていなくても死ぬことがある以上、それがワクチンのせいだというデータを示す必要があるわけです。「いやいや、そうは言って2075人という人数はかなり多いから、不審死では説明できないだろう」と思うかもしれません。しかし、思い出してみてください。私たちは、人口の何割が、平均何回ワクチンを打ったでしょうか? 人工の85%が2回接種したとしても(ガバガバ計算ですが)、なんと約2億回。さて、先に示した通り、私たちは黙っていても低確率で死にます。従って、ワクチンを打った直後だけ死なないという不自然なことにならない限り、ワクチンを打った直後に死んでしまうということは必然的に低確率で生じます。逆にワクチンを打ったあとに死ななくなるのなら、それはそれで怖いでしょう。
従って、この例で私たちは2つの印象の混入を許していたわけです。一つは、データの絶対数の大きさ。しかしこれは、まさしく何と比べて大きいのかを考えるべきでした。2つ目は、ワクチンというものに対する、何か起きても不思議ではないという恐怖。この2つの印象の混入が合わさって、ありもしない因果関係を夢想してしまうのです。
適切な統制群との比較
では、このケースの適切な統制群は何でしょうか。逆の言い方をすれば、何と比較すれば、ワクチンによる死亡が生じていたと主張できるでしょうか。
ここでの適切な統制データは、ワクチン接種者に発生するだろう偶然の死亡確率です。約**%で偶然の死亡が起きるわけだから、ワクチン接種から1日分であれば***人程度の死者が出るだろう、という計算が可能です。それよりも明らかに死亡数が多ければ、ワクチンによるものという因果関係を説明することができるかもしれません。
ここでひとつ注意。統制データは正しく計算しなければなりません。例えば、ただ単にワクチン接種者と非接種者を2つに分け、それぞれで接種後1日の死亡確率を計算する。この比較ではいけません。見出しにもあるとおり、適切な統制群と比較しなければなりません。
この講義では、少なくとも「比べる」ことの重要性を知っていただきたいので様々な説明をしますが、実は「適切な統制群」を定めることはけっこう難しい作業です。適切だと思っていても、実はデータが歪んでいたということはけっこうあります。のちに取り上げる抽出バイアス(サンプリングバイアス)なども関わるので、一筋縄ではいきません。
なぜ、ワクチン接種者と非接種者を2つに分け、それぞれで接種後1日の死亡確率を計算するやりかたではダメかというと、高齢者や基礎疾患などが優先して接種されてきたワクチン接種者の群は、突然死の確率がもともと高いからです。従って、この方法ではワクチンによって亡くなったと主張することができません。やはりそうした高齢者や基礎疾患ありの方で生じると推定されるワクチン接種後の偶然の死亡の確率と、実際の死亡確率を比較する必要があります。
結論を言ってしまえば、新型コロナウイルスの接種が原因で多数の人が亡くなっている、という言説はデマです。まさしく適切な比較がなされていない、絶対数だよりのデータに騙されるというよい例ですので、覚えておきましょう。
こちらの記事が平易な文章でわかりやすいかと思います。
https://www3.nhk.or.jp/news/special/coronavirus/vaccine/qa/detail/more-detail/qa_05_a04.html
比較がないものは全て疑ってよい
さて、適切な比較が必要であることを説明してきましたが、果たして私たちはそうした問題があるということに気が付くことができるでしょうか。これは適切な比較をしていない、と気が付かないことには、統制群を考え直すこともできません。
ひとつのコツは、比較がないデータはすべて疑ってよいということです。私がここまで述べてきた、適切な比較をすべきだという事柄は、あらゆる主張を行う人々がよく知っていることです。だから自分の主張をサポートするようなデータがあるなら喜んで提供します。もしもワクチン接種後の死亡数が、自然死から推定される死亡数のモデルを大きく上回っていたら、確実に発信します。しかしそうしたデータが存在しないということが、この主張の根拠のなさを示していると言えるでしょう。
エアコンの例も同様です。今年はなんと**円も売り上げています!と比較なく示されていたら、ああ、あまり売れなかったのかなと思っていいでしょう。あるいは不適切な比較(昨年の暖房の売れ行きと比べて多いです!など)だけが登場する場合でも同様です。データは比較すべき、比較すべきということをデータ提出者もわかっている、だから比較がないものは疑うべき、という三段論法です。データを見たら、何と比べて?と疑う、それと比べていいのか?と疑う。それが「統制が無いデータに騙されない」コツと言えるでしょう。
さて、本日の講義の内容を使って、以下の事柄を考えてみましょう。先に例題を示しますので、その後の設問を考えてみましょう。解答は例題のあと、長い改行部分を挟んでお示しします。
例題1 部下への教育能力が高いと言えるか
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
例題1 解答
A.「成長の度合い」を「教育者間」で比較する
毎日記憶喪失をするのではない限り、誰でも仕事をしていれば少しずつ覚えます。また最初から仕事ができる人もいれば、そうでない人もいます。ですから、教育の効果を知りたいのならば、現在部下がどれくらい仕事ができるかだけを相手にしていても無意味で、教育前後の変化量を相手にしなければなりません。さらにもう一つ、教育という行動の性質上、個人差がかなり混入してしまいます。すなわち、たまたまあなたの部下が仕事を覚えるのが上手だった場合、あなたの教育が上手だったことにされてしまいます。
これらの問題を解決する方法は、成長の度合いを教育者間で比較することです。具体的には(このようなデータを用意できるかどうかは別として)、過去のあなたの部署での社員教育にかかった時間と効果を概算するのです。どの程度仕事ができる人材がその部署に入ってきたか。そして、数か月後の時点で、どの程度仕事ができるようになっていたか。個人差の問題を解決するために、できるだけたくさんの例を用意しましょう。そしてあなたの教育効果と比較します(あなたの教育データもある程度の数を用意しましょう)。同じくらいの初期値の社員に対し、あなたのほうが明らかに早く、あるいはたくさんの仕事を習得させることができていれば、あなたの教育は優秀だと言えるでしょう。
ただし、過去のデータと比較する際には、教育にどの程度のコストをかけていたか、仕事の習得に関わる社内環境の違いなどには充分留意する必要があります。過去には教育にほとんどコストをかけていなかった、ブラウジングがまともにできないような悪いPCを支給していたなどがあれば、あなたがスゴイのではないかもしれません。
例題2 タミフル投与後の異常行動
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
例題2 解答
A.インフルエンザ罹患による異常行動の発生確率と比較する
異常行動は、実はタミフルを投与しなくても、インフルエンザに罹患すると一低確率で発生します。タミフルはインフルエンザの治療薬なので、当然投与されるのは、インフルエンザに罹患している患者ですから、タミフルを投与された患者には一定の確率で異常行動が見られます(タミフルの投与後、さすがに数分で寛解することはない)。ですからタミフルの投与者に、非投与者(ただしインフルエンザにはかかっている)よりも高い確率で異常行動が生じていない限りは、タミフルが原因とはいえません。
こう思ったかもしれません。「インフルエンザでそういう異常行動が起こること自体をそもそも知らなかったんだけど・・・」。それはそうかもしれませんが、しかし「統制群の不在により騙されることを防ぐ」ためには、こうした事例においても「そもそも異常行動はタミフル以外では発生しないのか?」と発想しなければなりません(相当に難しいと思いますが、騙されないためには必要です)。
ちなみにこちらの記事が比較的説明が平易でわかりやすいかと思います。
https://www.kango-roo.com/work/6088/
騙されないために
いかがだったでしょうか(急にアフィリエイト系まとめ記事みたいになりましたね)。今回の講義では、比較対象のないデータに人がいかに騙されてしまうか、そして比較対象のデータはどのようなものかを考えるのは意外にも難しいということを説明してきました。
・比較対象がないデータは印象で汚染される
・比較対象があるデータは信頼度が高い
・従って、比較対象がないデータは信用してはならない
二つを比べず、絶対数でモノを言おうとしているデータがあったら、まずは疑いましょう。