数学・確率・統計がどのように使われているかを知ろう(2)

(1)では少しだけ区間推定に触れました。今回は最近耳にすることが増えた〇〇〇の有効性が認められた、はどんな意味なのかを改めて考えてみます。仮説検定の話題です。

まず、ワクチンの感染に関する有効性が〇%と言う場合、何をしているかを思い出しましょう。まず感染していない人達を集め、ワクチン接種群とブラセボ群に振り分けます。一定期間後にそれぞれの群で感染した人の数を調べます。感染率を調べ、その差を非接種者の率で割ると有効性になります。厳密に行うために、二重盲検ランダム化比較試験が行われます。
(注意したいのは、感染、発症、死亡などでは全く別の数字になり、一般的な大小関係はないこと。どの位の期間後に感染を確認しているかで値は変化するであろうことです。)


では有意な差がある、効果がある、とはどんな時に言えることなのか。例えば、ワクチンの感染に関する有効性を確認したい場合は、示したいこととは逆の仮説をたてます。

帰無仮説:ワクチンの効果はない、接種してもしなくても感染リスクは同じ

と仮定します。有効性の計算時と同じように感染していない人達を集めて、接種群と非接種群に振り分け、一定期間後に各群で感染した人数を調べます。

得られた2つの群の感染者数の違いが出る確率を、帰無仮説が正しいと考えた場合の値として計算します(比率の差の検定)。これがp値と言われるものになります。p値は、予め設定した値(有意水準、例えば0.05)以下ならめったに起きないことだ、有意な差がある、と判断します。最初の仮説が正しくない、ワクチン接種を接種する・しないで感染リスクは違うとなります。つまりワクチンに効果があった、となる訳ですね。これを帰無仮説が棄却された、と言います。(多くの場合、有意な差を得るためには、比較的大人数を調査する必要があります。)


最近の事例として、わかりやすいのはアビガンだと思います。そして以前書いた「アビガンについて」には流れと仮説検定について少し書いていましたので、参考にどうぞ。

注意すべきは、帰無仮説が棄却できない場合。「感染リスクは同じ」が棄却されていないので、差はないかもしれない、あるかもしれない、わからない、が解釈です。
(仮説検定を学ぶときに難しいと感じる人が多いのはこの部分です)


ファイザーのワクチンは当初有効性95%と言われてきました。勿論、統計データで計算された値です。

一方、少し前に書いた「ワクチン接種後死亡までの日数が偶然かを検定してみた」で書いたように、4月にはワクチン接種後の死亡が偶然とは言えないことが分かっています。確かに一人ひとりの死亡の原因がワクチンであるかわかりません。因果関係はわかりません。しかし統計的には有意な差があります。偶然とは言えないのです。
(そしてこの死亡率が、コロナ感染のリスク、感染時のリスクと比べてどの程度であるか比較が行われた形跡はないように思います。)


有効性は統計データで主張。しかし死亡やその他の副作用の実態を示す統計データの比較検討はしない(ように見える)。
ダブルスタンダードなのでは?


(a) データリテラシーを向上させよう
デーの成り立ち、解釈、伝聞に注意/わからないことは、わからないということが正しい/発信者の発言目的も意識しよう/人は安心したい、騙されたとは思いたくない/人は自分が正しいと思う(思いたい)情報を探す
(b) 数学・確率・統計がどのように使われているかを知ろう
全数調査できないから一部を調査/幅のある推定を知ろう/「有効性あり」と科学的に主張するには仮説検定/因果関係と相関関係は別物/直接の因果関係が不明でも統計ならできることがある/人は無意識に数学を使っている
(c) 多くの反論に耐えることが科学だ
反論こそが科学の発展を促した/嘘・捏造・作為的データも存在する/同じ方向を向く結果は信頼できる