データは正しいか?
日々、新型コロナウイルスの新規陽性確認者数が発表されています。この数値をどう理解しますか?正しい数値だと信じますか?実際の数はどの位なのでしょうか?
改めて問われれば、発表されている数値が正しいとは限らないかも…、と考えるかも知れません。本当の値は違うのではないか。しかし何処から考えれば良いのでしょうか。その時にヒントになるのが、以前にも書いた
(1) データの成り立ち、どのように集められたものなのか
(2) データの解釈、誰がどのように解釈したのか
(3) 結果がどのように伝わって来たのか(一次情報か否か)
のように分けて考えてみる方法でしょう。
一番最初にすべきは、その数値の定義です。発表される「新規陽性確認者数」であれば、ような人を対象に、どのような検査をしたのか。類似のことは以前にも書いたので、こちらを確認してください。
結論を言えば、陽性と確認される人は、検査している人の一部なので、検査していない人がそこに含まれることはありません。しかし、確認される陽性者以外にも陽性の人はいるはず。ですから把握される新規陽性者数は、検査すれば陽性となるであろう人数よりも少なくなります。
それでは実際の数を知る方法はあるのでしょうか?
本当に正しい値を知ることは、原理的には毎日全員の調査を行えば可能です。これを全数調査と言います。しかし、それだけのコストと時間をかける意味はないでしょう。今は感染拡大を抑えることが目的なので、主にその目的のために必要な検査が行われています。
全数調査ができない、つまり本当の値がわからない場合には、得られたデータと何らかのモデルを作って、実際の値を推定します。推定モデルはいろいろあります。例えば、以下のグラフを確認してみましょう。
このグラフでは、4つのモデルによる推定値を見ることができます。基本的にすべての推定値が、確認された感染者数より多いことがわかります。そして使用するモデル毎に推定される数値が異なることも確認しておきましょう。(将来を推定する場合は、逆転もあり得ます)
実際の値を推定する場合、元のデータが同じであっても、
(2) データの解釈、誰がどのように解釈したのか
が違うことによって結果が違うことが良くわかると思います。
続いて推定の例としてIHMEを確認しておきましょう。
(将来の推定になる部分は、ばらつきが多いので、表示する期間を少し狭くしています)
グラフの一番下が確認された値の推移、上から2番目が推定された値の推移です。その他の2つの推移は、信頼区間と呼ばれる区間の上限と下限です(95%信頼区間)。この信頼区間は、推測が信頼できるほど狭くなり、信頼できないと広くなります。
いずれにしても、推測される値には幅がある、ということを覚えて置きましょう。
信頼区間は、標本調査の基本的な概念です。