月別死亡者数の分析

速報値として公開された今年8月の死亡者数が異様に多いという話題がありました。下記のようなグラフを見た方も多いのではないでしょうか。

ソースはこちら

確かに昨年までと比べて今年2,3,8月はかなり多くなっているように見えます。今回はすぐに見つけることができた平成18年(2004年)以降の月別死亡者数(速報値)を元に、今年の異常さビジュアル化するとともに、数値でも確認してみることにします。(データの提示のみで、原因には踏み込みません)


平成18年以降のグラフはこちら。

高齢化が進んでいるため、年々少しづつ死亡者数が増加していること、冬場の方が死亡者数が多いことがわかります。また例えば2011年(平成23年)3月の死亡者数は明らかに多い。大震災の影響なのでしょう。

今回は、このデータを処理します。まずはグラフを月ごとにしてみました。1月~6月、7月~12月に分けています。1つの折れ線はある月を示します。2月、3月、8月は最後急激に多くなっていることを読み取れます。

もう少し見やすくするに、各月毎に散布図にしてみます。横軸が時間、縦軸が死者数になります。さらに、回帰直線を重ねてみました。

1月はばらつきはあるものの、今年も含め、ほぼ線形的に増加していることがわかります。2月は今年が少し多いことがわかります。では、この2月の死亡者数はこれまでのばらつきであり得るレベルなのか、特異的に異なるのか。


使うのは、回帰直線の予測値の区間推定です。直感的にわかりやすいように、散布図の上に散布図と区間推定を表示してみました。区間推定に使ったのは2004年から2021年のデータです。2022年の1月~8月のデータは赤い〇で表示しました。

緑の線の間が95%信頼区間になります(以下すべて同じ)。ばらつきが大きいほど、信頼区間の幅が広くなります。恐らくインフルエンザの影響が大きい冬の信頼区間の幅が広くなっていることがわかります。(紫の線は、回帰係数の区間推定)

今年のデータを見ると、特に8月、3月は完全に信頼区間から外れていることがわかります。2月・7月も信頼区間のぎりぎり外になりました。また4月~6月は区間推定の範囲内ですが、4か月連続して回帰直線より上側にぶれています。(偶然の可能性はあるが、通常より多少多い死亡者数であることがわかります。) (7月が信頼区間外であったので当初公開文章を修正しました)


参考までに2月について。2021年までのデータでの区間推定では、2022年の値は区間推定の外になりますが、2022年も含めて区間推定を行うと2022年の値はぎりぎり区間推定内になりました。

この結果は、どの範囲のデータを使うかによって、区間推定の幅が変わってくることを示しています(回帰直線も少しかわります)。別の言い方では、2022年2月のデータが通常から外れているか外れていないか、判断が変わるということでもあります。(仮説検定が棄却されるか採択されるか、の違い)

データを作る側の判断が重要だという事例だと思いました。
作成側に意図があれば、例えば右のグラフを使うことで、2月の死亡者数は偶然のばらつきだの範囲内だ、と言えてしまうことになります。


まとめ:
今回は、月別の死亡者数の情報を使い、8月の死亡者数が本当に異様に多いことが確認できました。統計的には2月3月もやはり95%区間外でした。

今回確認したのは、月別死亡者数(速報値)です。超過死亡とは異なります。それでも、過去のトレンドから大きく外れた8月が異常であることは明らかでしょう。