公認会計士たるものデータがあると集計してグラフを作りたくなるので作ってみた ~群馬県における新型コロナ感染症陽性者数を自ら集計してみた~ ①
(タイトル画像に、特に他意はありません)
(1)はじめに (動機)
わたしは公認会計士でもありますので、Excelで扱えそうなちょっとしたデータがあると、集計したくなってしまうサガがあります。すべての公認会計士がそういうわけではないとは思いますが、そういう公認会計士は多いと思います。
ということで、先日ふと思い立ち、群馬県新型コロナウィルス感染症対策サイト(https://stopcovid19.pref.gunma.jp/)というのがありまして、そこにキチンとオープンデータとしてCSVがダウンロードできるようになっていますので、これを入手し、手許であーだこーだと集計していました。
…と書いた瞬間にこのnote に「新型コロナウイルスに関係する内容の可能性がある記事です。」との表記がなされますが、わたしとしては、単に手許にちょうどいい感じのデータがあったのでそれをいじらずにいられるか、という動機を主としているものです。
どうやって集計するかにより、作為的なものを作ろうと思えば作れてしまうのが統計の世界ではありますが、それであっても、「だってそこにデータがあったんだもん」ということです。で、せっかくExcelをうんうんと操作したのだからnoteに公開しようというものです。
そういうことで、以下、当シリーズにおいてはデータの集計・分析・提示のみに徹し、客観的ではない自らのコメントは差し控えたいと思います。
(2)データの性質
さて、上記のサイトからデータを入手できるのですが、データ要素としてはNo 判明日 曜日 居住地 年代 性別 となっています。
集計はさしあたって2021年12月31日判明日までのデータとしています。
また、No すなわちデータ数nは17,395となっていますが、例えば、居住地が不明だったりデータ空白だったり、年代や性別は調査中となっていたりで、特にクロス集計するとその合計が17,395にはなりません。
調査中だったものは、調査後データに反映させてくれりゃいいのに。
それと、年代データには「調査中」「調査中代」があったりして、さすがにどっちかに統一しろよと思わないでもないです。
まったくこれだから公的機関の作る統計は… と言っても仕方なく、そういった不十分なデータ(ノイズ)を除去してもなお、量としては充分にあるので集計しました。
(3)よくある折れ線グラフ
まずは、皆さんよく目にしたことがあるであろう、折れ線グラフからです。
これはいろんなところにありますが、まあ、作っとかないとなと。
グレーとなっているのは週の合計です。
2020/3/7(土)が群馬県での最初の判明日でした。
2021/12/31(金)を当集計の最後としておりますので、ちょうど土曜日はじまり金曜日おわりの一週間の週計(集計)です。週計であることにご注意ください。左軸となっています。
また、7日平均、28日平均は一日あたりの人数です。右軸です。集計期間を日数で除しています。そのため、小数点以下を表示しています。Excelの作り方の都合上、純粋な移動平均にはなっていないはずです。
(4)期間別集計
いわゆる第1波、第2波・・とありますので、その期間ごとに集計したのが以下です。
ここで、公的にいつからいつまでを第n波とするというのは、あるのかないのかもよくわからず、定義されているわけではなさそう(自分の調査不足の可能性もある)なので、ここでの区間の区切りは、あくまでわたしの任意です。とりあえず月末で区切るとするとこんなもんかな、っていうものです。
本日はここまでにします。
明日に続きます。