![見出し画像](https://assets.st-note.com/production/uploads/images/69864465/rectangle_large_type_2_354bed4783a777e9f28c1a8d97a538dc.png?width=1200)
公認会計士たるものデータがあると集計してグラフを作りたくなるので作ってみた ~群馬県における新型コロナ感染症陽性者数を自ら集計してみた~ ②
昨日に引き続き、群馬県新型コロナウィルス感染症対策サイト(https://stopcovid19.pref.gunma.jp/)からダウンロードしたCSVを、手許であーだこーだと集計して表やグラフにした結果を載せます。
集計はさしあたって2021年12月31日判明日までのデータとしています。
また、データ数nは17,395となっていますが、例えば、居住地が不明だったりデータ空白だったり、年代や性別は調査中となっていたりで、特にクロス集計するとその合計が17,395にはなりません。
連番は昨日に引き続いています。
(5)地域年代クロス集計表
画像に引き続き、その元となった集計表PDFも置いておきます。
単なる集計にとどまらず、ちょっとした修飾・加工を施している時点で作成者の意図を隠しきれていませんが、ここではこれ以上コメントはしません。
これらのクロス集計表を要素(地域・年代)別にグラフにし直したのが、以下になります。
期間区分は以下によります。
【人口(千人)】住民基本台帳に基づく2021年1月1日現在における県内各市町村年齢別人口
【全期間】 発生時(2020.3.7)から2021.12.31まで
【第1波】 発生時(2020.3.7)から2020.5.31まで
【第2波】 2020.6.1から2020.11.30まで
【第3波】 2020.12.1から2021.2.28まで
【第4波】 2021.3.1から2021.6.30まで
【第5波】 2021.7.1から2021.9.30まで
【小康期】 2021.10.1から2021.12.31まで
なお、(6)(7)については、群馬県外等の448を除いて集計しなおしているため、全期間合計数は16,933となります。
(6)地域別100%積み上げ横棒グラフ
各期間の合計数を100とした場合の「地域」の割合を見るグラフです。【全期間】と【第1波】 の間は時期的なつながりがないため区分線を消したいところです。また、数値に合わせて割合もデータ要素として表記したいところですが、作成者のExcel能力の限界であり、この修正は他日を期したいと思います。
(7)年代別100%積み上げ横棒グラフ
各期間の合計数を100とした場合の「年代」の割合を見るグラフです。【全期間】と【第1波】 の間は時期的なつながりがないため区分線を消したいところです。また、数値に合わせて割合もデータ要素として表記したいところですが、作成者のExcel能力の限界であり、この修正は他日を期したいと思います。((6)のほぼコピペ)
(8)男女別100%積み上げ横棒グラフ
元データに性別があるので、期間別に性別を出したものです。
ここで、全期間のデータ数が17,379(9,780+7,599)となっていますが、これは、年代別男女別クロス集計表を作成して、その合計数が17,379となっているからです。年代別男女別クロス集計表は、割愛します。
(9)今後の課題
これまで、データがあったので単に集計・グラフ化してみたということでやってきましたが、ここまでデータがそろっていると統計的検定をしたくなります。
なお、私は、公認会計士論文式試験選択科目で(特に数学的に秀でているわけでもないのに)統計学を選択し、見事撃沈し、翌年は素直に経営学を選択した、という経歴があります。
ということで、(数学的理屈はともあれ)Excelを使えば比率の検定とかはしてくれるはずなので、例えば、
・全国 vs 群馬 でその各要素(年代、性別)の比率が統計的な有意差を持っているのか
・県内においても、性別間で陽性者の比率が統計的な有意差を持っているのか
といったことを調べたいな、と思っています。必要なデータは手許にある。ないのは自分の技術と時間だけ。
本日は以上です。ご覧いただきありがとうございました。