Excel練習(3回目)

■Excel練習課題

最新のCOVID19感染状況について、3密との関連性を確認するための一つの手段として、人口密度との関連性を確認する。

Excel練習(3回目)

■Excel練習課題

最新のCOVID19感染状況について、3密との関連性を確認するための一つの手段として、人口密度との関連性を確認する。


■実施した手順

(1)データの取得

人口密度データを探して、Data>From Webから設定する。(設定文字コード=UTF-8)
https://population.un.org/wpp/Download/Files/1_Indicators%20(Standard)/CSV_FILES/WPP2019_TotalPopulationBySex.csv


(2)データモデルへの追加
上のステップで、Only Create ConnectionとAdd this data to the Data Modelを選択してデータインポート。


(3)クエリに年情報を格納するカラムを追加
練習2回目で作成したクエリ(サンプルExcelであれば、qryLatestRecord)にPower Query Editorの
Add Column>Column from ExamplesでYear情報を格納するカラムを追加
((2)でインポートしたデータと紐づけ可能にするため)

(4)クエリのマージ
練習2回目で作成したクエリ(サンプルExcelであれば、qryLatestRecord)に(2)でインポートしたクエリをマージ
国名と(3)で追加した年情報でリンクしてマージ

(5)全人口に対する割合
実績との比較だと、あまり参考にならないと思い、感染者/死亡者のそれぞれで、総人口との割合を示すカラムを追加。
また、アジア地域だと、感染者数が多いわけではないので、まずは、ヨーロッパ地域のデータで比較してみることにした。

(6)散布図(X軸:人口密度、Y軸:感染率/総人口)のグラフ作成
国により、極端に人口密度が高いところがあるので、人口密度(X軸)の最大値は250(人)と設定。

例外データを取り除いて近似式を引くことはしなかったが、とりあえず見た目では、感染者数と人口密度の相関関係は、若干あるかもしれない、と思った。

感染者数がどれだけ正確な数値かが分からないので、関係性をこれ以上追及しても、正確なところは分からないかもしれないと思った。

■備考

いくつかデータを利用してExcelのトレーニングをしてみると、Excelというよりも、次の事項が面倒に感じた。

・データをいかに探してくるか

・見つけた複数のデータを、どのように紐づけて統合的に評価できるようにするか

データ収集のスタンダードがあれば、すべては解決して、だれでも簡単にデータ解析できるような気がする。

簡単にそれができないから、それで仕事が発生する部分もあるのでしょうが。

いいなと思ったら応援しよう!