研究の進捗-基本統計量の確認-(20/08/15)
期末課題ラッシュで研究を疎かにしておりました。ようやくあとレポート1本というところまできたので、これから少しずつ研究の比重を大きくしていきたいと思います。
さて、前回は、研究助成の中間報告の準備を進捗としてまとめました。そのエントリーの後半でも触れていますが、先日、完成したデータセットをの基本統計量の確認と先生への結果報告を行ったので、今回のエントリーではその辺りについてまとめたいと思います。
基本統計量とは、データの基本的な特徴を表す値のことで、代表値と散布度の2種類があります。代表値とは、データの特徴を表す代表的な値のことで、平均値、最大値、最小値などがこれに該当します。散布度とは、データの散らばり度合いを表すような値のことで、分散、標準偏差などがこれに該当します。散布度については、散布図という図で表すことで、視覚的にデータの特徴を把握することができます(以下、イメージ)。
基本統計量を確認することの目的は、データの傾向が経済学における一般的な傾向と乖離していないかを確かめることです。例えば、上の図は今回私が作成したデータセットから引用してきた収益(sales_mil)と従業員(employees)の散布度を表しているのですが、一般的に、収益と従業員(労働力)は正の関係(どちらか一方が増えるともう一方も増える)にあるとされています。データセットの基本統計量がこれと逆の傾向を示していた場合には、そのデータセットには何らかの異常がある可能性が高いと言えます。今回私が作成したデータセットには、そのような異常は確認されなかったので一安心です。
データセットの確認も終わり、いよいよ研究のメインに差し掛かっていきます。晴れて来週から夏休みになるので、加速度を上げて進めていきたいと思います。
Good day.
この記事が気に入ったらサポートをしてみませんか?