e-Statを使って、最終学歴と所得について分析してみた(データダウンロード方法と相関分析)
こんにちは。
石川県のシビックテック団体Code For NotoのSKです。
今回は、オープンデータを活用した簡単な分析方法を紹介します。
本記事では、各都道府県の「経済」と「教育」のデータをダウンロードし、エクセルにて相関をみてみます。
※今回の記事はe-statの使い方や分析方法の紹介が記事のメインであり、経済や政策における主張をしているものではないことをご了承ください
なぜ経済と教育?(先行研究チェックしてみよう)
データが重要と呼ばれる昨今、様々なオープンデータがネット上に転がっています。すべてを網羅的に調べることは難しいですし、かといって必要なデータを事前に考えて集めるのも何からあたりをつければいいかわからないこともあるかと思います。そこで、まずは目的に応じて先行研究等を調べてみましょう。
今回参考にした論文は、
経済成長政策の定量的効果について:既存研究に基づく概観
です。
この論文を拝見すると、経済力を向上させるのは「教育」が一つのキーになりそうですね。
今回扱う指標
まずは、どんなデータがほしいかざっくりとイメージしてみましょう
経済:「所得」
教育:「最終学歴等がわかりそうなもの」
※経済では、自治体別や都道府県別の財政状況なんかを使ってみるのもいいかもしれませんし、教育に関しても、教育政策に使われる資金の割合や、自治体全体の学力平均なんかももしかしたら活用できるかもしれません。このようにいろいろと事前に仮説を立てておくのも、データ分析をする上では重要なところとなります!
e-Statからデータをダウンロードし、データ分析してみよう
ではここから、実際にデータをダウンロードして分析してみましょう
手順
大まかな手順は以下です。
e-statでデータを探す
データをダウンロード
集計
細かな手順を解説します。
1. e-Statでデータを探す
ではさっそくe-Statでデータを探してみましょう。
まずはホーム画面で分野を選択。
そうすると、分野別の項目一覧が表示されます。
分野はすべてで17テーマありますが、今回は「労働・賃金」と「教育・文化・スポーツ・生活」の分野を見てみましょう。
まずは労働を見てみます。労働ですべてを見るをクリックするとデータベース一覧が表示されます。キーワードで所得と検索してみるとヒットしましたね。所得のデータはありそうです!
続いて教育です。教育のすべてを見るをクリックし、キーワードで最終学歴と検索してみましょう。すると、出生時縦断調査というもので、最終学歴も調査していそうですね。
※今回はデータの中身や調査方法等の詳しい説明は省きますので、ご了承ください。
2. データをダウンロードしてみよう
先ほどデータを検索したところから、ダウンロードしてももちろんOKですが、今回は都道府県別でみてみたいと思いますので、その方法をご紹介します。
地域をクリック
都道府県データを選択しデータ表示を選択。
まずは地域を選択します。全て選択をクリックするとすべての項目が右に行きます。(今回は全国以外の項目を右にします)
続いて項目を選択する画面に移行します。
まずは分野で「労働」を選択し、「課税対象所得」を選択します。
続いて、「教育」から「最終学歴人口(大学・大学院)」と「最終学歴人口(卒業者総数)(人)」を選択します
確定を押すと表がでます。右上のダウンロードを押してExcelファイルで取得してみましょう。
※ここで、選択した項目が列として表示されますが、列が足りない時がございます。その場合、調査年を調整して、すべての項目が調査された年を選択する必要があります。今回は2020年度です。
数値を扱うために、桁区切り(,)を使用しないを選択したほうがいいです。
注釈は外してかまいません
ダウンロード範囲はページ上部の選択項目にすると、一枚だけでいいと思います。ほしい範囲でダウンロードしてみてください
3. 集計
こんなデータがダウンロードできました。
今回は、全体の傾向を簡単に集計してみましょう
分析したいことは、「最終学歴が大卒」が多いほど、所得は増える?のかです。ただ、単純に数で調査をすると、人口が多い都道府県の方が大卒が多いという分析になりかねません。分析をする上では、必ず全体の母数はどうなのか、平等な評価ができているのかなど、注意をする必要があります
今回は、大卒の割合と所得の関係を見てみることにしましょう!
まずは、大卒割合を新しい列に計算してみましょう
大卒割合という列を自身で用意します。
計算式をExcelで扱いたい場合は、=で書き始めます
今回は「最終学歴が大学/卒業者総数」で割合が出せそうです。
そのため、同じ行で上記の計算ができるように「=G3/F3」とセルで数式を表現します。クリックすればセルは選べます!
続いてこれをすべての行で適用させます。
大卒割合で今計算したセルの右下にカーソルを持っていくと、カーソルが黒い十字型になります。そうしたらダブルクリックしてみてください。
すると、すべての行で適用されます。
では、大卒割合と所得の関係性を見てみましょう。
課税対象所得と大卒割合を選択します。
※課税対象所得列をコピーして、大卒割合の右に持っていきます。
※列のアルファベット(E列の場合はE)の箇所をクリックすると列全体を選択できます。
※shiftキーを押しながら、となりの列を選択すると、追加で列が選択されます。
続いて上部メニューで挿入を選択し、おすすめグラフをクリックします
今回は散布図を選択してみましょう
右に行くほど大卒割合が高い。上に行くほど所得割合が高いです。このデータはどう見えるでしょうか。もう少し見やすくなるように、近似直線を引いてみましょう。
近似直線に関しては今回は説明を省きますが、「データの関係を直線で表す手法」と今回は考えてください。
グラフを選択すると、右上に+マークが出ます。そこをクリックし、「近似曲線」にチェックを入れてみてください。そうすると直線が出てきます。
続いて直線を選択して、マウス右クリックし、近似曲線の書式設定を選択します。そして書式設定で、グラフに数式を表示する、グラフにR-2乗値を表示するをクリックします
数値の見方はまた別の記事で説明しますが、今回注目いただいたいのはこの傾きです。右上に伸びる直線が引けたということは、このデータは
「大卒割合が高いほど(右に行くほど)」「所得が高い」という関係性がみえるということです。なにかしら教育と所得は関係性がありそうです。
R^2値もばらつきを表す重要な値ですが、今回は説明を省略します
相関関係
教育と所得はやはり関係がありそうです。今回調べたように、二つのデータが、右上がり、右下がりのような関係を相関関係と呼び、統計学においてとても重要なものです。
正の相関:
右上がりの関係
1つのデータが増加と、もう一つのデータも増加する関係
負の相関
右下がりの関係
1つのデータが増えると、もう一つのデータが減る関係
今回のデータは正の相関と呼べそうです
!!超重要!!データ分析における注意点
さあ、今回は最終学歴と所得に正の相関がみられました。ではこの結果をもとに、「所得を増やすためには、教育施策に力を入れるべき」と結論を出すのはいいでしょうか?実は、危険です
今回の結果から「都道府県内の大卒割合が増加するほど、県内所得が増える」は本当に言えるでしょうか。
例えば、東京のような都会には大学が多く、自然と大卒割合が高くなり、またそれだけ都会なら仕事もあり所得が高いというだけかもしれません。
はたまた、所得が高い都道府県ほど、財政的に余裕があり塾等に子供を通わせることができるというパターンも考えられます(所得が高いほど、大学にいきやすい)。それなのに、教育に力を入れるというのは、そもそも所得が上がる施策にはならない可能性も出てきてしまいます。そのため、データを分析し、示唆をだすのはそれだけ慎重に考える必要があります。
相関関係と因果関係
相関関係は2つのデータが単なる右上がりか右下がりかの関係を表すに過ぎないのに対し、
因果関係は、ある一つのデータを増加すると、それに引っ張られてもう一方の変数が上がる関係のことを指します。
今回の結果だと、まだ相関関係としかいえません。因果関係をいうためには気を付けて実験だったり分析をする必要があります。
まとめ
今回はe-Statを活用し、データのダウンロードをし、またExcelを活用して相関関係を調べてみました。データを読み取るためには、単純に結果を見るだけでなく、なぜを疑う。間違った解釈をしない。ということが重要です。
だからこそ、データ分析はおもしろく、奥が深く、また正しく活用すれば強力な武器になっていきます。EBPMという言葉も注目されてきている今、少しでも皆様のお力になれればと思い、これからも発信を続けていきたいと思います。
この記事が気に入ったらサポートをしてみませんか?