[Rによるデータ分析入門]PIAACデータとは(1)
本コラムでは、OECDが収集するPIAACと呼ばれる個人データのうち、日本を対象とするデータセットをダウンロードし、Rで分析できるように加工する方法について紹介します。第1回はPIAACデータとは何かとダウンロード方法について説明します。
PIAACデータとは?
PIAACとは、Programme for the International Assessment of Adult Competenciesの略で、OECD加盟国等24か国・地域が参加する16~65歳までの男女個人を対象とした調査です。年齢や性別、学歴、職歴などに加えて「読解力」や「数的思考力」「ITを活用した問題解決能力」などが調査されています。
なお、以下の西山ほか「計量経済学」有斐閣でもPIAACデータを用いた分析事例が紹介されているほか有斐閣のオンラインさポートページからデータを加工し分析するためのStataのコードがダウンロードできます。
PIAACの概要については文科省のWEBサイトに簡潔にまとめられていますので、まずはこちらをざっと見るのがよいと思います。
データダウンロード
まずはOECDの以下のサイトにアクセスします。
https://www.oecd.org/skills/piaac/
そして[Data]を選び、[PIAAAC Data]→[Download the datasets (Public Use Files)]→[CSV]を選ぶと、CSVファイルの一覧が出てくるので、prgjpnp1.csvをダウンロードします。これが日本の調査結果ファイルです。ファイルサイズが18Mもあるので少し時間がかかるかもしれません。
面倒な人は以下からダウンロードしてもOKです。
調査票
[Data]→[Documentation]→[Japan]を選ぶと、日本版の調査票を確認することもできます。直接、日本の調査票に飛べるリンクも貼っておきます。
https://www.oecd.org/skills/piaac/data/Translated_HTML_ja-JP.htm
コードブック
[Data]→[Documentation]のcodebookのところにある[international codebook]を選ぶとEXCELファイルのコードブックをダウンロードできます。面倒な人は以下からダウンロードしてもOKです。
次回はCSVファイルをRで読み込んで変数を作成するスクリプトを紹介します。
本コラムは「Rによるデータ分析入門」のWEBサポートページとして作成されました。WEBサポートの一覧は以下を参照してください。
WEBサポートの一覧は以下を参照してください。