統計ソフトStataを知る(2):データ格納
「Stataを知る」第2回目です。
今回はStataのデータ取り込みについて考えていきます。
※私はStata14を使っていますが、どのStataも構造は同じです。
バージョンの違いで混乱しないよう基本的にStataの画像は用いません。
1.データの格納とは?
第1回目の「Stataを知る」では、Stataの使い方3ステップを知りました。
①データを取り込む
②そのデータを分析(統計検定)する
③結果を(表やグラフで)手に入れる
データの格納はこのステップ①のことです。
世の中にはいろんな形でデータが保存されています。
紙に書いてあったり、Excelファイルだったり、CSVファイルだったり。
それらをStataで分析するには、
Stataのデータ格納庫にデータを一旦入れ直す必要があります。
データの入れ直しは、Excelファイルなどのインポート(取り込み)や、
格納庫に直接手入力する方法(非現実的!)があります。
そして、取り込んだデータは「.dta」という形(拡張子)で保存できます。
一旦「.dta」形式で保存しておけば、「.dta」ファイルを読み込こむことで
データ格納庫にデータが取り込まれます。
なお、格納したデータはData Browserで確認できます。
それを直接編集したい場合はData Editorで行えます。
Stataは、このデータ格納庫にあるデータ、
つまり「.dta」形式で保存されるデータしか分析できないため、
まずデータの取り込みが第一ステップとなります。
誰かとデータを共有したいとき、その人がStataを持っていれば、
.dtaファイルを渡せば分析がすぐに行えます。
Excelファイルは、.dtaのスタイルに合うように調整が必要です。
このあたりの話は次々回にする予定です。
2.格納の仕組み
まず.dtaがどんな作りになっているか知るために、
Data Editorに直接データを入力してみましょう!
※膨大な量のデータを直接入力すると死にます。でも少量なら無問題!
とりあえずこんなデータを入力したいと思います。テストの点数です。
ではStataを開いて、Data Editorを探して〜開きましょう!
パッと見てExcelと違うところがあります。
縦横の番地(A列、B列…とか、行1、行2…とか)が書いていません。
まあとりあえず入力してみましょう。
Excelで言うところの「A1」にデータの「山田」を入力します。
ただし、日本語入力できないバージョンもあるので「yamada」と入れます。
するとExcelの番地のようなものが自動的に表示されます。
第1列の項目名に「var1」、第1行の項目名に「1」と入りました。
「yamada」は var1 [ 1 ] に入力されましたね。
同様に「sato」と「kobayashi」を同じ列に順に入力します。
それぞれ var1 [ 2 ]、 var1 [ 3 ] に値が入りましたか?
var1 [ 1 ] はExcelの「A1」のように番地として使えそうですね。
でも実は、これは番地ではありません。
varはvariableの略で、「変数」のことです。
「変数」とは、同じ種類のものを入れておける箱だと考えてください。
例えば、部屋を片付けるとき、おもちゃはおもちゃ箱に片付けますよね?
山田、佐藤、小林というデータは、氏名という同じ種類のデータです。
それらをvar1という箱に入れたのです。
おもちゃ箱にせよ、氏名を入れた箱にせよ、
箱から何か1種類取り出す場合、どれでも好きなものを取り出せます。
あなたは取り出すものを、好きなように変えられます。
だからこの箱のことを変数と呼ぶのです。
Stataにデータを入れるときは、番地にデータを入れるのではなく、
箱=変数を用意して、その箱に同じ種類のデータを入れていくのです。
なおその箱はきっちりと区分けができる箱なので、
1番目に「山田」、2番目に「佐藤」といったように格納できます。
さて、おもちゃの場合、箱の表面に「おもちゃ」と名称を書くでしょう。
「var1」も同様、「氏名」のように好きな名称に変更が可能です。
むしろこれをやっておかないと「var1」って何入れてたっけ?となります。
名称の変更についてはもう少し先で解説します。
なおData Editorに入力すると、そのときにどんな命令が裏で出ていたのか、
結果がResultウインドウに表示されます。
逆に言えば、CommandウインドウからData Editorに入力命令を出せます。
このあたりの話は、分析についての第一回目で考えていきます。
3.まとめ
今回は、大きく2つ扱いました。
①外部データの分析は、一旦Stataに取り込まなければ分析できない。
→データを格納して保存したものは.dta形式である。
②データは種類に応じて変数を用意して格納する。
次回は変数についてもう少し考えていきます。