どの統計ソフトを使うべきか:R・STATA・SAS・SPSS
SAS、STATA、Rなど様々な統計ソフトがあるけど、何が違うの?いやあ、悩んだら夜も眠れないですよね、一部の人間のみですけど!
【出所】ソザイヤサン『統計ソフトはどれがいい?初心者向けの統計ソフトの選び方を紹介』
どの統計ソフトを使うべきか?
今回はそんな疑問にお答えできる内容になっています。はじめに、統計ソフトの種類、特徴を紹介します。
R
値段:★★★★★
使いやすさ:★★
多くの統計ソフトが高額であるのに対し、Rは何と言っても
①無料
であることが大きな特徴でしょう。誰でも簡単にダウンロードできます。... 某先輩が「R」に関して本を何冊も出しているから何も言えねえ!
しかも毎週火曜に「R」に関して英語の文献読んでコメントする配信していてマジで凄い。
何故あんなに的確に難しい英語を読めるんだ...。
従い、「表紙がカッコ良いですね」しか言えません。よろしければどうぞ!
②コーディングに慣れている方だったら最強
統計は、数式や確率の集まりです。複雑な検定になってくると、たった一つの検定のためのコードが、数行から数十行に及ぶこともあります。
しかし、このコードの集合体をたった一行のfunctionとして集約することができます。
それを可能とするのがpackageというもので、優秀なuser達が、自発的に様々なpackageをつくって無料でweb上に公開しています。
俺は無理だったけど。STATAに逃げました!
2 STATA
使いやすさ:★★★
値段:★★★
東大の図書館のパソコンには常設されているのが「STATA」(今は知らないけど)。
①コーディングの練習がそんなに必要ない
コーディングという意味では、RよりもSASの方が簡単ですが、そのSASよりも簡単なのがSTATAです。
コードは非常に単純で、多くはマウスでボタンをclickすることで済んでしまいます。
②そこそこ高い
Rのように無料とまではいかないですが、SASと比べると安いです。学生のbasic planですと年間$100未満で済みますし、$230ほど支払えば永久的に使えます。まあ高いよな。一般の方は1年間¥121,000だそうです。
【出所】Lightstone『一般企業/政府機関向けサブスクリプション型1年シングルライセンス 新規』
https://www.lightstone.co.jp/stata/price_an.html
3. SAS
使いやすさ:★★★★
値段:★
こちらもRと同様、codeを書くことで解析ができる統計ソフトです。Rとの違いを考えてみましょう。
①大変高い
SASは、SAS instituteという企業が販売しています。ソフトを使うためには、お金を払わなければなりません。身分(教職員 / 学生 etc)によっても異なると思いますが、個人で契約すると初年度は$8,000を超える(!!)支払いが必要のようです。個人で購入するのは、ほぼ不可能でしょう。Canvaを見習ってほしい(月1,000円)。
②簡単なコードで多くの統計をアウトプット
例えば、連続変数が正規分布しているか評価したいとします。SASであれば、たった一行のcodeで、sample数, mean, median, IQR, skewness, kurtosis, Shapiro-Wilk testなどの複数の正規分布検定法など、これでもかというくらいの情報が一度にoutputされます。
4. SPSS
使いやすさ:★★★★★
値段:★★
①大変使いやすい
統計ソフトの中ではぶっちぎりに使いやすいです。
複雑な分析手法も、メニューの中から適用したい手法を選び、必要な項目を選択し、ボタンを押すだけで完了します。
データ集計・分析によく使われる統計手法・分析メニューを約30種類実装。エクセルのような、複雑で難解な関数の入力の手間や不便さはありません。
社会調査データの無回答、非該当といった欠損値の処理が簡単です。
②高い
IBM SPSS Statistics Base SPSS価格120,400円です。
【出所】IBM SPSS Order Store
『SPSS Statisticsとは?統計解析ソフトウェアを分かりやすく紹介』
https://spssorder.com/spss-products/
5. Excel
使いやすさ:★★★★★
値段:★★★★
①何でも出来る
データの収取から結果のまとめまでを見てみましょう。データの収集をしたらデータ入力が必要です。その時に一般的にExcel使うことが多いです。
そしてExcelでも簡単な統計解析ができるので、データの傾向を見たり、まとめる方向性を決めたりする作業はExcelでやるととっても効率的にできます。
②結局どのソフトを使ってもExcelでグラフや表を作る
結局どのソフトを使ってもExcelでグラフや表を作ります。そのほうが見やすいからです。
執筆はWord、発表ならPowerPointと、結局Office製品を使うことになり、Excelでグラフや表を作るので結局我々はMicrosoft Officeの奴隷なのです。
じゃあ、いっそ、Excelだけで統計解析はできないの?と思いますよね。
結論から言えば、Excelは大学生の卒業論文・卒論発表くらいであればギリセーフで使えます。
作者は卒業論文はSPSSとエクセル、修士論文はSTATAとエクセル。Rなどは授業でやりました。
まとめ 小規模な研究でも、どんどんソフトを使っていこう!(困ったらエクセル)
前述の通り、扱うデータ量が数千以上となると、コーディングで解析するソフトが必須になります。
ただ、最初から大型のデータを扱う機会は少ないでしょうし、初学者は自分の作成したコードが正しいかどうか、元のエクセル表に立ち返って確認しながら勉強していく作業も必要です。
従い、大きな研究をする段階になってからコーディングのソフトを買うというより、まずは小規模な研究であっても積極的にコーディングで解析をやってみて、結果を自分の目で確認しながら学んでいくと良いでしょう。
将来的に大規模なデータを扱いたい!という志のある方は、早いうちからRやSTATAに慣れていくと良いですね!
お役に立てれば幸いです!