【統計ソフトR】基本統計量の算出
この記事では、統計ソフトRを使ってデータの基本統計量を算出します。ここで言う基本統計量は、
・サンプルサイズ
・平均
・標準偏差
・中央値
・最小値
・最大値
・標準誤差
のことを指します。データの分析の第一歩として欠かせない数字です。
0. データの読み込み
Rには、分析の練習やデモができるサンプルデータがたくさん用意されています。今回は「trees」というデータを使うことにします。これには31本の木の太さ、高さ、容積の数値が入っています。
まずはデータを読み込んでください。
data(trees)
これで読み込まれます。本当に読み込まれているか確認したい時、中身を見たい時は
trees
と入力してください。数値が羅列されます。
なお、今回は関係ないですがExcelのcsvデータを読み込むには
trees<-read.csv("ファイル名.csv")
と入力します。Excelの数列が「trees」という名前のデータとして読み込まれます。
1. ひとつずつ手動で求める場合
それぞれの関数は
nrow(trees) #サンプルサイズ
mean(trees$Girth) #Girthの平均
sd(trees$Girth) #Girthの標準偏差
median(trees$Girth) #Girthの中央値
min(trees$Girth) #Girthの最小値
max(trees$Girth) #Girthの最大値
こんな感じです。これだと2つ欠点があります。1つ目は、標準誤差を簡単に算出するにはplotrixパッケージをインポートしてから「std.error(trees$Girth)」という関数を使うしかなく、かなり面倒なことです。そして2つ目は致命的で、「Girth」の部分を「Height」や「Volume」にしてちまちま計算するのは手間がかかりすぎます。変数が多い時などには、もはや計算が非現実的です。
2. summary関数を使う場合
そこで、全ての項目の基本統計量を一気に出力してくれるsummary関数を使います。
summary(trees)
一気に各変数毎の最小値、第一分位点、中央値、平均、第三分位点、最大値がわかりました。便利。しかし、サンプル数と標準偏差がわかりません…
3. psychパッケージを使う場合
標準偏差もまとめて知りたい場合はpsychというパッケージが役立ちます。様々なパッケージをインストールすることで、パッケージ内の関数が使えるようになります。
まずはpsychパッケージをインストールします。
install.packages("psych")
既にインストールしてある場合は再インストールは不要です。呼び出しは必要です。
パッケージを呼び出し、describeという関数を使います。
library(psych)
describe(trees)
これで各変数毎の列番号、サンプル数、平均、標準偏差、中央値、トリムされた平均値、中央絶対偏差値、最小値、最大値、レンジ、歪度、尖度、標準誤差がわかりました。
今回は取り敢えずここまで。別記事で相関や検定、回帰分析、図表作りなどを解説しています。
この記事が気に入ったらサポートをしてみませんか?