【統計ソフトR】基本統計量の算出

まーたん

2021年9月13日 15:47

この記事では、統計ソフトRを使ってデータの基本統計量を算出します。ここで言う基本統計量は、
・サンプルサイズ
・平均
・標準偏差
・中央値
・最小値
・最大値
・標準誤差
のことを指します。データの分析の第一歩として欠かせない数字です。

0. データの読み込み

Rには、分析の練習やデモができるサンプルデータがたくさん用意されています。今回は「trees」というデータを使うことにします。これには31本の木の太さ、高さ、容積の数値が入っています。
まずはデータを読み込んでください。

data(trees)

これで読み込まれます。本当に読み込まれているか確認したい時、中身を見たい時は

trees

と入力してください。数値が羅列されます。
なお、今回は関係ないですがExcelのcsvデータを読み込むには

trees<-read.csv("ファイル名.csv")

と入力します。Excelの数列が「trees」という名前のデータとして読み込まれます。

1. ひとつずつ手動で求める場合

それぞれの関数は

nrow(trees) #サンプルサイズ
mean(trees$Girth)　#Girthの平均
sd(trees$Girth)　#Girthの標準偏差
median(trees$Girth)　#Girthの中央値
min(trees$Girth)　#Girthの最小値
max(trees$Girth)　#Girthの最大値

こんな感じです。これだと2つ欠点があります。1つ目は、標準誤差を簡単に算出するにはplotrixパッケージをインポートしてから「std.error(trees$Girth)」という関数を使うしかなく、かなり面倒なことです。そして2つ目は致命的で、「Girth」の部分を「Height」や「Volume」にしてちまちま計算するのは手間がかかりすぎます。変数が多い時などには、もはや計算が非現実的です。

2. summary関数を使う場合

そこで、全ての項目の基本統計量を一気に出力してくれるsummary関数を使います。

summary(trees)

一気に各変数毎の最小値、第一分位点、中央値、平均、第三分位点、最大値がわかりました。便利。しかし、サンプル数と標準偏差がわかりません…

3. psychパッケージを使う場合

標準偏差もまとめて知りたい場合はpsychというパッケージが役立ちます。様々なパッケージをインストールすることで、パッケージ内の関数が使えるようになります。
まずはpsychパッケージをインストールします。

install.packages("psych")

既にインストールしてある場合は再インストールは不要です。呼び出しは必要です。
パッケージを呼び出し、describeという関数を使います。

library(psych)
describe(trees)

これで各変数毎の列番号、サンプル数、平均、標準偏差、中央値、トリムされた平均値、中央絶対偏差値、最小値、最大値、レンジ、歪度、尖度、標準誤差がわかりました。

今回は取り敢えずここまで。別記事で相関や検定、回帰分析、図表作りなどを解説しています。