【統計ソフトR】ヒストグラム、散布図、箱ひげ図
今回はRでいろいろな図を作っていきます。具体的にはヒストグラム、散布図、箱ひげ図を作ります。
0. データの読み込み
Rには、分析の練習やデモができるサンプルデータがたくさん用意されています。今回は「iris」というデータを使うことにします。このデータはアヤメ(花)の3品種各50サンプルについて、がくの長さ、幅、花弁の長さ、幅を計測した数値です。
まずはデータを読み込んでください。
data(iris)
これで読み込まれます。
なお、今回は関係ないですがExcelのCSVファイルを読み込むには、「ファイル」タブから作業ディレクトリを使いたいファイルが入っている場所に変更してから、
iris<-read.csv("ファイル名.csv")
と入力します。
変数名がわからないと分析が始められません。データの一列目が変数名になっているので、一列目だけ見ます。
colnames(iris)
変数名がわかりました。
1. ヒストグラム
度数分布です。例として「Sepal.Length」に関するものを作ります。
hist(iris$Sepal.Length,main="Sepal Length",xlab="length")
カッコの中は単に「iris$Sepal.Length」だけでもいいのですが、そうすると図の一番上にタイトルは付かず、横軸には数字しか表示されません。「main="Sepal Length"」で図のタイトルを付け、「xlab="length"」で横軸のラベルを付けることができます。
2. 散布図
これは簡単です。
例えば縦軸に「Sepal.Length」、横軸に「Petal.Length」を取って散布図を作ると、
plot(Sepal.Length~Petal.Length,data=iris)
これで「Sepal.Lengh」と「Petal.Lengh」の関係が図になりました。
各変数間の散布図を一気に描くなら
plot(iris)
全体の散布図が一気に見られて便利です。
3. 箱ひげ図
群間比較に便利な箱ひげ図。アヤメの品種ごとに「Sepal.Length」を見たいとすると、
boxplot(Sepal.Length~Species,data=iris)
これで作れます。
どうでもいいことですが、このデータ綺麗ですね。さすがRくん、分析のし甲斐があるものを用意してくれてる。
今回はここまで。他の記事では基本統計量の算出、相関係数と検定、分散分析、回帰分析などをしています。