【高等学校 Rを使ったデータ分析 no.4】探究活動としてのデータ分析
某社のテキストに登場する太郎さん花子さんのスペックが高いことには驚かされる。今回は、勤務校のデータ分析の授業でもこのような流れが理想なんだが、という問での太郎さんの探究を再現してみます。
まずは、データを用意するところから。
政府統計の総合窓口(以降e-Stat)から「社会生活基本調査」にある、都道府県ごと男女別とその総数の「過去1年間に活動した割合(%)」に含まれる「趣味としての読書(マンガを除く)」「マンガを読む」と、「一人I日の中で各生活行動に費やした時間(分)」に含まれる「通勤・通学時間」「仕事」「学業」を表にまとめました。なお、分析では「趣味として・・」と「マンガを・・」を平均した「読書」を使用します。用意した行動に関してのデータのうち「通勤・通学」以外のデータはテキスト中では未使用でした。
また、エクセルデータをRStudioで読み込む際、ラベルとして相応しくない文字が含まれていたため変更を加えました。さらに、1行目はデータとしては全く必要ないのでread_excal()では1行目を飛ばして読み込みます。
> chosa <- read_excel("kihon_chosa.xlsx", skip=1)
> view(chosa)
> selected_data <- chosa[chosa$男女の別 == '総数',]
> p1 <- ggplot(selected_data, aes(x = 通勤通学, y = 読書)) +
xlab("通勤・通学時間(分)") +
ylab("読書した人の割合(%)") +
geom_point() +
geom_smooth(method = lm, se = FALSE) +
stat_poly_eq(formula = y ~ x,
aes(label = paste(stat(eq.label))),
label.x = "right",
label.y = "bottom",
parse = TRUE) +
stat_cor(cor.coef.name = c("rho"))+
theme_classic()
> p1
ここで男女合わせた「総数」の行を抜き出し「通勤・通学時間(分)」と「読書した人の割合(%)」で相関を見ているのだが、通勤・時間以外にも読書はするし、通勤・通学時間の使い方、通勤・通学手段は都道府県でかなりばらつきがあるように思われるのだが、ここではひとまず置いておくこととし、
となりました。
相関関係はあるとしても、因果関係に結びつけるのは他の分析も必要でしょう。
この後、太郎さんは男性と女性の差を調べ、さらにマンガとそれ以外についても男女別の考察をしています。
> selected_MF_data <- chosa[chosa$男女の別 != '総数',]
> p2 <-ggplot(data =selected_MF_data, aes(x = 読書, fill = 男女の別, color = 男女の別)) +
geom_histogram(position = "dodge", alpha = .6, bins=10)
> p2
テキストでは、図から読み取れることの多肢選択問題で、考察や結論めいた流れにはなっていませんでしたが、実際に授業で扱ったり、探究のアドバイスをする場合には、「交絡因子」「擬似相関」「バイアス」などにふれながな進める必要があると感じました。
データシート
# RStudio cloudのフリーアカウントは制限が25h/月のためここで時間切れ。授業で紹介できない、、