統計検定4級教本2章
『日本統計学会公式認定 統計検定4級対応 データの活用』
です。
真面目に読んでません。面倒で斜め読み。。
気になった所だけメモします。
質的データ、量的データ。
度数分布表。ラベルごと。
絵グラフ。こんなの使わない。
パレート図。累積相対度数を度数の大きい順に足していったやつ。これは仕事でも出てきたりしてますね。
クロス集計表。男女別、学年別の好きなスポーツとかのアンケート結果を集計した表。
行比率、列比率。クロス集計表の行ごと、列ごとの比率。
度数分布表はさっきも出てきてたけど、数値にも使えるという話。数値のうち離散データ。連続データでも階級でまとめることで扱える。
ヒストグラム。連続型の量的データの度数分布表を柱の面積で表したもの。
単峰性 or 多峰性。
左右対称 or 左右どちらかの裾が長い。
外れ値のあるヒストグラム。
階級幅が等しくないヒストグラム。階級幅を揃えよう。
量的データの度数分布表を作る時は、累積相対度数のグラフも作ってみよう。
累積相対度数のグラフの各点=パーセント点=パーセンタイル。
基本統計量ー代表値:平均値、中央値、最頻値。
平均値は外れ値があると引っ張られる。
最頻値は峰が複数ある場合の代表値としては不適切。
範囲:データの最大値と最小値の差。
ドットプロット:度数をドットで表現したグラフ。
四分位数:データを四等分した時の境界となる値。
累積度数グラフ、累積相対度数グラフ。さっきも出てきた。
箱ひげ図:最小値、第1四分位数、第2四分位数(=中央値)、第3四分位数、最大値。箱の内側は50%のデータ。外側は25%ずつ。Excelでも、箱ひげ図は書ける。Excelは平均を×マークで示し、四分位範囲(IQR)の1.5倍を超えたデータを黒い点で表す。四分位範囲は中央の50%の範囲。IQR=Q3-Q1。
散布図(相関図)。2つの量的データの分布を同時に表現。
散布図行列。身長、体重、座高、握力、50m走の結果の総当たりの散布図。
練習問題は後でやります。