G検定 / 統計検定 データの集計 #1
株式会社リュディアです。今回からデータの集計についてまとめていきます。
データの集計についてまとめる前に記述統計と推測統計という用語についてです。実は記述統計と推測統計について以前にG検定向けにまとめています。厳密性を無視して雰囲気だけを書くと記述統計は取得したデータを理解しやすいようにまとめること、推測統計は取得した部分データから全体を推測するものと考えてください。詳細については以下の記事を参考にしてください。
では今回の本題です。中心傾向指標というものについてまとめてみます。直感的に言うとあるデータセットに対して平均や中央がどこにあるのかということになります。中心傾向指標としてはデータの代表値として用いられる平均値、中央値、最頻値を用いることが多いです。
代表値といろいろな平均についても過去にまとめているので詳細は以下のリンクを見てください。
中心傾向指標、あるいは代表値として何を用いるかは非常に重要です。データセットが正規分布に従うのであれば平均値を使う意味はありますが、そうでない場合はいわゆる頭で想像する中央付近を表現するのに何を用いるかしっかりと考えてください。
今回は過去にまとめた内容へのリンクが多くなりました。
G検定 / 統計検定 データの集計に関するまとめの続きは以下からどうぞ。
では、ごきげんよう。