見出し画像

人事のためのデータサイエンス7/16

書籍:人事のためのデータサイエンス~ゼロからの当家解析入門~
著者:入江崇介さん


~第7章~

人事データの特徴を数で表す

①中心的傾向を示す「代表値」

最頻値、中央値、平均値の3つがある。

▶最頻値
ある変数について、最も多くの観測対象が存在する値
→ExcelではMODE関数でもとめることができる

▶中央値
ある変数の値を地位さん準備並べた際に、中央に位置する値
→ExcelではMEDIAN関数で求める

▶平均値
ある変数に対する観測対象全体の算術平均
→ExcelではAVARAGE関数で求めることができる

➡最頻値、中央値、平均値は一致しないこともある
代表値を確認する際には、それがどれに該当するのかを伝えることも重要

②散らばりを示す「散布度」

変数の散らばりを確認することの重要性

▶最大値と最小値、範囲
最も大きな値である「最大値」と最も小さな値である「最小値」
→ExcelではMAX関数MIN関数で確認できる

▶四分位範囲と四分位偏差
主に中央値と共に用いる散布度
第三四分位数と第一四分位数の差を「四分位範囲」という
(箱ひげ図などでつかわれることがある)
→ExcelではQUARTILE関数で求めることができる

▶分散と標準偏差
平均値と共に用いるのは分散と標準偏差。
分散:平均値からの観測対象の値のばらつき。平均値からの差の2乗を観測対象ごとに求め、それを平均したもの。
標準偏差:分散で、2乗した値では解釈が難しいので、その平方根を取って解釈しやすくしたもの。SDと表記されることもある。

例)今期の賞与の支給額の平均値は50万円。標準偏差は15万円。よって7割の人は支給額が35万円~65万円の範囲におさまっている。
→ExcelではVAR関数や、VAR.S関数など


以上。

この記事が気に入ったらサポートをしてみませんか?