人事のためのデータサイエンス8/16
書籍:人事のためのデータサイエンス~ゼロからの当家解析入門~
著者:入江崇介さん
~第8章~
統計解析の基礎
①統計解析を行う意義
データを図表にまとめたり、平均値や標準偏差を算出したりすることも、アクションに繋がる示唆がえられる「人事データ活用」。
意義①▶効果や関係性を数値化できる
例えば、散布図を描けば、2つの変数の関係を視覚的に確認することができる。
この場合「相関係数」を算出すれば、2つの変数の関係を数値でしめすことができる。
➡数値で示すことは、分析者にとって理解がしやすいだけでなく、分析結果を使った他者とのコミュニケーションも容易にする
意義②▶確からしさを数値化できる
データをもとに意思決定をするためには、情報の確からしさも評価する必要がある。
慎重に意思決定をするためには、確証が欲しい。
統計解析をすることによって、例えば、「差があること」の確からしさを「優位確率(p値)」で確認できる
意義③▶統計解析でなければできない発見がある
人事領域に限らず、物事は複雑に絡み合っている。
副巣の要因の影響を確認する際、クロス表やグラフを利用できたとしても、どうしても変数が増えて次元が増えてしまえば、図表化できなくなる。図表にしても理解の範疇を超えてしまったりする。
統計解析をつけば、複数の変数を組み合わせた効果を示すことができる。
➡このように、数値化することで物事を理解しやすくしたり、確からしさの確認をしやすくしたり、新たな発見をしたりすることができる。
②8つの手法とその関係性
■差の比較
・t検定
・要因の分散分析(3群以上の比較)
・要因の分散分析(群わけの観点が2つ)
■関係性の分析
・相関分析
・回帰分析
・共分散構造分析
■変数のグルーピング
・因子分析
③統計的仮説検定の基礎
▶確からしさの考えかた
■有意確率(p値)
「差がある」「関係性がある」ことの確からしさを示す指標。
差や関係性がないという帰無仮説のもとで、データから得られた以上の差の大きさ、関係性の強さが実現される確率
この差が「小さい」ほど、それはあまり起こりえないことであり、差・関係性がないという帰無仮説を置くことが不自然と考える。
つまり、差・関係性があると考えたほうが自然と考える。
➡p値が小さいほど、差・関係性があることが確からしい
■有意水準
p値がどれくらいであれば、差・関係性があると考えるのか?
良く使われるのは、「p<0.05」
p値が0.05未満であれば、差・関係性がある
■有意差がない≠差がない
帰無仮説が棄却されない=有意差がない≠差がない
👆ちょっとわからなかった
■p値ではわからないこと
多くの観測対象を用いて分析を行うと、小さな差であっても「統計的に有意な差」となり、小さな相関であっても「統計的に有意な相関」となる。
例)管理職登用テスト、部門Aは平均80点、部門Bは平均79点
p値のみに着目してしまうと、「実質的な意味」を見落とす可能性がある。
■両側検定と片側検定
差あるいは関係性の有無の方向性を事前に仮説として置く場合とそうでない場合で、行うべき統計的検定の方法が異なる。
事前におく場合➡片側検定
おかない場合 ➡両側検定
両側検定の方がp値がおおきくなるため、差・関係性がある問結果が得られにくくなるが、一般的には両側検定を行う。
以上。