見出し画像

「ボス、労働時間と仕事のパフォーマンスを調査した結果がでました!」

「で、どうだった?」
「結果を要約統計量でまとめましたよ!パフォーマンスの平均値が7.5、標準偏差が2.03、労働時間とパフォーマンスの相関係数が0.82、回帰直線はy = 3.00 + 0.500xでした。」
「なるほど。両者の相関はかなり高くて、回帰直線から考えると1時間労働を増やすとパフォーマンスは0.5増えるというわけだな。よし、それじゃあ我がチームは今日から毎日24時間労働を義務付ける―」

という話になってしまわないために、可視化が重要なのです。

要約統計量で一概に

平均値が7.5
標準偏差が2.03
相関係数が0.82
回帰直線がy = 3.00 + 0.500x

といっても、実はいろんなデータのパターンがあり得るのです。
例えば次の図はすべてこの要約統計量となります。

得られたデータが左上のパターンであれば、確かに労働時間を増やしただけでパフォーマンスが上がりそうだと結論付けてもよいでしょう。

でも右上だったら?
10時間を境にパフォーマンスはむしろ下がることが予想できますが、要約統計量からはそんなことわからないのです。

左下の場合は外れ値のせいで誤った解釈になってしまった可能性が高いですね。

右下が得られたデータの場合もはや労働時間とパフォーマンスには何の関係もないと思われます。

だから可視化は重要だという話でした。

よろしければサポートお願いします! いただいたサポートはクリエイターとしての活動費に使わせていただきます!