代表値と偏差について

統計学勉強しているくせにまとまった本を持っていないと思いアマゾンで統計学入門という本が人気だったので買ってみました。まだ途中までしか読み終わっていないのですが、少し気になったことがあったのでまとめたいと思います。証明などは今回載せていませんので数式が苦手な方でも大丈夫です。

第二章の一次元データの章のデータの散らばりについてです。ここら辺はある程度知っていたので読み飛ばそうと思っていたのですが、よく読んでみたら少し疑問になったことがあったのでまとめます。

範囲・四分位範囲・偏差という言葉は聞いたことあると思いますがそれらの関係性について説明できますか。軽く定義について述べます。

まず範囲というのはデータの中の最大値から最小値を引いたものです。

四分位範囲というのはデータ下から75%から下から25%を引いて二で割ったものです。

最後に偏差というのは観測値とそのデータの平均の差を計算したものです。

データの散らばりを調べる際に使用される指標として一般的?に使用されるのは標準偏差などの偏差だと思います。

ではなぜ四分位偏差や範囲が使用されないかのか分かりますか。まず範囲についてですが、答えは異常値に左右されやすいからという理由です。例えば日本人の年収についての範囲でしたら最小値は0とかで最大値は多分億とか超えますよね。日本人の年収は0から何億ですと説明してもいいと思いますが何億なんて稼いでいる人は少数だと思います。(すいません私の推測なので正確には分かりません)

ここで少し改良したのが四分位偏差です。データの上下25%の差を引いて求めることができる指標ですが、どこらへんが改良されているでしょうか。これを説明するために少し中央値の性質を説明します。

中央値とその名の通りデータの中央を取ります。それ以外の代表値として最頻値平均値があります。その中でも中央値がより優秀とされています。

なぜ中央値が優秀かというと異常値に左右されにくいからです。文章だけで説明してもあまりイメージがつかないと思うのでグラフを使用します。(グラフ過去自分が作成したものです。色使いがバラバラですがあまり気にしないでください)

まず左右対称のグラフです。これが完全に左右対称の際には中央値・平均値・最頻値が全て一致しています。

画像2

次に右に歪んだグラフです。このグラフに合う例として日本人の年収だと思います。この場合、平均値>中央値>最頻値という関係性になります。もし何十億とか稼いでいる人がいたら平均はさらに高くなります。しかし中央値と最頻値が揺らぐことはほぼないです。

画像1

左に歪んだ場合は、平均値<中央値<最頻値という関係性になります。こちらも左の値がより小さくなってしまうと平均値が小さくなります。


ここまで見てみると平均値はデータによってはかなり影響を受けてしまいます。でもまだ最頻値が中央値よりも優れている可能性もあります。しかし最頻値は次のようなグラフになってしまうと効果を発揮しにくくなります。それが下記のようなグラフの場合です。二つ峰があります。この場合一つに定まらない可能性があるので最適かと言われると少し微妙です。また階級の幅によっても変ってしまいます。その場合最頻値の取り方も変ってきます。

画像3

このように平均値や最頻値はデータやグラフによってかなり影響を受けてしまいます。しかし場合によっては平均値や最頻値を用いることもあると思うのでその時はそちらを使用してください。

軽く中央値の性質について説明しましたが、簡単に言えば影響を受けにくいということです。その点から四分位範囲はパーセントを使用するので異常値の影響受けにくいのでレンジよりはより正確です。

しかし前述した通り、現在では標準偏差などの偏差が使われていることが一般的です。なぜでしょうか。

データが少ない場合は四分位範囲でもいいと思いますが、現在では何万とデータを使います。なのにデータの2つ(場合によっては4つ)しか使わないのはなんか不十分だと思いませんか?そこで改良されたのが偏差というものです。こちらは観測値とデータの平均値の差を求めます。

偏差には種類があってそれが平均偏差標準偏差の二つです。標準偏差は聞いたことがある場合がほとんどだと思いますが、平均偏差ってなんやねんと思うかもしれません。違いは絶対値を使用するか二乗和を使用するかの違いです。どちらもデータの散らばり具合を示す指標です。

軽く例を上げます。平均身長が170cmで平均偏差が5だった場合165〜175cmは誤差と判断できます。恐らくこちらの方が直感的に理解しやすいと思います。

ではなぜ標準偏差の方が使用されるのでしょうか。一言で言えば理論的に標準偏差の方が扱いやすいという点です。68%・95%・99.7%という3σというのを聞いたことがありますか。これはデータが正規分布に従うと仮定した際に用いられことが多い指標です。一般的に3σ(99.7%)を超えたデータは外れ値として処理されます。このように標準偏差は上記のような評価をパーセンテージを使用して求めることができます。これ以外にもこのデータが母集団の中でどの位置にいるかを求めることができます。ここら辺が平均偏差との差です。

今回はここまでです。

最後に参考にしたサイトを載せておきます。

証明などもっと深めたい際にはこちらのサイトがおすすめです。

メインはこちら


いいなと思ったら応援しよう!