統計学のバラつき「変動係数」を数式なしでご紹介 【Kowの探究日誌2】
⚠閲覧前にこちらの注意事項をご一読ください。
【1.標準偏差の弱み】
データの値がどれだけバラついているかの指標として、高校などで習う「標準偏差」が有名です。
しかし、標準偏差には弱点があります。
それは、平均値が異なる複数のデータのばらつきを相対的に「比較」できないという点です。
標準偏差はあくまで絶対的な値であって、必ず相対的に評価できる値というワケではないからです。
学校の小テストを例に考えてみましょう。
5人の生徒が、次の2つの小テストを受け、表の結果が得られたとします。
国語の小テスト→1問1点、5点満点
英語の小テスト→1問1000点、5000点満点
$$
\begin{array}{l:l:l} \hline
\textbf{生徒名} & \textbf{国語の得点} & \textbf{英語の得点} \\ \hline
生徒A & 1 & 1000 \\
生徒B & 2 & 2000 \\
生徒C & 3 & 3000 \\
生徒D & 4 & 4000 \\
生徒E & 5 & 5000 \\ \hline
\textbf{平均値} & \text{3} & \text{3000} \\
\textbf{標準偏差} & \text{1.5811} & \text{1581.1} \\ \hline
\end {array}
$$
ここでは、そもそも1問あたりの配点が1000倍異なるので、英語の平均値は1000倍高くなり、それによって計算した標準偏差も1000倍高くなっています。
しかし、「じゃあバラつきも1000倍の差がある」と言われても、「いや、そうじゃない」という感じが強くないでしょうか?
どちらの科目でも、1問・2問・3問・4問・5問正解した人が一人ずついるので、そういう意味でバラつきは相対的には等しいと言えます。
バラつきの比較にそのまま標準偏差を使うと、矛盾してしまうという一例です。
このような差が生じてしまう理由は、大きな値をとる傾向にある集団の標準偏差は必然的に大きくなってしまうからです。
これは、標準偏差及び分散の計算式を見ると簡単にイメージすることができます。
同じ土俵に立っていないデータをそのまま比較するのは、正確ではないということです。
例えば、あるスーパーに売っている、
鶏むね肉の値段のバラつき
高級ステーキ肉の値段のバラつき
を比較するとします。計算して、
と推測したとすると、
とツッコまれかねません。
このように複数の集団のバラつきを、そのまま比較しにくいのが標準偏差の弱点の一つです。
また、標準偏差には、データ固有の kg や cm などの単位がついている (これは定義の式からスムーズに導ける) ので、単位が違う集団のバラつきを比べられないのも標準偏差の弱点です。
例) 身長cmと体重kgのバラつきを比較するとき。
【2.変動係数の強み】
値の大小の傾向が違う、いくつかのデータのバラつきを平等に比較するため、ここで「変動係数(CV)」を導入します。
平均値に対するバラつきを平等に比較します。
定義はとてもカンタンです。
標準偏差を平均値で割るだけです。
$$
\begin{equation*}
変動係数=標準偏差\div平均値
\end{equation*}
$$
「大きな値を取るほど平均値が大きくなりやすいから、バラつき (標準偏差) を平均値で補正しちゃえ!」
といった感じだとイメージしやすいと思います。
上の小テストの例でも、国語と英語の変動係数は等しくなるので、平均値に対する相対的なバラつきは等しいと判断できます。
また、この計算で用いる「標準偏差の単位」と「平均値の単位」は同じです。
同じ単位同士の割り算で、単位が消滅するため、変動係数には単位がありません。
これらにより、変動係数は、標準偏差の弱点である「値の大きさ (平均値) の違い」と「単位の違い」の問題を克服することができます。
例えば、kg 単位でデータをとった体重計 A と、ポンド単位でデータをとった体重計 B とで、変動係数を用いて製品の精度を比較することもできます。
(なぜなら、変動係数は単位によらないからです。)
【3.変動係数の注意点】
どんな時にも変動係数が使えるワケではなく、
「比例尺度に有効で、間隔尺度では使えない。」
というルールがあります。
細かい定義は省略するとして、次の説明が個人的には一番イメージしやすかったです。
「0が絶対的な無を表す」のが比例尺度
「0が無というわけじゃない」のが間隔尺度
※比例のグラフも原点$${(0,0)}$$を通りますね。
身長、体重、値段、速度など…は「0」が「無」を表す比例尺度です。
偏差値、西暦など…は、「0」だったとしてもそれが「無」を表すわけではない間隔尺度です。
特に注意したいのが温度で、
物理や化学で出てくる絶対温度 (K:ケルビン) は「0」が「無」を表す比例尺度です。
※0K (0ケルビン) は分子や原子が完全に動かなくなる絶対零度で、それより温度が下がらないため。
しかし、日常でよく使うセルシウス温度 (℃) は、「0」が完全な「無」を表すわけではありません。よって間隔尺度です。
※0℃は水が凍り始める点であって、分子や原子はまだ動ける、つまりまだ温度は下がるため。「マイナス何℃」という言い方もしますよね。
変動係数を使う際は、「0が無を表す単位かどうか」にご注意ください。