統計学の基本:分散の理解その2
前回は偏差について学びましたね。偏差とは、データが平均値からどれだけ離れているかを示す値です。偏差が大きいほど、データは平均値から離れており、ばらつきが大きいと言えます。これは、投資でいえばリスクが高いことを意味します。しかし、偏差だけでは全体のデータがどの程度ばらついいているかをつかむことができません。そこで、全体としてのデータのばらつきを示す方法を考えてみましょう。
分散の考え方
もし単純に偏差の平均をとればどうでしょうか。先ほどのファンドAの例を見てみましょう。
2000年 10,000円
2001年 10,350円 年間利率: 3.5% → 平均との差:-1.5%
2002年 10,557円 年間利率: 2.0% → 平均との差:-3.0%
2003年 11,402円 年間利率: 8.0% → 平均との差: 3.0%
2004年 11,516円 年間利率: 1.0% → 平均との差:-4.0%
2005年 12,746円 年間利率:10.7% → 平均との差: 5.5%
$$
\begin{array}{}
\frac{(-1.5)+(-3.0)+(3.0)+(-4.0)+(5.5)}{5}=0
\end{array}
$$
計算した結果、合計は0になってしまいました。これは、正の偏差と負の偏差が打ち消しあってしまうためです。
偏差の2乗を平均する
では、どうすれば良いのでしょうか。次に考える方法は、偏差を2乗し平均をとる方法です。また、ファンドAの例を見てみましょう。
$$
\begin{array}{}
\frac{(-1.5)^2+(-3.0)^2+(3.0)^2+(-4.0)^2+(5.5)^2}{5}=13.3
\end{array}
$$
この方法では、マイナスの値が問題にならずに、全データのばらつきを測定することができます。2乗を用いる理由は、数学的な扱いやすく、統計的な分析をしやすくするためです。絶対値を用いる方法もありますが、2乗の方が計算がしやすく、広く採用されています。
これで分散についての説明は終了です。平均と分散を用いることで、データの期待値とばらつきがどのように表されるかが理解できます。