【完全攻略】統計検定3級のチートシート
こんにちは、青の統計学です。
青の統計学では、日々データサイエンスの専門性を磨けるコンテンツを配信しています。色々やっているので見てやってください。
WEB版:https://statisticsschool.com/
note版:https://note.com/bluestatistics
X(旧Twitter版):https://x.com/blue_statistics
さてnoteでは、チートシート完全版を投稿しています。
今回は、統計検定3級のチートシートを書きました。
統計検定3級の概要については、青の統計学のこちらの記事がおすすめです。
2級よりは出題範囲が狭く、計算も簡単な印象です。
データサイエンスを学習したばかりの方や統計学に大学時代触れていなかった方などにもおすすめです。
高校生も挑戦するのもありかもしれません。
使い方①
各項目についての応用的な補足や証明については、別サイト「青の統計学-Data Science School-」の参考コンテンツを豊富に貼り付けておりますので、並行して学習に役立てていただければと思います。
使い方②
項目の最初に押さえるべき「チートシートポイント」を箇条書きで記載しています。本質的な理解のために説明や補足、背景となる知識を下部に詳細に記載しています。試験までお時間がある場合は、説明まで目を通していただけると幸いです。
使い方③
併用して学習に使っていただきたく、「チートシートポイント」を無料でダウンロードできるようにしました!
ここからダウンロードしてみてください(pdf形式)
「補足」には、ちょっと難しめなテーマも入れましたが、難易度が高い部分まで一気に学習しなくても大丈夫です!
時間をかけてゆっくり自分の糧としていただければと思います😌
まだ統計学を勉強し始めたばかりという方でも、きっとお役に立てるはずです。
データの散らばりの指標
期待値
$${E[X] = \sum_{i=1}^{n} x_i p_i}$$
確率変数がとりうる平均的な値
期待値とは、データの「平均的な値」を表す指標です。
離散的な確率変数$${X}$$の期待値$${E[X]}$$は以下のように定義されます
$${E[X] = \sum_{i=1}^{n} x_i p_i}$$
$${x_i}$$ は起こりうる値
$${p_i}$$ はその値が起こる確率
サイコロを1回振る場合を考えてみましょう。
各目が出る確率は$${\frac{1}{6}}$$で等しいので
$${E[X] = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = 3.5}$$
実現値と確率の積の足しあげなので、わかりやすいかと思います。
年末ジャンボ宝くじの期待値は150円くらいと聞いたことがあります。
買えば買うほど、支払い金額との差が広がりますね…。
期待値の観点からは、1枚買うのが最も良いのかもしれません。
補足|平均と期待値について
さて、ここまでで平均と期待値の違いがよくわからない場合もあると思います。統計学を学びたての頃は、「確率変数」という概念がインプットされておらず、この違いを理解するのに割と苦労しました。
平均は、データをまとめて「一つの代表的な値」にするものです。
具体的には、データの個数でデータの合計を割るというものですね。
つまり、実際に手元にあるデータに対して計算します。
一方で、先ほどまで見ていた期待値は、「確率変数」の将来の動きを予測するための値です。
まだデータを集める前の段階で、理論的に計算します。
つまり、確率変数とはサイコロの目や試験の得点のように、ランダムに変わる数のことです。そして、確率と値を使って計算するのが期待値です。
たとえば、サイコロを振ると、出る目は1~6のどれかですよね。このとき、サイコロの出目 X の期待値はこう計算しました。
$${E(X)=1⋅\frac{1}{6}+2⋅\frac{1}{6}+3⋅\frac{1}{6}+4⋅\frac{1}{6}+5⋅\frac{1}{6}+6⋅\frac{1}{6}=3.5}$$
ここで大事なのは、サイコロを何度振っても3.5という目は出ないけれど、理論的に「平均的な値」として考えられるということです。
分散
$${V[X] = E[(X-E[X])^2] = \sum_{i=1}^{n} (x_i - E[X])^2 p_i}$$
$${V[X] = E[X^2] - (E[X])^2}$$
データのばらつきを示す指標
この辺は、高校数学でも習うので大丈夫かと思います。
分散は、データのばらつき具合を表す指標ですね。
分散$${V[X]}$$は、各値と期待値との差の2乗の期待値として定義されます。
$${V[X] = E[(X-E[X])^2] = \sum_{i=1}^{n} (x_i - E[X])^2 p_i}$$
より計算しやすい形式として、以下のようになります。
$${V[X] = E[X^2] - (E[X])^2}$$
分散の大小は下のように、可視化するのが良いと思います。
左側(Low Variance)
データが平均値付近に集中しており、ばらつきが小さい。
分散が小さいと、値が平均に近い範囲に収まりやすくなります。右側(High Variance)
データが広い範囲に分布しており、ばらつきが大きい。
分散が大きい場合、値が平均から遠く離れる可能性が高くなります。
サイコロの例で分散を計算してみましょう。
まず$$E[X^2]$$を計算します。
$${E[X^2] = 1^2 \cdot \frac{1}{6} + 2^2 \cdot \frac{1}{6} + 3^2 \cdot \frac{1}{6} + 4^2 \cdot \frac{1}{6} + 5^2 \cdot \frac{1}{6} + 6^2 \cdot \frac{1}{6} = 91/6}$$
$${(E[X])^2 =(3.5)^2 = 12.25}$$
よって分散は
$${V[X] = \frac{91}{6} - 12.25 = 2.916...}$$
青の統計学WEB版だとより厳密な説明をしているので、ぜひご覧ください。
ちなみに、標準偏差(standard diviation)は分散の平方根ですね。
$${SD(X)=\sqrt{V(X)}}$$
よく似ている言葉に、標準誤差というものがあるのですが、そちらは統計的推測のパートで解説します。
標準偏差
分散の平方根
$${\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}}$$
データのばらつきを示す指標
標準偏差は、上で紹介した分散と同じく、データのばらつきを指標の一つです。平均値からどれくらいデータが散らばっているかを示します。
$${\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}}$$
$${\sigma}$$ は標準偏差
$${N}$$ はデータの総数
$${x_i}$$ は各データ値
$${\mu}$$ は平均値
やや応用的な話ですが、正規分布では、標準偏差を使ったこんな法則が成り立ちます。
$${\mu \pm 1\sigma}$$ の範囲:約68.27%のデータが含まれる
$${\mu \pm 2\sigma}$$ の範囲:約95.45%のデータが含まれる
$${\mu \pm 3\sigma}$$ の範囲:約99.73%のデータが含まれる
図で表すとこんな感じです。
これは経験則として「68-95-99.7則」と呼ばれます。
品質管理などでは、$${\pm 3\sigma}$$ の範囲を管理限界として設定することが一般的で、つまり99.73%のデータがこの範囲に含まれることを意味し、この範囲を超えるデータは異常値として扱われる可能性が高いことを示しています。
変動係数
データのばらつきを相対的に評価する指標で、標準偏差を平均値で割って算出。 $${CV = \frac{\sigma}{\mu} \times 100}$$
単位や平均値の異なるデータ同士のばらつきを比較できる
平均値が0に近い場合や負の値を含むデータでは使用が適切でないため、注意が必要
変動係数はよく出ますね〜。
2級でも準1級でも問題にでますが、基本は値を求める問題になります。
変動係数は、データのばらつきを平均値で規格化した相対的な指標です。
$${CV=\frac{s}{\overline{x}}}$$
変動係数は標準偏差と違い、平均値に対する相対的なばらつきを測ることができるので、元の大きさが全然違う2つのデータであってもそのばらつきを比較できます。 例えば、大学生の身長のばらつきとミジンコの体長のばらつきを比較できるのです。
一般に$${0.10}$$以下であれば変動が小さく、$${0.1 ,0.2}$$であれば中程度、$${0.20}$$以上であれば変動が大きいと判断されます。
分散、標準偏差は平均値からの離れ具合を測る絶対的な指標ですが、変動係数は相対的な指標となります。データの性質に応じて適切な指標を用いる必要があります。
ここから先は
頂いた活動費は、全て「青の統計学」活動費用に使います!note限らずサービス展開していくのでお楽しみに!