見出し画像

【最短合格】統計検定2級の攻略本|4万字

割引あり

こんにちは、青の統計学です。
WEBサイト「青の統計学」X「青の統計学」から来ていただいた方、ありがとうございます。

今回は、統計学の入門というべき「統計検定2級」で扱う内容を網羅的に整理した攻略本noteを書きました。

統計検定2級は、計算力や統計的推測の理解が求められるので、やや難しい試験ですが、ビジネスでデータ分析をする上で必要な力が身につけられます。

統計検定って何?って方はこちらの記事を読んでからが良いと思います。


色々とnoteを書いてきましたが、本記事で統計検定2級についての話は最後かと思います。4万字をこえる大作になりましたが、最後まで見ていただくと合格のための知識はしっかりとつくはずです。


この記事は、以下の方々におすすめです!

▪️統計検定2級に合格したい
▪️教科書を読んだものの、数式が多く苦手意識が生まれてしまった
▪️データサイエンティストを目指す学生
▪️統計検定3級や2級に挑戦したいけど、レベル感がよくわからない方


統計検定2級のロードマップ

このnoteの使い方を理解する上でも、統計検定2級に合格する上でのおすすめ手順をご紹介します。

本書で範囲を網羅し、外観を理解
問題集を解く
下記チートシートで試験前まで重要事項を確認する

このnoteでは、記述統計→確率モデル→回帰→統計的推測という、統計学を体系的に学ぶ上で適切な順番でセクションを分けています。

また、主に統計検定2級レベルの事項を中心にまとめてあり、本書を読んだ後で問題集に取り掛かったり、必要に応じて見返したりすることで理解がグッと深まると思います。


使い方①

各項目についての応用的な補足や証明については、別サイト「青の統計学-Data Science School-」の参考コンテンツを豊富に貼り付けておりますので、並行して学習に役立てていただければと思います。

取り扱う事項については、上の目次で確認できるかと思います。

別サイト「青の統計学」に飛びます


使い方②

一部セクションに「発展」というラベルをつけております。統計検定2級の合格には不要ですが、合わせて抑えておくと便利かつ今後の学習に役立つ事項をまとめております。全て読み終わって頭が整理された後に読んだり、後々読んだりしてみてください。

発展⭐️:統計検定2級合格レベルであれば、理解は問題なくできそう
発展⭐️⭐️:統計検定準一級レベル。やや複雑な内容なので、飛ばしてもOK!!

さて、説明は以上になります。
皆様の合格を心から応援しております!



記述統計


まずは、統計学自体のモチベーションから理解することが大事です。

例えば、企業がある新商品の販売数を予測したいとしましょう。国内の全世帯数は約5,000万世帯ありますが、その全てに対してアンケート調査を行うことは現実的ではありません。

そこで、無作為に抽出した1,000世帯に対してアンケートを実施し、データを収集できたと仮定します。このデータから平均値や標準偏差を計算することが、記述統計学の役割となります。

しかし、統計学者はそれだけでは満足できません。統計学者は、母集団である5,000万世帯全体の特性に近い値を推定することを目指しています

そこで、確率モデルが導入されます。母集団のデータが正規分布に従うと仮定すれば、その正規分布の平均$${\mu}$$と分散$${\sigma^2}$$を求めることで、母集団全体の分布を近似的に表現できます。

具体的には、収集した1,000世帯のデータから$${\mu}$$と$${\sigma^2}$$を推定します。以下のように標本平均を$${\mu}$$の推定値、そして標本分散を$${\sigma^2}$$の不偏推定量とみなします。

$${\hat{μ} = \frac{\sum(x_i)}{n}}$$

$${\hat{σ^2} = \frac{\sum(x_i - \mu)^2 }{n-1}}$$

このようにして得られた母集団$${\mu}$$、$${\sigma^2}$$の推定値から、正規分布$${N(\mu, \sigma^2)}$$を近似的に求めることで、5,000万世帯の母集団の特性を推測することになります。このプロセス全体が統計的推測と呼ばれるものです。

さて、「不偏推定量」と偏差平方和を$${n-1}$$で割っているあたりに馴染みがないかもしれないですが、後ほど解説します。




母集団と標本

母集団とは、我々が性質を知りたい調査対象全体のことを指します。

とはいえ、無限母集団の場合も存在します。例えば、ある製品の重さを測定する状況を想定してみましょう。同じ製品に対して、重さの測定を何度でも繰り返すことができます。つまり、測定可能な母集団サイズは無限大となります。このように、母集団サイズが無限大になる場合があり、これを無限母集団と呼びます。

一方、先ほど例に挙げた国内の全世帯数など、母集団サイズが有限の場合は有限母集団と呼ばれます。統計学では、母集団が有限か無限かによって、データの扱い方や推定手法が異なってきます。

無限母集団の場合、標本サイズNを大きくすれば、標本分布は正規分布$${N(\mu, \frac{\sigma^2}{N})}$$に漸近します(これを中心極限定理と呼びます)。
*$${\mu}$$と$${\sigma^2}$$はそれぞれ母集団の平均と分散です。

一方、有限母集団の場合は、単に標本サイズNを大きくしただけでは標本分布は正規分布に収束しません。

さらに、無限母集団では標本平均の分散は $${\frac{\sigma^2}{N}}$$ で表されますが、有限母集団の場合は

$${\frac{N-n}{N}\times\frac{\sigma^2}{n}}$$

となり、母集団分散と標本サイズに加えて母集団サイズNも関係してきますこれを有限母集団修正と呼びます。

このように、母集団が有限か無限かで、標本分布の性質や推定方法が変わってくるため、統計的推測を行う際にはこの区別が重要になります。

さらっと書いていますが、標本平均の分散は$${\frac{\sigma^2}{N}}$$であることを本当に忘れがちなので心に留めておいてください。




基礎指標|平均 最頻値 中央値


平均値(mean)

流石にみんな知ってる指標です。
データの総和を個数で割って求められます。

$${\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i}$$

平均値は、データ全体の傾向を表す優れた指標ですが、外れ値(outlier)の影響を強く受けるデメリットがあります。


最頻値(モード mode)

最頻値は、データ内で最も頻繁に現れる値を指します。離散的なデータに対して定義され、複数の最頻値が存在する場合もあります。

最頻値は外れ値の影響を受けにくい傾向がありますが、連続データに対しては定義できません。


中央値(median)

中央値は、データを小さい順に並べたときの中央値を指します。奇数個のデータならば真ん中の値、偶数個ならば中央の2つの値の平均になります。

$${\text{median} = \begin{cases} x_{(n+1)/2}, &\text{if n is odd}\ \frac{1}{2}\left(x_{n/2} + x_{(n/2)+1}\right), &\text{if n is even} \end{cases}}$$

中央値は、外れ値の影響を受けにくく、ロバスト(頑健)な性質を持っています。つまり、一部のデータに極端な外れ値があっても、中央値はそれほど変動しません。これをロバスト性がある、と呼んだりします。

この性質は、外れ値が存在しやすい場合に有効です。例えば、所得分布のような極端な富裕層がいるデータでは、平均値よりも中央値の方が代表値として適切です。

一方で、正規分布に近いデータに対しては、平均値の方が中央値よりも効率的な推定値となります。効率性とは、推定量が真の母数値からどれだけ離れているかを示す指標です。効率的な推定量ほど、真の母数値の近くに分布しています。

ロバスト性と効率性はトレードオフの関係にあります。中央値は外れ値の影響を受けにくいロバスト性を持つ一方、正規分布に近いデータに対しては効率的ではありません(平均で見ればいいので)




基礎指標|分散 標準偏差  変動係数


分散(Variance)

分散は、データのばらつきを表す指標です。平均値からのデータの離れ具合の2乗の平均値として定義されます。また、分散は確率変数$${X}$$の2次モーメントを用いて表せますね。

$${s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

ここで、$${\bar{x}}$$は平均値、$${x_i}$$はデータ、$${n}$$はデータ数です。分散の単位は平均値の単位の2乗になります。分散が大きいほど、データのばらつきが大きいことを示します。


標準偏差(Standard Deviation)

標準偏差は分散の正の平方根であり、同じくデータのばらつきを表す指標ですが、元の単位で表されます。

$${s = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}}$$

標準偏差は解釈が容易で、およそ$${68%}$$のデータが平均値から$${±1}$$標準偏差、$${95%}$$のデータが$${±2}$$標準偏差の範囲に入ることが知られています。

こうした散らばり具合についての指標は、青の統計学でもまとめております。




変動係数(Coefficient of Variation)

さて、ちょっと聞きなれないかもしれません。
変動係数は、データのばらつきを平均値で規格化した相対的な指標です。

$${\text{CV} = \frac{s}{\bar{x}}}$$

変動係数は無次元量なので、単位が異なるデータ同士のばらつきを比較できます。一般に$${0.1}$$以下であれば変動が小さく、$${0.1~0.2}$$であれば中程度、$${0.2}$$以上であれば変動が大きいと判断されます。


分散、標準偏差は平均値からの離れ具合を測る絶対的な指標ですが、変動係数は相対的な指標となります。データの性質に応じて適切な指標を用いる必要があります。

嬉しいポイント:変動係数は標準偏差と違い、平均値に対する相対的なばらつきを測ることができるので、元の大きさが全然違う2つのデータであってもそのばらつきを比較できます。 例えば、大学生の身長のばらつきとミジンコの体長のばらつきを比較できるのです。




発展⭐️⭐️ モーメント


分散のセクションで言及した、モーメントについて少し補足します。

モーメントは確率分布の形状に関する情報を提供する数学的な特性です。
定義としては、確率変数のべき乗の期待値です。

特に、確率変数 $${X}$$の$${k}$$次の原点モーメント $${E(X^k)}$$は、$${X}$$の $${k}$$ 乗の期待値です。

一次モーメント(期待値)は分布の平均位置を示し、二次モーメント(分散)は分布の広がりを示します。
さらに、三次のモーメントは分布の歪度(非対称性)を、四次のモーメントは尖度(ピークの鋭さと尾部の厚み)を表します。

モーメントや確率母関数は、統計検定準一級の範囲ですので、詳しく勉強したい方は以下の記事をご覧ください。




スケーリングと偏差値について


平均と分散が分かれば、標準化によるスケーリングが理解できると思います。加えて、日本では馴染み深い偏差値について学んでいきましょう。

標準化(標準化スコア)

標準化とは、データからその平均値を引き、さらに標準偏差で割る操作のことを指します。この操作によって得られる値を標準化スコア(標準化変量)と呼びます。標準化スコアzは以下の式で表されます。

$${z = \frac{x - \bar{x}}{s}}$$

ここで、$${x}$$はデータ、$$\bar{x}$$は平均値、sは標準偏差です。標準化を行うと、得られたスコアzの平均は0、標準偏差は1になります。

$${\bar{z} = 0, \quad s_z = 1}$$

標準化の嬉しさは、異なるデータセットの値をスケール調整できる点にあります。異なる単位のデータを標準化すれば、同じスケールに直すことができ、比較が容易になります。

機械学習に触れると、大きい特徴量が目的変数に影響を与えすぎないように、特徴量を全てスケーリングすることが特徴量エンジニアリングの基本になります。

偏差値

偏差値は標準化スコアをさらに変換したものです。
以下の式で与えられます。

$${\text{偏差値} = 10z + 50}$$

この変換を行うと、偏差値の平均は50、標準偏差は10になります。

$${\overline{\text{偏差値}} = 50, \quad s_{\text{偏差値}} = 10}$$

偏差値が高ければ高いほど、平均から上にあることを意味します。標準化と偏差値の変換は、以下の関係にあります。

$${z = \frac{\text{偏差値} - 50}{10}}$$

このように、標準化とは平均0、標準偏差1への変換であり、偏差値とはさらに平均50、標準偏差10への変換ということがわかりました。

偏差値の問題は結構頻繁に出てきます。
zスコア、という用語と共に覚えておきましょう。




2次元データの関係指標|相関係数 共分散


次は、二次元データの関係を定量的に表す指標について確認していきましょう。まだまだこの辺りは、高校数学で学んだ内容かと思いますが、定義や特徴をしっかり理解しておきましょう。

共分散(Covariance)

2つの確率変数 $${X}$$ と $${Y}$$ の共分散は以下のように定義されます。

$${Cov(X, Y) = E[(X - E[X])(Y - E[Y])]}$$

ここで、$${E[\cdot]}$$ は期待値を表します。共分散はデータのばらつきの大きさと、その組み合わせの出現頻度を反映しています。

共分散が正である場合、$${X}$$と$${Y}$$は正の相関関係にあり、一方が大きくなれば他方も大きくなる傾向があります。逆に共分散が負である場合は負の相関関係で、一方が大きくなれば他方は小さくなる傾向があります。共分散が0の場合は、$${X}$$と$${Y}$$は線形の相関関係がありません

しかし、共分散の絶対値の大きさは変数のスケールに依存するため、相関の強さを直接比較するのは難しくなります。


相関係数(Correlation Coefficient)

さて、そこで共分散の値をそれぞれの標準偏差で割ることで、無次元の相関係数が得られます。

$${\rho_{X, Y} = \frac{Cov(X, Y)}{\sqrt{Var[X]}\sqrt{Var[Y]}}}$$

相関係数の値は$${-1}$$から$${1}$$の範囲にあり、絶対値が$${1}$$に近づくほど強い線形の相関関係があることを示します。相関係数が正であれば正の相関、負であれば負の相関関係があります。$${0}$$に近ければ、線形の相関関係はほとんどありません。


データ分析をする際に心がけておきたいのが、共分散と相関係数は、因果関係とは無関係という点です。例えば、アイスクリームの売上とプールでの事故件数に正の相関があったとしても、それは両者に共通の原因(暑さ)があるためです(これを共変量と呼びます)。

この辺りの記事が参考になります。

相関関係があっても、それが因果関係であるとは限りません。逆に相関がなくても因果関係はあり得ます。つまり、相関関係と因果関係は区別する必要があるということですね。

実務でデータを分析する場合は、ドメイン知識的に因果関係が一般に認められる二つの変数の相関係数を見て、示唆の提示、施策の提案、課題の発見に繋げているので、無意識に「相関がある」=「因果がある」と勘違いしやすいのだと思います。

適当に選んだ変数間でも相関関係は容易にあり得てしまうのです。
$${\rho_{X, Y} \neq 0}$$であっても$${X \not\Rightarrow Y}$$である可能性があるのです。

相関係数には、さまざまな計算方法があり、ここでは紹介しきれないのでこちらの記事をご覧ください。




質的データ|分割表

ここから先は

37,274字 / 7画像

頂いた活動費は、全て「青の統計学」活動費用に使います!note限らずサービス展開していくのでお楽しみに!