【自己啓発】統計検定3級資格取得までの道のり(コレだけは押さえておきたい!用語・公式編②)
同じ職場で働く同期や他者と差別化を図るためには、個人の能力を磨き続けることが重要です。そこで、自身の強みである分析思考と概念的思考を伸ばすために、本試験を受験することにしました。本記事では、統計検定3級の出題範囲から、”コレだけは押さえておきたい用語と公式”を各章ごとに解説を交えながらまとめます。本記事は長くなりますので①と②の2本に分けて投稿します。①を未読の方は、是非ご覧いただき学習の一助として下さい。
1. 相関と相関係数
統計検定3級では、グラフなどから相関関係を読み取る問題が後半に頻出しますので、用語の定義や公式を押さえておきましょう。
2つの変量の完成の深さは散布図でビジュアル化することができます。散布図を見ることで、2つの変量の相関関係(どのような関わり合いがあるのか?)が目で見て分かるようになります。相関関係を把握するうえで押さえておきたい用語は以下の通りです。
相関関係:2つの変量の関係のこと。散布図上の点の配置で決まる為、2次元(平面上)のバラツキともいえる。
正の相関:散布図のデータのバラツキが右肩上がりの直線的な関連となっている状態。この場合、片方の値が高い時、もう片方の値も高い状態となっている。また、正の相関の場合、後述する相関係数は1に近くなる。
負の相関:散布図のデータのバラツキが右肩下がりの直線的な関連となっている状態。この場合、片方の値が高い時、もう片方の値は低い状態となっている。また、正の相関の場合、後述する相関係数は-1に近くなる。
無相関:散布図のデータのバラツキが直線的でなく散らばっている状態。相関係数:2変量の直線的な関連の強さを示す値のこと。-1~1の範囲に値を取り、絶対値が1に近いほど関連性が強く、0に近いほど関連性が弱い。明確な基準はないですが、相関係数の絶対値の目安は以下の通り。
【相関係数の目安】
・0.9以上:非常に強い相関がある
・0.7以上0.9未満:強い相関がある
・0.5以上0.7未満:相関がある
・0.3以上0.5未満:弱い相関がある
・0.3未満:ほぼ無相関
上記の相関係数は、関係の深さを数値化した値で、2次元のバラツキなので、散布図の横方向と縦方向両方の偏差を把握することで算出することができます。この際、散布図上に横と縦の平均の組み合わせの点をプロットするのがポイントとなります。この平均の組み合わせの点と各点とによって作られる「偏差×偏差」の面積を偏差積と言います。また、平均の組み合わせの点を中心として4つに分割される以下①~④のエリアのどこに点が位置するかによって、偏差積の正負が決まります。
・①の領域:横(+)× 縦(+) ⇒ 偏差積が(+)
・②の領域:横(-)× 縦(+) ⇒ 偏差積が(-)
・③の領域:横(-)× 縦(-) ⇒ 偏差積が(+)
・④の領域:横(+)× 縦(-) ⇒ 偏差積が(-)
散布図上の全ての点が作る偏差積を合計した値を偏差積和と言います。
そして、その偏差積の平均を共分散と言います。この共分散が2つの変量の関係を示す値となります。共分散が0より大きい場合に正の相関、反対に0より小さい場合に負の相関ということ(だけ)が分かります。つまり、共分散を見ただけではデータの相関の強さがはっきり分かりません。そこで登場するのが、相関係数です。相関係数は以下の方法で求めることができます。
標準偏差は分散にルートを付けた値でしたね。(標準偏差(偏差の標準=平均的な離れ具合)は分散(偏差平方の平均)の正の平方根)・・・こちらの記事の第6章でまとめています。
相関係数を求める(標準化する)ことで、規格が異なるデータの相関の強さを比較できるようになります。
※上記は、以下の動画(Try IT、ただよび)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。
2. 回帰分析
ある2つの変数XとYが散布図に表されているとする。この散布図にフィットする線を描き、変数Xから変数Yを予測する分析を回帰分析と言います。
また、一方のXが他方のYを左右する(決定する)関係があるとき、Xを独立変数(説明変数)、Yを従属変数(目的変数)と呼びます。
回帰分析では、XとYの2つの変量の関係(Xの1単位の増減によって、Yがどのくらい変化するか?)を一次方程式の形(Y=AX+B)で表します。
A(傾き)とB(Y切片)が分かれば、散布図上の直線の一と確度が定まって直線が確定するので、XからYを予測することが可能となります。この際に用いる考え方が最小2乗法です。
人によって、散布図に記載する一次方程式の直線の書き方が異なるってしまうため、客観的に直線を導き出す方法が最小2乗法となります。これは、「実際のYの値と」「予想されるYの値」の差(残差=観測値-予測値)が最小になるように直線(AとB)を決定する方法です。端的に述べると、「最小2乗法とは、残差平方和を最小にすること」です。
統計検定3級では、回帰分析の中でも最も簡単な線形単回帰分析のみの出題となります。図示された回帰直線やグラフ、表から関係性を読み解く問題が出題されるため、各用語の意味と数式が意味することを把握しておくと良いでしょう。
※上記は、以下の動画(ただよび、データサイエンスLab)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。
3. 確率変数と確率分布
確率変数とは、試行ごとに異なる値をとる変数で、且つ変数のとる値ごとに対応する確率が定まっているものです。サイコロを例に考えると分かりやすいです。サイコロの各目が出る確率は1/6です。確率変数を導入することで、P(サイコロの目kが出る)=1/6と表現することができます。
確率分布とは、ある確率変数に対応する確率を一覧表またはグラフにしたものです。後ほど学習する「二項分布」や「正規分布」も確率分布です。確率変数Xの確率分布を「Xが従う確率分布」と言います。すべての確率変数に対応する確率を合計すると必ず1になります。
ここで、確率変数Xの平均値をXの期待値と言います。この期待値E(X)は以下の通り求めることができます。
また、確率変数Xの分散についても、これまで学んできたことを活用して計算することが可能です。分散は「偏差平方の平均」です。確率分布から、各確率変数Xに対応する偏差平方を求め、次に平均(期待値)の計算をします。平均(期待値)の計算は、各偏差平方に対応する確率を掛け算したものを合計して求めます。これは、こちらの記事の6章でご紹介した「分 二平 平二」でも算出可能です。
※上記は、以下の動画(統計チャネル)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。
4. 二項分布
二項分布とは、袋に白と赤の玉が一つずつ入っているとき、袋に入った玉を取り出す確率変数Xとすると、Xは1回の試行(袋から何も見ずに1つ玉を取り出すこと)で、「白玉が出る」か「赤玉が出る」かの2通りの事象(結果)に分かれます。
このように、ある試行に対する事象が2通りのみで、そのうちの1つの事象が起こる確率(成功確率)が一定の場合の成功回数Xの分布を二項分布と言いうます。
試行回数をn回とし、成功確率がpのとき、確率変数(成功回数)Xは二項分布に従い、X~B(n, p)と表現します。二項分布は英語でBinomial Distributionと表記しますので、頭文字の「B」を使って表現します。この時のXの平均(期待値)、Xの分散、Xの標準偏差は以下の式で示されます。
※上記は、以下の動画(高校数学が面白いほどわかる)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。
5. 正規分布
正規分布とは、統計学における検定や推定、モデルの作成など様々な場面で活用される連続型確率分布です。多くの統計的手法において、データが正規分布に従うことを仮定します。正規分布のグラフは左右対称の山形をしており、横軸は確率変数を、縦軸はそのときの確率密度を表します。
また、正規分布の特徴としては、左右対称の山形に加えて、グラフの中央のところが最も高くなります。誤差分布やガウス分布とも呼ばれ、関数の式で示すと以下の通りとなります。
統計検定3級を受験するにあたって、上記公式は覚える必要はないです。出題される問題の傾向としては、グラフや表から確率を読み取り回答する問題や記載されている文章の正誤問題が頻出します。与えられた問題を標準正規分布へ読み替える考え方や表の読み取り方法さえ押さえておけば大概解ける問題ばかりです。
この単元は、参考書などに記載されているテキストやグラフ等だけでは理解するのが難しい分野ですので、以下まとめページとYouTube動画を併用して学習されることをお勧めします。
※上記は、以下の動画(高校数学が面白いほどわかる)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。
6. 推測統計の概要
推測統計とは、母集団から一部を選んで標本(サンプル)を抽出し、抽出した標本を用いて母集団の性質を推測するという統計の分野です。
一方、取得した手元のデータを用いて、データの特徴をグラフや表などを用いて分かりやすく表現することを記述統計と言います。
統計検定では、推測統計に関する正誤問題が出題されますので、以下用語の意味を理解しておきましょう。
母集団:研究や調査で知りたい対象集団の全体
標本:具体的にデータを観測する母集団の一部
(例)
・選挙予測において母集団は何? ⇒ 有権者全体
・世論調査で母集団は何? ⇒ 国民全体
全体調査:母集団全体を対象とする調査
標本調査:標本を母集団から一部抽出し、その標本を調査して母集団を推測するもの
(例)
・全体調査の例:国勢調査(5年に1回実施、0と5が付く年)
・標本調査の例:内閣支持率、テレビの視聴率、十代の若者の意識調査
標本調査では、特徴や傾向などを知りたい集団が母集団で、標本に含まれる人数や物の数(=取り出した数)を標本の大きさ(サンプルサイズ)と言います。「標本の大きさ(サンプルサイズ)」と「標本の数」は異なる概念の為、混同しないように注意が必要です。
※上記は、以下の動画(Try IT、式変形チャネル)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。
7. まとめ
これまで出てきた公式で、特に押さえておきたい(試験直前に確認すべき)公式は以下の4つです。データ分析の基本公式となりますので、必ず覚えた上で試験に臨みましょう。
分散:「へへへ=偏差平方の平均」、「分二平平二」。
標準偏差:分散の正の平方根。
共分散:偏差積和の平均。
相関係数:-1<r<1の範囲をとる。共分散を標準偏差で割る。
また、上記用語の公式の関係性を理解しておくと良いです。文章題で変量の変換に関する問題が過去に出題されていますので、覚えた上で出題されたらラッキーです!
※上記は、以下の動画(超わかる!授業動画)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。
8. さいごに
最後までご覧いただきありがとうございました。本記事では計検定3級の出題範囲から、”コレだけは押さえておきたい用語と公式”をまとめました。私自身、勉強中の身で、9月上旬に受験予定です。勉強を進めていく過程で気づいた事などがあれば、別記事にてまとめていきたいと考えてます。また、ご指摘を受けたことがあれば適宜修正をしていきます。本内容を参考に対策の一助としていただけますと幸いです。