統計検定2級の試験に合格できるかどうか、統計的に検定してみた結果...
はじめに
記事を書こうと思ったきっかけ
ご覧いただきありがとうございます!わとと申します。
私は8月末からデータサイエンティストへの転職を目指して勉強しています。未経験からデータサイエンティストへ転職するための実績として、以下の3つを揃えることを直近の目標にしてきました。
実務でデータに触れた経験
→小規模でも実務で生データを扱ってビジネスをできることを示すためデータ分析コンペでのメダル獲得
→生データではなくてもデータサイエンスできる力を示すため統計検定(2級以降)取得
→データ分析の基礎となる統計学への素養を示すため
1点目は、詳細は伏せますが弊社のDX戦略を策定するために数万行のデータを扱って分析し、その後のデータ管理した経験があります。ですので、その試行錯誤の過程や成果をまとめようかと思います。
2点目は、SIGNATEのビギナーコンペで2位、一般コンペで銅メダルを獲得しましたので、一定程度は完了しています。その際の取組についても記事にしていますので、ご興味ある方はぜひご覧ください。
そして今回は、3点目の統計検定2級取得に向けて勉強を行い、2025年1月11日に無事に試験に合格しました。点数は89点(60点以上が合格ボーダー)でした。統計検定2級のレベル感としては、大学1,2年生の教養課程程度の知識となっています。詳細は下記サイトをご覧ください。
そこで、今回の記事では「勉強前の状態」を踏まえた「勉強法と勉強時間」をご紹介するとともに、せっかく統計学を学んだのですから、「合格するかどうかの検定」を行いたいと思います。※ちゃんと試験前に行いました
勉強前の状態(2024/12/17)
高校以前は数学がとても得意(センター200点、2次試験109点/120点)
大学1年の教養課程で統計解析学入門を受講して評価「優」を獲得
大学の専攻は量子コンピュータで、量子力学(≒統計的な物理学)を扱っていた
そこから数年経過していたのでほぼ全く記憶には残っていないものの、手を動かせば何となくは理解できる
客観的に見て数学は得意側ではあるので、「数学得意な人がどうやってどのくらい勉強すれば9割近い点数で合格できるのか」という指標の一つになれば幸いです。
勉強法と勉強時間
何を勉強するにも大事なのは「ネタ」「やり方」「完走力」です。闇雲に勉強を始めるのは時間も労力ももったいないです。
そこで初手は「ネタ」と「やり方」を決めるために情報収集をします。今の時代は「ネタ」も「やり方」もそこら中に情報が転がっているので、良さそうなものをいくつか比較考量して、重要そうな共通因数を抜き出します。
自分が参考にしたサイトをいくつか載せておきます。
この辺の情報から、「ネタ」「やり方」と「完走時間の見積もり」を立てました。
勉強法
ネタの1つ目は、統計Webの『統計学の時間』で、基礎編までを勉強しました。まずはこれをざっと一読して全体の雰囲気や量を把握することを心がけました。学生の勉強で言うと「まずは参考書を一周する」ってやつですね。
一周した後に自分の場合は「この分布の期待値や分散がこの値になるのはどうして??」など、公式や性質のような数式が気になったので、なるべく自分の手で全て導出するようにしていました。というか大学受験時代から物覚えが悪いことを自覚していたため、定義から必要な公式や性質は導出できるように準備していました。
ネタの2つ目は、過去問と公式問題集で、過去問は2011~2015年分に取り組みました。直近の過去問をやらなかったのは色々な記事を読んでいた際に「CBTの問題は直近よりも簡単」という文言が何度も散見されていたからです。自分の場合は過去問を1回ずつ昔のものから遡った後に公式問題集に取り組みました。公式問題集は分野ごとに分かれていて学習しやすかったので、体験談として順序は逆の方がおすすめです。どれも1回解いて解けなかった問題の箇所を統計学の時間で復習していました。2周はしていません。
なお、公式問題集は今も書店で販売されていますが、2011年~2015年の過去問は今はAmazonで受注印刷でしか公式販売されていないので、Amazonから買うか中古で購入しましょう。
勉強時間
まずは、必要な勉強時間を見積もります。色々なサイトを見ると50〜80時間あたりに収まっている印象でした。数学できる側の自分は50時間を確保すれば十分に勉強できると見積もりました。
次に、見積もった50時間勉強を完走するためのスケジュールを立てます。そのために、まずは終わりである試験日を決定しました。というのも、CBT形式になってからは1年365日ほぼいつでも受験できてしまうため、ズルズルと試験を先延ばしにできてしまいます。そこで、いつものごとく危機感を持つために、2024/12/17日時点で、「50時間の勉強時間を確保できそう」かつ「最早の土日休み」である2025/1/11(土)11:00の試験を申し込みました。試験まで25日間程度あるので、年末年始も含めて毎日2時間勉強すれば50時間勉強できます。体調不良があったとしても休みの日はもっと勉強できるので、バッファを持ったゆとりのあるスケジュールを設定と言えます。
最後は、計画に沿って実行して完走するだけです。とは言うものの、ここが一番差がつきます。というかほぼここでしか差がつきません。ですのでここは熱意を持って書きます。
現代は、Googleで調べれば大量の情報があり、YouTubeを開けば解説動画に溢れ、更にはChat GPTに聞けばかなりの精度で情報を与えてくれます。そのため、「知っているかどうか」では結果に差がつかないと自分は考えています。では何で結果に差がつくのかというと「分かっているかどうか」「実行する/し続けられるどうか」だと考えています。
では「知っている」と「分かっている」の明確な違いは何でしょうか?それは「知っている」状態だけだと「できない」、「分かっている」状態なら「できる(可能性が高い)」と思っています。
では「知っている」状態から「分かっている」状態になるにはどうすればよいのでしょうか?それは「実際にやってみる」ことだと思います。勉強の話だけでなく世の中全般に言えることだと思います。叙々苑の焼肉が美味しいというのは多くの人が口を揃えて言っているので美味しいと知っているのですが、本当に美味しいのか、どのくらい美味しいのかは実際に食べてみた時に初めてわかるのと同じです。そしてそれは何者にも代替できず、あなたがやるしかありません。
では「分かっている」人はどうすれば良いのでしょうか?あとは「実行する」こと大丈夫です。単発で終わらない場合は「実行し続ける」ことができれば大丈夫です。そしてこれも何者にも代替できず、あなたがやるしかありません。
本当に要約すると「実際に行動する」人こそがAIに代替されることのない価値があるのかなと思っています。自分もこれを意識しながらここ半年間くらい生きている結果、人生楽しいな〜と思っています。
話を元に戻すと、あとは毎日2時間以上勉強するだけでした。基本的には、一緒にPython×データサイエンスを学んでいるTechFrontier(通称テクフロ)の受講生の中から有志で集まる「朝活」をすることで、コンスタントに毎朝勉強をしていました。
途中インフルになった日は勉強お休みしましたが、元から年末年始は勉強するつもりでしたしバッファを十分に設けていたので、結果的に70時間は勉強できました。当初予定より勉強時間確保できたおかげか、ボーダーが6割の中9割弱を取って合格できました。
最後に|合格できるかどうかの検定
ここまでご覧いただき本当にありがとうございました!「参考になったよ!」という方はスキや拡散いただけると励みになります!
そういえばタイトル回収をしていませんでした。実は、せっかく統計検定を勉強したので、それを活かして試験前に「どのくらいの割合で合格できるのか」を統計的に検定していました。その結果「まあ受かるやろw」という心の余裕を持って受験することができました。皆さんも何かの試験を受ける前にやってみてはいかがでしょうか?
では、合格可能性について片側検定をしてみましょう。落ちたくない気持ちが強いので、有意水準は少し厳し目に1%としてみましょう。
合格のボーダーが6割なので、真の正解率(母比率)を$${p}$$として帰無仮説と対立仮説は以下になります。
帰無仮説 $${H_0 : p=0.6}$$
対立仮説 $${H_1 : p>0.6}$$
過去問5年分及び問題集の中には合計360問の問題が含まれていました。そのうち私は311問を正答していました。これらの問題と本試験の問題とが同一の分布に従っているとすると、標本比率を
$$
\hat p = \frac{311}{360} = 0.8639
$$
としたとき、以下の$${z}$$は近似的に標準正規分布に従っていると見なせます。
$$
z = \frac{\hat p - p}{\sqrt{\frac{p(1-p)}{n}}}
$$
これを計算すると$${z=10.22}$$となります。有意水準1%のとき、2.33<10.22のため(余裕をもって)帰無仮説を棄却できます。ですので、僕が試験を受けた際に得点率が6割を超える可能性は極めて高いことがわかりました。$${P}$$値を計算したら$${10^{-23}}$$のオーダーでした笑