見出し画像

統計検定に合格できるかどうかを統計的に検定してみた 【統計検定準一級で最優秀成績賞になりました】

2022年7月に統計検定準一級を受験し、約9割の点数を取って合格しました。ここではその合格体験記として、使った教材や勉強法、試験日の様子などについて書いてきます。(タイトルの話は記事の中盤に書いています。)

試験を受けたきっかけ

私は情報系の大学院を出て今は機械学習エンジニアをしているのですが、学生時代は機械工学の授業が多い学科だったこともあり、体系的に統計学を学ぶ機会があまりありませんでした。

現在の機械学習ツールは、「ディープでポン」と表現されるようにtorch.nnみたいなものを決まった形式で並べていけば苦労なく構築することができ、特に何も考えなくてもそこそこの結果が得られます。しかしもちろんそれを専門とするなら機械学習と密接に関連する統計学の基礎くらいは知っておくべきであり、一度統計学を勉強しておきたいという気持ちは常々ありました。

最近は統計検定の話題がTwitterなどで流れてくるのを時々見かけます。自分と同じように統計を勉強したいと思っている人にとってはだいぶポピュラーな検定になっているようですし、巷のデータサイエンス職の方が「統計検定は勉強の題材として良い」と言っているのも複数観測しました。統計学を勉強する際の目標としてはちょうど良さそうだったので、思い立って統計検定を受けてみることにしました。

統計検定とは

「統計検定」は、統計に関する知識や活用力を評価する全国統一試験です。データに基づいて客観的に判断し、科学的に問題を解決する能力は、仕事や研究をするための21世紀型スキルとして国際社会で広く認められています。日本統計学会は、国際通用性のある統計活用能力の体系的な評価システムとして統計検定を開発し、様々な水準と内容で統計活用力を認定しています。

統計検定公式より

統計検定とは上の通り統計学の知識を問う試験です("統計的な検定"と紛らわしいですね)。
受験区分は4級・3級・2級・準1級・1級の5つです。
現時点では、一級以外は全てCBT試験に移行しており、紙の試験(PBT試験)はありません。テストセンターに行けば年中いつでも受験することができ、試験の結果もその場ですぐにわかります。
一級のみPBT方式で、年一回11月に開催されているようです(一級のことはほとんどわかっていないのでこの記事では触れません)。

検定の種類(公式サイトより)

二級の勉強

まず、私は何級を受けるべきか迷いました。少し調べたところ、一般に「統計」と聞いて思い浮かべるようなトピック(確率分布、信頼区間、検定など)は二級で主にカバーされていることが分かりました。私が当初勉強したいと思っていたのもこの辺りの話だったので、とりあえず二級の勉強から始めることにしました。

今の時代便利なもので、統計検定ほどの有名な試験であれば受験体験記がネットにたくさん落ちています。まずはそういった記事を見てイメージを掴みました。

これらの記事にはたくさんの参考書が紹介されているものもありますが、私はできれば二級の勉強は1ヶ月くらいで終わらせたかったので、あまり何冊も本を読みたくはありませんでした。
そこで、多くの受験体験記で挙げられており、とっつきやすそうな以下のサイト「統計学の時間」を読み進めるところから始めました。

こちらのサイトには、

大学で学ぶ統計学の基礎レベルである統計検定®2級の範囲をほぼ全てカバーする内容となっています

と書かれており、実際に一通り読んだ後過去問を解くと二級の内容が過不足なくカバーされていると感じました。
こちらのサイトは数式を使った説明はあまり書かれていません。その代わり「この手法は何が嬉しいのか」「この手法はどういうケースで使えるのか」に主眼が置かれており、例題の量も非常に多いです。まず統計学の概観を掴みたかった私にとっては非常にありがたい教材でした(もちろんより深く理解するには別の書籍を参照することをお勧めします)。私はこれのStep 1を数日かけて一通り読み、要点を軽くまとめる作業をしました。

その後、公式の過去問題集を購入しました。こちらには過去問が5年分掲載されており、CBT形式の本番に近いものとなっています。

試しに1年分解いてみると、意外にも解ける問題がかなりあり、正答率が6割強でした。二級の問題は統計理論を問う問題というより、統計をどう使うかに主眼が置かれているように感じます。例えばデータが与えられて「このデータに関して〇〇の検定をすると有意であるかどうか」のような問いが多い印象です。
Webサイト「統計学の時間」には数式を使った説明がほとんど無いと言いましたが、実際の試験においてもそこを深く理解していることは求められないようで、検定を解く上で必要なエッセンスのみが簡潔にまとめられていると言えます(それが私が「過不足なくカバーされている」と感じた理由です)。その後再び「統計学の時間」を見直してもう1年分過去問を解くと、さらに点数が上がりました。
結局私は「統計学の時間」と過去問としか勉強に使いませんでした。過去問を5年分解いてみて、「これは確実に合格できるだろう」と感じたので、二級は受験せずにこのまま準一級を受けてみることにしました。

二級の合格可能性はどれくらいだったのか検定してみる

結局私は二級は受けなかったのですが、もし受けていたら本当に合格できていたのでしょうか?
せっかくなので、合格可能性について片側検定をしてみましょう。合格ラインが6割なので、真の正解率(母比率)を$${p}$$として帰無仮説と対立仮説は以下になります。

  • 帰無仮説$${H_0}$$:$${p = 0.6}$$

  • 対立仮説$${H_1}$$:$${p > 0.6}$$

過去問5年分の中には合計173問の問題が含まれていました。そのうち私は133問を正答していました。これら5年分の問題と本試験の問題が同一の分布に従っているとすると、標本比率$${\hat{p} = \frac{133}{173} = 0.769}$$ として、以下の$${z}$$は近似的に標準正規分布に従うとみなせます。

$$
z = \frac{\hat{p} - p}{\sqrt{\frac{p * (1-p)}{n}}}
$$

計算すると

$$
z = \frac{0.769 - 0.6}{\sqrt{\frac{0.6 * 0.4}{173}}} = 4.54
$$

これは有意水準2.5%としても1.96 < 4.54となり、余裕を持って帰無仮説を棄却できるので、私が二級を受けた場合に得点率が6割を超える可能性が極めて高いと分かります(ちなみに4.54のp値は2.81E-6です)。

このように、統計学を勉強することで、統計検定を受験することなく合格と結論づけることもできるわけです(もちろんこれ以外にも色んな要因があるのであくまで参考程度に)。

準一級の勉強

二級の勉強をざっと終えた後に準一級の勉強を開始しました。準一級を受験された方の受験体験記も探すとたくさんありました。

二級における「統計学の時間」のような、これらを網羅してまとめたようなサイトは無いように感じたので、公式の参考書と公式の過去問題集を購入してみました。

公式の参考書ですが、読むのにはそれなりに骨が折れました。他の方の感想にもある通り、広い試験範囲を比較的薄めの参考書にぎゅっと収めてあるため、出題範囲をざっと把握するのには便利な反面、説明が飛躍している部分もある印象でした。ただ、章末にある練習問題は試験の過去問をベースに作られているようでとっつきやすいものもあったので、章末の問題を軸にしながら試験で何が問われるのかを勉強していきました。

準一級を勉強してみて、二級と違うと感じた点は以下のような所です。

  • 新たに勉強するトピックが増える。時系列解析、ベイズ推定、シミュレーションによる推定など、学ぶトピックはかなり幅広い。主成分分析、判別分析、クラスタリングなど機械学習っぽい話も加わる。

  • 二級の内容を深めたようなトピックもある。混合確率分布や、分散分析と関連する実験計画法・分割表など。

前半の確率分布や検定の項目に関しては、二級の教材で勉強していたので比較的少ない時間で読み進められました。いきなり準一級から始めるのではなく先に二級の勉強をしておいたのはいい選択だったと思います。また、判別分析・主成分分析などのトピックは大学で習ったことがあったのでこちらもそこまで苦労なく読み進められました。一方、分割表・時系列解析・シミュレーションなどは二級には無く初めて知ることが多かったです。

参考書は1、2周読み、以下のような感じで要点をノート(iPad)まとめる作業をしました。少し前に応用情報を勉強した時と違い、統計検定は覚えないといけないこと自体は少ないので、必要そうなことを網羅的にまとめました。

参考書の章ごとに要点をまとめた

その後過去問を解き始めました。最新版の公式問題集はまだPBT時代の過去問になっているようで、CBTとは問題形式がやや違います。特に、選択問題とは別に一部記述問題があったり、後半には3問中一問を選ぶ論述問題もあります。こちらの問題も理解を深める上では非常に参考になるのですが、本番の形式とは違うので、近日中にCBT形式の過去問が出版されて欲しいと思っています。

準一級に関しても二級と同じく、数学的な理解を問う問題というより、各手法の特性であったり、実際の分析でどう使うかが問われやすい印象がありました。ですので、勉強を始めていくときは、細かく数式の流れを追うよりむしろ手法ごとのイメージを掴むのを優先することをおすすめします。(ただ稀によく行列計算や積分も出ることがあるので、理解が進んだら式も少しずつ追っていくのをおすすめします。)

結局こちらも勉強に使ったのは公式の2冊で、他の本は特に参照しませんでした。参考書と過去問に出ている問題を何周かして一通り押さえるとともに、まとめたノートを適宜参照して必要なことを覚えるようにしました。

2級の勉強は4月半ばから5月頭まで半月くらいで終わり、その後準一級の勉強を2ヶ月(実働は1ヶ月強くらい)やりました。両者合わせて総勉強時間は80~100時間程度だったと思います。

申し込み

申し込み自体は、試験勉強の目処が立った6月頭に行いました。申し込みはOdysseyというシステムを通じて行われ、手順は以下に書いてあります。

しかし、面倒なことに、申し込みはサイトから統一的に行うことができず、統計検定を開催しているテストセンターに個別に申し込む必要があります。統計検定を受けられる会場の一覧はサイトで見られますが、各会場でどの日が空いていて、どの級が受けられるのかは各会場のWebページを開いて一つ一つ確認しなければなりません。

また、申し込みの方法も各会場によって異なります。多くの会場では試験の候補日をフォームから送信して、その日が受験可能か問い合わせなければならないなど、都合の良い日程を確保するまでのステップが非常に多いと感じました。ぜひ関係者の方におかれましては、日程検索から予約までを統一的にできるシステムの導入をお願いしたいです。

試験会場を個別に探して問い合わせる必要がある
Odesseyのページに試験会場一覧があるが、
この時点では希望日に希望の級を受験できるかはわからない

受験日当日

私は有楽町の会場で受験しました。
当日の持ち物は身分証と電卓のみです(受験票も特に送られてこない)。電卓は事前にこちらを買いました。

会場はパーティションで区切られた自席にPCが置いてあり、入室したら各自好きなタイミングで試験を始める形式でした。

試験は4〜5択の選択問題のほかに、自分で解答を入力する形式のものもいくつかありました。それらも、答えとなる数値を入力するようなものや、選択肢の番号を入力するもの(なぜ選択ボタンにしないのかは不明)で、長い記述を求められるようなことはありませんでした。

問題に関しては過去問集とだいたい同じような傾向だったと思います。私の場合は(たまたまかもしれませんが)比較的解きやすい問題が多く、過去問よりもやや簡単だったかなという印象でした。時間も、制限時間90分の中で一通り解き終わったあと20分くらい余ったので、再度見直す余裕がありました。
テストセンターのPCの操作は総じてシンプルで分かりやすいものでしたが、問題がPCで表示されるのもあって、初めてだと慣れない感じがするかもしれません。

受験が終わると少しアンケートがあり、その後唐突に画面に合否と点数が表示されます。私の結果は、

その場でもらえる結果表(見事合格!)

見事合格でした!!得点率89%ということで、少し易しめだったという自分の印象の通り、過去問を解いた時よりも高い点数が出ていました。
ただここでは一体どの問題を間違えたのかはまでは分からず、復習をするには少し不便な印象がありました。
結果は即座に印刷されて上のような結果表がもらえます。すぐに結果が見えるのは嬉しいですね。合格証が届くのは数週間後になるようです。
合格ツイートをすると予想以上にいいねを貰えたので、統計検定の注目度の高さを実感しました。

【2022/7/27追記】
後日合格証が届いたのですが、それとともになんと最優秀成績賞の賞状が入っていました!
受験日が統一されていないCBT試験なので、全受験者の中で1位というわけではなく、ある基準点以上の成績だったということらしいのですが、このような賞状までいただけてとても嬉しかったです。

最後に

統計検定の問題は全体的に「特定の状況やデータがあるとき、それに対してどう統計学を使うか」に主眼が置かれており、統計を活かすという点でとても学べることが多い試験だと感じました。「統計学を何もわかっていない自分から脱却したい」という漠然とした思いを抱えている方(自分も含む)に向けては特におすすめできる試験だと思います。

世の中にはデータに明らかな差や相関がなく、「一体どこを基準にしてデータを判断すればいいんだろう」と迷うシーンが多々あります。そんな時、単に経験と知恵で判断するのではなく、統計学的な視点から判断することができれば、物事に対する解像度も上がります。統計を勉強することで初めて、統計の知見を生かせる場所が周りに溢れていることに気付けると思います。

とはいえ、準一級に合格して私が今思うのはむしろ「まだまだわからないことだらけだ」ということです。統計検定の問題の性質上、合格したからといって「統計理論に精通している」とは言えない気がします。検定を受ける場合はどうしても試験対策的な勉強が多くなってしまうため、試験に直接出ないようなトピックはまだまだ自分の理解が追いついていないと感じています。また、実世界のデータはこれよりはるかに曖昧で複雑であり、実際のデータサイエンスでは統計検定とは違ったスキルが要求されるはずです。私も今回の合格を勉強の入り口だと思って、今後より理解を深めていければと思っています。

いいなと思ったら応援しよう!