統計検定準1級合格はデータサイエンスへの第一歩
こんにちは。
クサカベです。
いつの間にか久しぶりの更新となってしまいました。
今日は統計検定準1級合格に向けて、
私が勉強したことや、感じたことを記事にします。
前置き
統計検定準1級には2年前の春に合格しました(確か)。
勉強期間はだいたい9月頃〜3月頃で、6ヶ月〜7ヶ月程です。
今思えば、統計検定準1級の勉強は、多くの学びがあり、楽しかったです。
準1級では式変形も2級と比較して複雑であったため、微分積分、線形代数から勉強をし直し、いくつかの専門書も参照しました。
基本的には公式テキストである『統計学実践ワークブック』と『過去問』をメインに勉強しましたが、その他にどのような本を使用したのか、参考にしたネット情報などを以下で紹介します。
合格までの道のり
主に使用したテキストは、以下の6冊です。
統計学実践ワークブック
統計検定 準1級 公式問題集
1冊でマスター 大学の微分積分
1冊でマスター 大学の線形代数
多変量解析入門――線形から非線形へ
時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装
最初は『統計学実践ワークブック』で勉強していましたが、
式変形が省略されている箇所も多く、展開方法が全然わからなかったため、
微分積分、線形代数の復習をすることにしました。
この『1冊でマスターシリーズ』は高校数学の復習から入っているため、高校数学で忘れてしまっていた部分も復習することができ、非常にわかりやすくまとめられていると思います。
別冊で問題もついていましたが、とりあえず、理論を理解できればいいと考え、問題を解けるようになるまでの勉強はしませんでした。
数学はだいたい理解した。いざワークブックへ!
と思いましたが、またも式展開で躓きました。
今度は多変量解析での式展開です。
ということで、多変量解析の専門書に当たることにしました。
こちらの『多変量解析入門』は式展開が非常に丁寧でほとんど省略されておらず、数学な苦手な人には非常に良い本だと思います。
こちらの本のおかげで、
サポートベクターマシン、クラスター分析、主成分分析などは理解が深まりました。
(個人的には良本だと思いますが、機械学習を勉強する方々からはあまりお話を聞かない気がして少しさみしく感じています。)
数学、多変量解析と学び、いよいよと思いましたが、多変量解析で扱っていない部分で再度躓きました。今度は時系列分析です。
時系列分析は比較的頻出だったので、勉強しないわけにもいかず、
こちらも専門書に当たることにしました。
こちらの『時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装』は時系列分析の本と言ったらといった感じでよく話題に上がる良書ですね。
SARIMAXモデルや状態空間モデルなど非常にわかりやすく解説されており、かつRやSTANを使用して手を動かしながら学べるため、理解が深まります。
今でも実務でよく参照しており、準1級のためではなくても買ってよかったと感じる一冊です。
ここまで来てようやくワークブックを一通りなんとか読破することができるようになりました。
長かったです。ここまで大体4〜5ヶ月は費やしたと思います。
ワークブックにとっかかり、章末問題を解き始めてからは早かったです。
とはいえ、ワークブックの解説は丁寧な解説はされておらず、なぜ?と感じる部分は多かったです。
そんな時に参照した以下の えびかずきさん のnoteです。
すごい参考にさせていただきました。ありがとうございます。
ネットで調べれば解説してくれる方がいるなんて、いい時代になったものです。
私の学生時代と比較して飛躍的に学びやすい環境が整っているなと思いました。
ここまで勉強し、決めた目標期日まで残り1ヶ月強。いよいよ過去問に取組ました。
しかし、やはり躓きました。解説の省略がすごいんです。
そんな時に参照したのが以下の マルチンゲールさん のブログです。
何度も参考にさせていただきました。ありがとうございます。
このお二人のおかげで合格できたと言っても過言ではありません。
本当にありがとうございます!
というわけで、色々と本やブログを参照し、
ワークブックの章末問題を3周、過去問を2周解き、
本番に臨んだ結果、なんとか合格することができました。
すぐに多変量解析できるようになるわけではない
私が合格して感じたのは、
「統計検定準1級に合格したからと言ってデータサイエンスできるようになったわけではない。統計検定準1級合格はデータサイエンスに入門を果たしたくらいの感じ。」
です。
これは、
「準1級のメインテーマである多変量解析を理解しても、
多変量解析するためのデータの収集や整理ができるようになったわけではない」
ためです。
データサイエンスしていくためには、
解決したい課題の明確化
分析するためのデータ収集
分析データの前処理
が大事ということを改めて感じたところです。
分析手法の仮説が立てられるようになる
合格することで(準1級の勉強を通じて様々な手法を知ることができるため)、
「課題に対し、なんとなくあの手法を用いることでできるんじゃないか」
と検討を付けることができるようになりました。
いわば分析手法の仮説を立てることができるようになったようなイメージです。
多くの場合、仮説は外れるまたは改めて勉強し直さないと実務では使えませんが、仮説をとっかかりに分析手法の深堀りや新たな手法の勉強をすることができ、分析スキルを向上させるキッカケをつくることができます。
これは勉強したことで得られたこととして大きいと思います。
結論
準1級の勉強はそれなりに大変です。
2級と比較して難易度も大幅に向上します。
これは
試験範囲が広いこと
数学的知識が必要なこと
が主な理由だと思います。
残念ながら準1級合格→即戦略というわけではありません。
しかし、準1級の勉強をすることで、あらゆる分析手法を知ることができ、実務で分析を行う際にさらなるスキルアップへの足がかりになることは間違いないと思います。
そういった意味でデータサイエンスへの第一歩となるような試験ではないかと思います。
おわりに
今回は実体験を踏まえて統計検定準1級に関する記事を書いてみました。
2級と比較して受験者数も大幅に減少する準1級ですが、
その分、勉強することの価値は大きいのではないかと思います。
おしまい。