見出し画像

急がば回れ!の統計学おすすめ学習法~多変量解析・ベイズ・時系列解析の学習に向けて~

こんにちは。株式会社D4cプレミアムでデータサイエンティストをしている新卒2年目社員の三田村です。

私は学生時代、身近に多変量解析・ベイズ※・時系列解析を応用して大きな研究成果を挙げていた方々がいたため、その影響を受け新卒1年目までの約3年間でこれらの理論の学習に何度もチャレンジしたのですが、基礎力が足らずかなり挫折してきました。

しかしながら業務でこれら3つを使用する機会があり、先輩社員やお客様と議論する場面が増え、これらをきちんと習得する必要が出てきました。そして改めてしっかりとギアを入れ体系的に基礎から学び返すことで、ある程度多変量解析・ベイズ・時系列解析について議論を行えるまでのレベルに到達しました。

学生時代や入社直後に「多変量解析・ベイズ・時系列解析の習得に向けた統計学の学習ロードマップ」を知っていたら、もっと効率的に習得できたと思います。また統計学を学ぶ中でこれら3つの分野が占める割合は大きく、非常に重要だと考えています。そこで、これから学習する皆さんには自分のように余計な時間をかけず効率よく学んでいただければと思い、この記事を執筆します。

※ 本記事では「ベイズ統計学」「ベイズの定理」「ベイズ推定」「ベイズ最適化」と言ったベイズの名を冠した用語を一括して”ベイズ”と記載しています。

この記事のターゲット

多変量解析・ベイズ・時系列を応用した技術に興味があり、理論を学習してみたが理解できなかった方、これらをどのような順序で学習をするべきか知りたい初学者の方。

執筆者について

学生時代:
■ 某国立大学の材料系の研究科出身
■ 実験、シミュレーション、データサイエンスを取り入れた太陽電池材料の研究
■ Pythonを学部4年からほぼ毎日実装しており、数値最適化とディープラーニングを実装した論文をそれぞれ執筆

入社後:
■ 1社目の案件「製薬企業向けデータベースWebアプリ開発」に従事。  
 PythonとDjangoを用いたデータベースWebアプリを作成。
■ 同年9月、2社目の案件「自社内日本語文字認識モジュール開発」に1か月間従事。OSS(Open Source Software)を応用し、文字認識モジュールを開発。


統計学ロードマップ~多変量解析・ベイズ・時系列解析まで~

結論として、多変量解析・ベイズ・時系列解析を学ぶためには、基礎的な統計学の学習をする必要があります。

学生時代の私は、多変量解析・ベイズ・時系列解析は機械学習の代表的な手法なので、統計学を知らなくても身に付けられると考えていたのですが、それは間違いでした。事前に基礎的な統計学の習得をする必要があります。

多変量解析・ベイズ・時系列解析は統計学の一部であり、かつ古典的な機械学習の一部でもあります。どちらかというと統計学に内包されていると考えた方が学習の順序を間違える危険性がなさそうです。逆の視点から言うと、基礎的な統計学を習得してしまえば、多変量解析・ベイズ・時系列解析を学習するための“下地”ができます。

次の章からは、統計学の入門レベルの初学者から、多変量解析・ベイズ・時系列解析をある程度理解するために学習するべき本の具体例を交えつつ、順序をご紹介します。


1,入門レベルの統計学

もし大学時代に統計学の講義を一切受講されたことがない場合は、なるべく簡単な統計学の教科書を選択しましょう。反対に受講されたことのあるレベルなら、次の「標準的な統計学」にお進みください。私がおすすめするのは、無料で読むことができる【書籍】統計学演習(培風館) (難易度:★☆☆☆☆)という教材です。この他にも「度数・階級値」から始まり「相関と回帰」で終わるような教材で”初学者向けにおすすめ”と紹介されている本なら代替が可能かと思います。

自分が使いたいのは”キラキラ”としたカッコイイ手法なのに、こんな面白くなさそうな教材勉強したくないよーという気持ちは分かりますが、いきなり次に紹介する「標準的な統計学」を学習すると挫折する可能性が相当高まります。急がば回れです!


2,標準的な統計学

ここでは入門から標準レベルの統計学を習得する内容となっています。統計の学習サイトのほぼ全てでおすすめされていますが、本記事でも【書籍】統計学入門(東京大学出版会)(難易度:★★★☆☆)をおすすめさせていただきます。”入門”とは書かれていますが初学者向けではないと思いますのでご注意ください。

こちらの教科書も「1 入門レベルの統計学」でご紹介した【書籍】統計学演習の範囲とほぼ同じ「度数・階級値」から始まり「相関と回帰」で終わるといった内容ですが、ここで出てくるレベルの確率・確率変数・確率分布・標本分布・推定・回帰分析を理解することで、多変量解析・ベイズ・時系列解析の学習の足掛かりとなります。ここまでできればようやく多変量解析・ベイズ・時系列解析の世界へ踏み込めます!

※以下に紹介する多変量解析・ベイズ・時系列解析の3つの中では特に決まった学習順序はないため、興味のあるものから順番に学習してみてください。


3,多変量解析

多変量解析の中でよく使う手法は、重回帰分析・相関分析・主成分分析ではないでしょうか。統計や機械学習の初学者で「主成分分析は簡単だよね」と言う方はほとんどいないと思います。重回帰分析と相関分析は初学者から、簡単に思われ、ないがしろに学習されている印象を持っています。

重回帰分析と相関分析を使用する方は、ぜひ標準的な統計学を学んだ後に、多変量解析にチャレンジしてみましょう!重回帰と相関分析の奥深さに気づけます。私が読んで学習した2冊をご紹介します。

1冊目は【書籍】意味が分かる多変量解析(ベレ出版)(難易度:★★☆☆☆)です。多変量解析初学者におすすめの教材で、次に紹介する多変量解析入門を読み解く前段階として使用しました。


2冊目は【書籍】多変量解析法入門 (ライブラリ新数学大系)(難易度:★★★★☆)です。どのサイトでもおすすめされている教材のため間違いがないはずです。


4,ベイズ

続いてベイズです。本記事ではベイズと一括りにしていますが、データ解析や統計学の世界では「ベイズ統計学」「ベイズの定理」「ベイズ推定」「ベイズ最適化」などとベイズの名を冠した言葉が非常に多く使用されています。

学生時代に在籍していた研究室の同期が「ベイズ最適化」を応用した研究をしており、それに影響されて何度もチャレンジしたのですが、統計学の基礎が無かったために全然理解できず、投げ出してしまっていたという辛い記憶があります。この経験を持つ私から「ベイズ統計学」と書かれた入門書をまずしっかりと読むことをおすすめします。

私が読んだ本は【書籍】これならわかるベイズ統計学(ナツメ社)(難易度:★★☆☆☆)です。

こちらのような入門レベルの本を読んだ後であれば、難しめの専門書にどんどんチャレンジできるようになると思いますので、ぜひ頑張りましょう。私もまだまだ頑張ります。


5,時系列解析

続いて時系列解析です。時系列分析をする際には、「Random forest」「深層学習」「ベイズ推論」「(S)ARIMA」といった手法が実務で使用されることが多いですが、今回の対象は、自己回帰過程(AR過程)や移動平均過程(MA過程)といった時系列解析の分野となります。

この時系列解析で中心となる「AR過程」「MA過程」「ARMA過程」の特徴として、標準的な時系列解析の教科書を読むだけではイメージが付きづらいと強く感じています。反対ににイメージさえ付けてしまえば、これらの理論の理解からプログラム実装まで意外と難しくなく、時系列分析をする際の強力な武器の1つにすることができると感じます。このような考えから、以下の3つの教材をおすすめします。

1.【書籍】人文・社会科学の統計学(東京大学出版会)  (難易度:★★★★☆)

時系列解析の章が対象です。もしこの教材が難しく感じるようでしたら、2と3の教材を補足として学習されるとよいかと思います。


2.【動画】AIcia Solid Project 【時系列分析③】ARMA過程と誤差項の意味【ついに時系列の始まり!】 (難易度:★★☆☆☆)

教科書を読んでも、時系列解析で出てくるAR過程、MA過程、ARMA過程がよく分からないという方はこちらの動画を見てみてください。分かりやすく、おすすめです。


3.【書籍】現場ですぐ使える時系列データ分析 データサイエンティストのための基礎知識(難易度:★★☆☆☆)

時系列分析の基礎から学びたいという方に非常におすすめです。また、①の書籍を読んでみて少し難しく感じた方にもおすすめします。


まとめ

今回は私の過去の挫折の経験から「多変量解析・ベイズ・時系列解析」の学習の前に何を学ぶべきか、さらに「多変量解析・ベイズ・時系列解析」の学習の初めの一歩についてまとめてみました。 当時の私と同じような悩みをお持ちの方にこの記事がお役に立てば幸いです。

また今回の統計学ロードマップは、統計検定準1級の学習手順とほとんど共通しています。もし統計検定準1級取得に興味がある方は、こちらの記事も合わせてご覧ください。

(書き手:三田村)

少しでもお役に立てましたら、記事の下の♡をタップ&フォローいただけますと、励みになります!

▼キャリア採用はこちら

▼コーポレートサイトはこちら