見出し画像

現役データサイエンティストが統計学初学者におすすめする本5選

こんにちは。株式会社D4cプレミアムでデータサイエンティストをしている、新卒3年目社員の元村です。

データサイエンスの勉強をしていると、統計学の知識が必要な場面がやってくるかと思います。統計学の書籍は数多く出版されているものの、初学者向けの書籍は「Pythonなどを使って動かしてみましょう」のような趣旨の本が多いと感じます。そういったものは、長年にわたって使う事ができる統計学の基礎知識を得るには適していないように感じます(もちろんPythonでの実装方法を知りたい方にとっては一定の意味はあると思いますが)。

そこで、タイトルの通り「初学者におすすめする」という事で、今回は数学科の方が勉強するレベルの厳密な理論に関する書物は避けつつも、統計学の基礎的な部分を身につける事ができるテキストとして、

■タイプA:具体的な計算例で理解していく教科書
…実際に手を動かし計算式を追う事で、統計学の手法について理解できる
■タイプB:統計学の「気持ち」が書かれた読み物
…どういった思想に基づき統計学の理論が展開されているのか書かれている

の2タイプの書籍について、独断と偏見で5冊ほどピックアップしましたので、それらについて紹介いたします。この5冊について、上から順に取り組んでいただく事を想定しておりますが、難易度の差はそこまで無いため、どの順番で取り組んでいただいても大丈夫です。もちろん、データサイエンティストが統計を扱う上では「どのように実装するか」も大事になってきますが、今回は「理論の基礎的な部分」に関する書籍の紹介となりますので、何卒ご容赦ください。

この記事のターゲット

・データサイエンスで扱う統計学に興味があり、勉強を始めたい方
・統計学の勉強を基礎から始めて、実践レベルまでざっくり理解したい方
・統計検定2級合格~準1級入門レベルの知識を習得したい方

執筆者について

某国立大学にて情報科学の修士号を取得したのち、D4cプレミアムへ入社いたしました。情報科卒ではあるものの、数学系の研究室に所属し、偏微分方程式論を専攻しておりました。そのため、数学関連の講義は学生時代に一通り履修しております。また、グループ会社であるデータサイエンスアカデミーの講師として、初学者向けに統計学や機械学習の内容について教えております。

1.「スバラシク実力がつくと評判の確率統計キャンパス・ゼミ」:高校の参考書のような雰囲気で、やさしく統計学を学べる!

【タイプA:具体的な計算例で理解していく教科書】

大学生協の書籍コーナーに行くと必ずと言って良いほど目にする「マセマ」シリーズの一冊です。昔は「確率統計」ではなく「統計学」というタイトルでした。基本的な確率分布~推定検定の初歩の部分までをカバーしており、最近の版ですとAppendixでマルコフ過程についても少しだけ説明があります。この本は、高校の参考書のような雰囲気で大学数学を学べる、という点がおすすめです。特に中心極限定理の証明といった面倒な式変形や、基本となる推定検定の演習問題などが丁寧に説明されており、統計学を学びたての頃はお世話になりました。

「マセマ」シリーズについては個人的に「どのレベルの知識が求められているかによる」という印象です。数学系の学生のように数学を研究対象とする方であれば、この一冊だけでは全然足りませんが、初学者が統計学のイメージを掴むレベルであれば、まずはこのくらいが丁度良いかなと思います。

ただ、「確率統計」で扱っている範囲についてはやや狭い印象があります。例えば「統計検定2級」は学部1、2年レベルの統計学が出題範囲になっておりますが、そこで出題される適合度検定や分散分析などはこの本では扱っておりません。データサイエンティストであれば統計検定2級レベルの知識は最低限持っておいた方が良いので、この本で初歩を掴んだら以下で紹介するような書籍を勉強するなどして、次のステップへ進むと良いでしょう。


2.「統計学大百科事典 仕事で使う公式・定理・ルール113」:豊富な計算例と適用例で統計学の実践力が身に付く!

【タイプA:具体的な計算例で理解していく教科書】

翔泳社から出版されている「大百科事典」シリーズの一冊です。ちなみに「数学」や「物理・科学」の大百科事典も出版されております。この本は、分散分析などの重めなトピックを除き、基本的に1トピックが見開き2ページにおさまっている、という点がおすすめです。

見開き左側のページに「公式・用語などのポイント」、左側から右側にかけて「ポイントに関する補足」、右側に「公式の適用例」、というレイアウトになっております。この「公式とその適用例がセットで掲載されている」という構成が、以下で紹介するような【タイプB】の本で不足している箇所を上手くカバーできると思います。

ちなみに余談ですが「公式の適用例」がたまに面白いです(「接待ゴルフは2次元正規分布で乗り切ろう」みたいな例もあったりします)。【タイプB】の本で統計学の「気持ち」を一通りおさらいし、細かい計算例をこちらの本で詰め込んでいけば、「統計検定2級レベル+α」の基礎知識は身に付くかと思います。

また、もう1つのおすすめポイントとして、扱っている範囲が広い、という点が挙げられます。表紙から漂うポップな雰囲気とは裏腹に、多変量解析やベイズ統計などといった、統計検定準1級以上のテーマについても踏み込んで説明しており、"初学者レベル"を脱却してからも長く使える一冊となっております。実際、私が統計検定準1級に合格するまでこの本にはお世話になりました。


3.「データ分析に必須の知識・考え方 統計学入門」:統計学の基本的な考え方がビジュアルで分かる!

【タイプB:統計学の「気持ち」が書かれた読み物】

ソシムから出版されている「データ分析」関連の一冊です。このシリーズですと、記事執筆中に出版された「本質を捉えたデータ分析のための分析モデル入門」などがあります。このシリーズはフルカラーの図やイラストが多く、視覚に訴えかけるスタイルである、という点がおすすめです。また、理論的な部分を説明するために数式が多少出てくるものの、【タイプA】の本のような式変形は少なく、どちらかといえば文章で説明するタイプの本のため、数式アレルギーの人でも取っつきやすいです。

個人的にまず刺さったのは、4章~6章にかけての「推測統計」の内容です。推測統計の考え方は初見だと分かりづらい部分があるのですが、分散分析などの応用例まで含めて図表付きで解説しており、何をやっているかのイメージがとても掴みやすいです。また、9章の「仮説検定における注意点」の内容も良いです。統計の内容は解釈の仕方を間違えやすい部分がありますし、都合の良いようにp値を操作する「p-hacking」にも注意が必要です。この辺りの事を1章かけてまとめているという点も、非常に価値があると思います。

ただ、【タイプB】の本については、統計学の「気持ち」については十分理解できますが、数式が少なめであるため、統計検定などに向けた学習には若干物足りない気がします。そのため、前半で説明したような【タイプA】の本などで、実際の計算方法についてをカバーしていくと良いかと思います。


4.「経済数学の直観的方法 確率・統計編」:著者独自の切り口で統計学を直観的に理解できる!

【タイプB:統計学の「気持ち」が書かれた読み物】

私が個人的に好きな「直観的方法」シリーズの一冊です。「確率・統計編」の姉妹編で「マクロ経済学編」があったり、「物理数学」の本もあったりします。このシリーズは難しい数式が少なく、文章ときどき図によって"学問の本質"を紐解いていくスタイルです。そのため数式アレルギーの人でもタイトル通り「直観的」に理解できる、という点でおすすめです。

こちらの本は「ブラック・ショールズ理論※」を理解する事がゴールになっております。そのゴールに向けて必要な確率統計の準備を、本の半分(約150ページ)を使って行っており、最小2乗法、中心極限定理、確率過程、について学ぶことができます。また、最後の方では確率微分方程式やルベーグ積分といった難しめなトピックも扱っており、この辺りを最短で理解したい人に向けてもおすすめです。
※経済学方面で有名な、オプション価格に関する微分方程式です。

前半についてだけ話をしますと、確率論という学問の発展にはガウスの「誤差論」が絡んでおります。そんなガウスの思考を想像しつつ、「誤差の修正」という観点から話が始まります。さらに「誤差(=物事のばらつき)の分布が正規分布ではなく、三角形みたいな単純な分布だったら」といった形で問題を単純化する事で、標準偏差などといった概念の本質を浮き彫りにしながら話が進んでいきます。一見すると不思議なこのアプローチが目から鱗でしたので、是非ともこの視点から確率論を再考する事をおすすめします。


5.「プログラミングのための確率統計」:計算例とイメージの両方で統計学を紐解く!

【タイプA, B】

タイトルに「プログラミングのための」とありますが、「実践で活用したい人のため」に書かれた本だと思ってください。このシリーズの本はもう1冊、「線形代数」の本があります。確率統計を学んでいると行列の計算が出てくるので、こちらの本もおすすめです。このシリーズは【タイプB】のように文章メインで説明しつつも、【タイプA】のような具体的な計算例も豊富である、という点でおすすめです。

本の内容は、確率の計算(条件付き確率や確率分布など)がメインコンテンツです。確率の応用(推測統計や確率過程)については、細かい応用例にはあまり触れず、どういう思想に基づく手法なのかについて丁寧に説明されております。

個人的なおすすめポイントとして、統計の初学者が取り組むには難しい概念(例えばルベーグ積分など)について「詳しく知りたい人は、○○というキーワードで調べると良いよ」という事が書かれている点が挙げられます。簡単な入門書だと難しい概念を表に出さずに説明を終えてしまうものが多く、本質的な議論をしていないにも関わらず、読者に「読破した="山の頂上"である」と錯覚させてしまいがちです(達成感も1つの良さではあるのですが...)。しかしこちらの本のように難しい概念のキーワードがある事によって、読者に"山の中腹"である事を認識させつつ、"さらに登るための道標"の役割も果たしており、より高みを目指したい人に向けた配慮もしっかりしております。


最後に

冒頭でも説明した通り、今回ピックアップした本はあくまで「初学者におすすめする」本です。「厳密な理論はどうなっているのか」という事や「PythonやRでどう実装するのか」という事など、理論面や応用面についてまだまだ先はありますので、こちらの記事を参考にぜひ更なる高みを目指していただければと思います。

(書き手:元村)

少しでもお役に立てましたら、記事の下の♡をタップ&フォローいただけますと、励みになります!

▼キャリア採用はこちら

▼新卒採用はこちら

▼コーポレートサイトはこちら