読書メモ:データサイエンス「超」入門
基本情報
『データサイエンス「超」入門』
松本健太郎
2018年9月30日発行
最近だと「データサイエンス」に興味があり、また、大学時代に統計学の講義を受講していたこともあり、「データを正しく読み解く」ことを意識しており、手に取った一冊。
内容としては、「超」入門ということで学術的な入門書ではなく、具体的な事例(訪日外国人数、政権支持率等)を取り上げて、関係するデータの見方、読み時を解説されている。
細かい話だが、横書きで書かれている。
構成
00.バイアスだらけの私にリテラシーを
01. 「世界から愛される国、日本」に外国人はどれくらい訪れているのか
02. なぜネットと新聞・テレビで支持率がこんなに違うのか
03. 結局、アベノミクスで景気は良くなかったのか
04. 東日本大震災、どういう状況になれば復興したと言えるのか
05.経済大国・日本はなぜ貧困大国とも言われるのか
06. 人手不足なのにどうして給料は増えないのか
07. 海外旅行、新聞、酒、タバコ・・・若者の〇〇離れは正しいのか
08. 地球温暖化を防ぐために、私たちが今できることは何か
09.糖質制限ダイエットの結果とデータにコミットする
10.生活水準が下がり始めたのか、エンゲル係数急上昇の謎
感想
学術的な説明はほとんどなく、データサイエンスの基礎知識は全く不要で読めるため、文系の私でもあっという間に読めた本書。
著者が比較的当時の政権に批判的なスタンスということもあり、政府発表データに対しては批判的な見方がされている。
但し、そもそもの考え方として「データを疑ってみる」ということを本書では警鐘しており、確かに発表されたデータ・解説をそのまま鵜呑みにすることの危険性を本書では丁寧に解説している。
ネットとテレビ・新聞での「支持率」の違いに関しては、統計学の基本になる「母数」と「調査方法」の違いで差が生じていることが説明されている。テレビ・新聞のいわゆる「世論調査」だと、RDD方法が採用されることが多く、信頼できる標本数を電話や場合によっては訪問調査で集めることで、母集団・標本数を担保されている。
一方、ネットでの調査はそこまでの作業はしておらず、「アンケート」に近い形で行われることが多いため、テレビ・新聞と差が生じることになる。
(それでもテレビ・新聞の調査も当然完璧というわけではないことも説明されており、経過を追う分には問題なく、ネットの調査よりは信頼できる程度と注意喚起されている)
実験的なデータを扱う分には、まだ統計学的な処理をすれば信頼できるデータができ、科学的な研究にも耐えうるが、「人」が絡むような社会科学的なデータは、どこまでいっても調査方法や聞き方によってデータが影響を受けてしまうため、慎重に読み解く必要があることを本書を通して改めて感じた。
普段にいかにバイアスをもってデータを見ていたか、また、深く考えずにデータを見ていたかと反省させられた一冊であった。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?