読書感想文_004_データ分析系
本の概要
タイトル:Python実践データ分析100本ノック
著者:合同会社アイキュベータ共同代表 下山 輝昌・松田 雄馬・三木 孝行
初版年月:2019年10月
読了時間:3時間くらい(丁寧にコードを書きながら読むなら数日と想定)
感想
買った理由:Pythonの知識強化のために買ってみた。
得られたこと:いい意味で期待と違うアウトカムがあった。Pythonでのコードも紹介されているが、内容の多くは「目的に対してどのようにデータを組み合わせ、結合して、分析データセットを作るか」に割かれている。特に「汚い」データをクレンジングしたり、ノイズを除去したり、加工することに重きが置かれており、前処理が8割を体現したような本である。しかも現実のビジネス現場で使いそうな購買データや物流データを例題にしている。
「はじめに」でも書かれていたが、データ分析や機械学習の教科書的書籍には、必ずでてくる「アヤメの分類問題」というのがある。これはこれでアルゴリズムの精度を検証するためには必要な例題ではある(と教えていただいたことがある)。でも、サイエンス要素の知識を深める時には、現実に自分が向き合っているデータで考えないと理解が難しい時もあり、アヤメだけではない分類問題の例題が豊富な本が欲しいなと常々思っていた。
その意味でこの本は、「データさえあれば何かができる」と考えがちな人に最適な本である。まず現実で向き合う問題に近いデータを例題にしておりイメージしやすい。それから、単にデータだけ用意するのでは意味がなく、いかに「綺麗めに」データを蓄積しておくことと前処理が大事か理解してもらうために、必要なエッセンスが詰まっている。またデータ分析や機械学習によくでてくる「正解データ」の定義を決めるには、ビジネスドメイン知識が不可欠であることも実感できる内容だ。データ分析に従事する人が毎回向き合わなければならないデータ成形とデータセット作成までの作業を現場視点でまとめたものと言えよう。
Next Action
ビジネスサイドの人でデータを自分の手で加工するなどハンドリング経験がない人にオススメする。
イチオシ名セリフ
「ビジネスの現場では必ず直面する『汚いデータ』をどのように扱うか」
これに尽きる。何もしなくても今すぐ分析できる完璧なデータセットなどどこにもない。分析したいデータは、目的に応じて取得する仕組みを構築し収集するもので、分析データセットも目的に応じて作るものだ。大量のノイズデータからキラリと光る原石(インサイト)を見つけるまでには、データと向き合う分析者が、原石がどこにあるかを見出したいという想いで積み重ねた試行錯誤があるのである。