【書評】分析者のためのデータ解釈学入門 データの本質を捉える技術 第1章
今回ご紹介するのは、こちらの本の第1章。
データを観測すること
この本では、データ分析を以下のように定義している。
得られたデータを人間が解釈・利用できるように形に変換することで、対象について得られた理解や予測を目指す手続き
「得られたデータを」というのが、実に良い表現であると思う。
実際にデータ分析をやったことがある方は分かると思うが、欲しいデータが全て手に入ると行ったことは少なく、手元にあるデータでやっていくしかない。そして、データ分析の結果の質は、この得られたデータの質で決まる。
データ分析の世界には、Garbage in, garbage out. という有名な言葉がある。いくら高度な手法を駆使しても、ゴミデータから得られる結果はゴミなのだ。
測定の難しさ
近年、ビッグデータと言われるようにデータは膨大に増えているが、実際には増えているのは観測しやすいデータだけで、観測しにくいデータは依然手に入りにくい、と著者は指摘している。実際に実務でやっている身としてもこの感覚は非常に近い。データが膨大にあるからと言って、すぐに役立つかというとそうでもなく、実際には手に入りにくいデータの方が重要だったりする。
また、観測しにくいデータとして、「新商品の高感度」などのような数値化出来ない抽象的なものがある。こういった「測れないもの」を数値化する際には「測れる何か」で代替することが必要となるが、それによる情報の欠落について、図なども使って分かりやすく書かれている。
最後に、「標準化」による情報の欠落について述べられており、データの量と扱える情報細かさにトレードオフが存在するとある。これに関しては、アンケートのように「人が回答する」といったケースの場合で、機械的に収集するのであれば両立できると思われる。
ただ、その後にある「目的に応じてデータの量・粒度をコントールする視点が重要というのは完全に同意で、膨大なビッグデータをそのまま何も考えず分析を始めるのは愚の骨頂だ。
おわりに
今回は、第1章の内容に関してご紹介した。
本書は、非専門家でも読みやすい文体で書かれていて、図が秀逸でイメージしやすい。データ分析者だけでなく業務でデータ分析に関わる人は読んでみると良いだろう。