『本物のデータ分析力が身に付く本』
この本を紹介したいのは以下3つの考えを持つ人たちである。
① 数字を使って“適切な”課題解決策を打ち出したい人
② 抽象的なことばかり提唱しているデータ分析系の本にウンザリしている人
③ データ分析の具体的、かつ実践的な方法を知りたい人
1, 書籍情報
2, 著者情報
著者は複数名。普段はそこそこ詳細に記載するが、今回は人数が多いため割愛させていただく。
3, 解説と見解
ざっくりではあるが、目次は以下の通り。
各章ごとに解説していく。
その前に、プロローグで印象に残った2つのセンテンスを記載する。
①データアプローチではなく課題アプローチを!
②データ分析の正しさは「プロセス」で評価する
①に関して、データを取り扱っていると、ときおり自分の希望に沿った課題に対して課題を設定し、そのためのデータを集めてしまう。本書ではこれを"データアプローチ"と呼んでいる。私もよくやってしまうアプローチである。
そうではなく、明確な課題を設定し、それに基づいたデータ分析をする必要がある。それを本書では"課題アプローチ"と呼んでいる。
つまり、正しくデータを使い、正しくアプローチをするには正しい課題を設定する必要がある。
また、②に関して、「"データ分析はプロセスで評価する"なんて改めて言われなくても当然のこと」と感じている方もおられるやもしれない。
しかし、いきあたりばったりで数字を集積・回収・分析していてはダメで、正しいプロセスに則って分析を進めていくことで目標や目的に最短で到達することが可能となるので、その"正しいプロセス"を評価されなければならない。
そして、その正しいプロセスとは以下の通りである("目次の表現をもっと端的にまとめたもの"と私は解釈している)。
①データ分析の設計
分析のロジックを見える化する
②データの事前チェック
生データを珍味する(信頼性、傾向等)
②分析方法の選択
分析目的とデータの傾向に応じて、適切に選ぶ
④分析・実行
文字通りアクションを起こす
⑤分析結果の評価・解釈
結果の確らしさを検証する
⑥分析の表現
誤解を招かないグラフや説明を書く
少し脱線したが、本題に戻って本書籍の要約と感想を進めていきたい。
● 第1章:データ分析を設計する
この章では次の2つについて言及されている。
①データ分析のストーリーを見える化するメリットを理解する
②データ分析のストーリーを見える化する方法を習得する
分析を始める前に、まずは“分析の概念図”を作成する必要があるのだが、
それは“データ分析ストーリー“を語るためである。
データ分析ストーリーとは以下3つのために行う。
①何のために、何を知ろうとするのか
②そのためにどんな仮説を置き、どの範囲を考えに入れるのか
③どんなデータを使って、どんな意味合いの数字を出すのか
そして、このデータ分析ストーリーを課題アプローチの流れに沿って以下の分析の概念図“3つの層”で表す。
① 問い = 問題領域
課題を解決するための問い。
②問いへの答えを評価する観点 = 評価軸
何を持って良い施策とするのか。
③問いに答えるためのデータ = 要因
それぞれの評価軸を左右するもの。ここで初めてデータが登場する。
この3層で構成された分析の概念図でデータ分析ストーリーを語る。
本書籍では以下のような例が挙げられている。
本章の終わりに、データ分析に関して著者が以下のように述べている。
長い引用となってしまったが、本書を読む中で最も刺さった言葉である。
「一見すると不用意に思える初期投資に対してどれだけ情熱を注げるかでその後の成果が変わってくる」という解釈を私はしている。
また、“ここが1番大事!”と教えてくれるところがまどろっこしくなく、好感を持てた。
● 第2章:データを事前にチェックする
この章では以下の4つについて言及されている。
①生のデータをチェックする必要を理解する
②データの信頼性をチェックする方法
③データをきれいにする方法
④データの傾向をつかむ方法を身に付ける
①生のデータをチェックする必要を理解する
テキトーにデータチェックを済ますと、質の低いデータから誤った結論を導きかねなし、データの傾向を把握していないどのように分析するかわからないため。
②データの信頼性をチェックする方法
ポイントは4つある。
・データの5W1Hを調べる
> これを調べることで“信頼に足るデータか?“という不安が解消される。
・一次情報か否かを確認する
> これは最近話題になっている暴露系YouTuberで感じていた。話のネタにはなるが、信憑性が薄いことを理解し、“まあ、その可能性もなくはないかもね”くらいに話半分で聞くべきである。
③データをきれいにする方法
ポイントは4つある。
①欠損値をチェックする
> そのままの意味
②外れ値をチェックする
> そのままの意味
③データの方向をチェックする
> 点数と評価の関係が正しいか否か確認する
④データをクレンジングする
> ①、②の除外、③の調整
④データの傾向をつかむ方法を身に付ける
ポイントは3つ。
① クレンジング後のデータを再び可視化する
②値がどの辺に分布しているかをチェックする
③どんな形に分布しているかをチェックする
「①〜③でやったことを元に、改めてデータ分析をやり直す」といった感じ。
● 第3章:分析方法を選ぶ
この章では以下の2つについて言及されている。
①代表値の集計と、使い分けのポイントを理解する
②クロス集計を効果的に行う方法を習得する
まず「代表値」とは以下の3つを指す。
・平均値:切り口は“量”
・中央値:切り口は“順位”
・最頻値:切り口は“頻度”
代表値を取り扱うときに注意することが2つある。
①“中央値”と“最頻値”はExcelのピボットテーブルでは使えない
②たくさんのデータを持つ、ただ一つの特徴だということ(人を判断する際、身長だけを見るようなもの)。
次に「クロス集計」とは2つ以上の軸でデータを分類して集計すること。エクセルではピボットテーブル機能を使うことでクロス集計が使える。確かに、私自身もピボットテーブルには何度も助けられている。
クロス集計を使用するときの注意点としてはできるだけ多くの組み合わせを試すということ。
● 第4章:ケース実習「新商品の配置問題」
この章ではここでは第1章から3章のおさらいとしてケース問題が取り扱われている。9つのあるが、どれも丁寧に解説してくれている。
● 第5章:標準偏差を使おう
この章では分析結果の"確からしさ"を検証する方法に関して言及されている。
言及されているのは以下の2つである。
①標準偏差について、その意味とビジネスにおける有用性を理解する
②標準偏差を計算できるようになる
個人的にはこの章が本書籍において最も難易度の高いものであったと思う。
標準偏差とはそもそも何なのか?
・データのバラつき(=分布の幅広さ)を数字で表したもの
・各データと平均値の乖離から、分布の幅広さを考える
ではこの標準偏差をビジネスシーンでどのように使うのが良いのか?
①多様性や格差を定量化する、比較する
②不確実性を定量化する、比較する
③リスクを定量化する、比較する
④平均値の信頼性を判断する、比較する
⑤品質を管理する
①多様性や格差を定量化する、比較する
・店ごとの顧客満足度にどの程度の差があるか、数字で明確に表せられる
・サービスレベルを均質化する施策の効果が、数字で明確に評価できる
②不確実性を定量化する、比較する
・為替レートの変動の激しさが定量化できる
・今後も同じ激しさ(標準偏差)で変動すると仮定すれば、輸出入企業の「業績の見通し」の不確実性を定量化できる。
・業績を安定化させる四悪の効果も定量的に推量できる。
③リスクを定量化する、比較する
・不動産投資や金融投資では、平均値でリターンを定量化し、標準偏差でリスクを定量化する。
・リターンとリスクのバランスを見た投資の判断ができる
④平均値の信頼性を判断する、比較する
・バラつきが大きいデータでは、平均値が信頼できない
・平均値の信頼性を、定量的に比較できる
⑤品質を管理する
・まれな現象(不良品)が発生する確率を、バラつきを基に評価する
・標準偏差をコントロールすることによって結果的に「不良品の割合」をコントロールする
仕事に標準偏差を取り入れることでこれまで以上にスマートな判断ができるようになる。
標準偏差=√(各データ-平均値)² の合計 / データの数-1
Excelであればstdev関数で導き出せる。
ワークも2つ用意されている。解説も図を使って丁寧にしてくれている、理解するのが難しい章なので飛ばさずに取り組むことをお薦めする。
● 第6章:グループ間の差の確からしさを検証する
この章では分析の確からしさを検証するもう1つの方法について言及されている。
言及されているのは以下の3つ。
①サンプルデータをグループごとに平均して得た大小関係は、正しいとは限らないことを理解する
②グループ間の大小関係の確からしさに影響する要因を理解する
③グループ間の大小関係の確からしさを検証し、説明できる様になる
①でまず理解しておきたいのは「平均値は不確実である」ということである。そのため、サンプルの大小関係を正しいものだと鵜呑みにして全体にはめこもうとすると意思決定を誤ってしまうリスクがある。
②で言及されている"大小関係の確からしさ"とはそもそも何なのかというと、それはすなわち「全体でも同じ大小関係である"確率"を考える」ことである。そのように考えるには「選択したデータの"分布の重なり"から判断すること」が重要となってくる。選択したデータで分布の重なりが小さいほど全体でも選んだデータと同じ大小関係である確率が高くなる。
最後に③である。大小関係の確からしさを求めるには2つの考え方がある。
・全体で差がない確率(=危険率)は計算可能
・危険率が低いほどグループ間の大小関係は信頼できる
重要なのは危険率で、この危険率が十分に小さければ、全体でもサンプルと同じ大小関係だろうと結論づける危険率が十分に小さくなければ、全体でもサンプルと同じ大小関係と言い切ることはできないのである。
少しややこしいが、危険率を理解しなければこの章を理解したことにはならない。
● 第7章:分析結果の受け止め方と伝え方
この章ではデータ分析の解釈を謝るケースのうちの一つ「特別な心構えを持っていないと避けられない誤り」について言及されている(もう一つは「普通に注意すれば避けられる誤り」ex.) 数字の見間違い、誤差を考えない鵜呑み など)。
「特別な心構えを持っていないと避けられない誤り」に焦点を当てるとすると、この章を進めていく上で次の3つが重要となる。
①人間の認知バイアスによって、データ分析結果の解釈を謝るパターンを理解する
②表現の不適切さや印象操作によってデータ分析の結果が誤解される、あるいは聞き手が誘導されやすいパターンを理解する
③データ分析で、これら①②による意思決定の誤りを避けるためのポイントを理解する
①でが以下の"エラー"に注意する。
・思い込みによるエラー(=仮説確証バイアス)
・極端な数字によるエラー(=アンカリング効果)
・言葉の表現によるエラー(=フレーミング効果)
・情報の順序によるエラー(=プライミング効果)
・"偽"の関係によるエラー(=2つの現象がともに観測されるだけで、一方が他方の原因だと思い込みやすい)
②では以下のことに注意する。
・データの見せ方
・グラフの見せ方
・言葉の表現の仕方
これらは"以外に単純なことで誤解を生む、ごまかされる"と表現されている。
4, Appendix
今回の書籍は所属企業のマーケターにお薦めされたものである。しかし、Kindle(iPhone)で読み始めたものの如何せん文字が小さく、さらにはコピペやハイライト機能を使うこともできない。不便に感じて読むのを一旦中止した。そうすると、彼はムック本を貸してくれた。レンタル期間中に1周しかしなかったので、眠ってたiPadを引っ張り出し2周目を完了した。
サンキュー、ヨシさん。
次回は『問題発見プロフェッショナルー 「構想力」と分析力』に関してnote投稿したい。