見出し画像

データデータデータデータデータデータって聞き飽きたのでなんとかしたい

数ヶ月ほど前、東京都内某所で開催された飲み会での出来事です。

横に座ったオッサンに職業を問われたので「データサイエンスを少し」と答えたら、大げさに「凄いねぇ!」と返され、羨ましそうに言われました。

「データサイエンティストなら、色んなデータ集めて、タピオカの次に何が流行るか分かるでしょ! いーねぇ、楽できて! 稼ぎ放題だ!」

冗談で言ったつもりかもしれません。それでも、オッサンの頭皮に、桃屋のラー油を染み込ませてやろうかと思うほどのイラつきを覚えました。辛そうで辛くないけど少し辛いらしいし。

「ハッハッハッ、冗談が過ぎます。データに幻想を持ち過ぎですよ!」

なんて言い返せれば良かったのですが、まだまだ人間ができていませんね。押し黙ってしまいました。そして睨んでしまった。

それにしても、なぜこんな発言が出るのでしょうか。オッサンはそれなりのキャリアを持つ人で、日経新聞も読み、社会情勢には詳しいのに。いや、むしろ日経新聞を読む人間だからこそこんな発言をしたのかもしれません。

ビッグデータ、データサイエンスそしてAIと、日経新聞のようなメディアがトンチンカンに持ち上げ、賞賛し、時に「プライバシーが危ない」と恐れ慄きました。その結果、多くの国民は「どうやらとんでもない魔法使いがいるらしい」なんて催眠に掛かってしまいました。

どのメディアも、壊れかけのレイディオのようにデータデータデータデータデータデータって言い過ぎじゃないですかね。本当の幸せ教えてよ。

「ビッグデータを集めれば、今まで見えなかったつながりが現れる!」

「データサイエンスがあれば、意思決定の精度はより向上する!」

「データ!データデータ!!データデータデータデータ!!!」

こんな寓話、2019年の今も信じている人は少ないだろうと思っていました。しかし「タピオカ事件」以来、催眠が解けているのは普段からデータサイエンスに携わっている人の周りだけで、大半の人は催眠がすでに意識の奥深くに浸透しているのではないかと考えるようになりました。

このままで良いのでしょうか。いや、良いはずが無い。


そもそも「データ」は真実ですか?

データを、以下図のように計測対象・方法の2軸4象限で考えてみます。

図1

計測を「機械・自動」しているなら、設定ミスやバグでも無い限り、データに誤りは殆ど生じません。人間が対象なら心拍数の計測、人間以外が対象なら製造における不具合チェックなどが思い浮かびますね。

言い換えれば「人力・手動」は必ず誤りが生じます。しかも誤りとは、何も「入力ミス」とは限りません。計測している本人が、誤っている自覚も無しにデータを計上する場合があります

厄介ですが、それでも「人力・手動」に頼らざるを得ないデータがあるのです。代表的な例としてフィギュアスケートの採点、野球のストライクゾーンなどのスポーツ競技、目には見えない人間の心理の計測も挙げられます。

私が「駆け出しデータサイエンティスト」だった頃、とある単品通販系企業の分析に参加した経験を思い出します。

その企業では、オフラインのコールセンター、オンラインのWEBサイト、それぞれの予算を横断して配分すると受注件数はさらに最大化できるのではないかと検討していました。いわゆるO2Oのハシリだったやもしれません。

なんやかんやと分析していたのですが、コールセンターや商品購入ページで「弊社を何で知りましたか?」と聞いたら「ネット広告」と答えた消費者がオン・オフ全体の8割を締めたデータが決め手の1つになり、オンライン強化が決まりました。

その結果、全体の売上は…下がりました。落ちました。私は「えぇっ!」と思いました。クライアントも感じたでしょう。

何が起きたのか調べてみました。当時の私たちは、新聞広告やTVCMに接した消費者がコールセンターへ電話をするか、決めきれなければ次にWEBサイトへ遷移すると考えていました。(かなり説明は間引いています)

スクリーンショット 2019-11-24 14.01.00

しかし粒度を細かくして分析すると、オフラインの広告に接触した消費者はまずGoogleやYahoo!で検索して、検索結果からECサイトに結構な人が流入していると分かりました。(この当たり前が抜け落ちていた…)

スクリーンショット 2019-11-24 14.02.20

この結果から想定するに、シニア世代は「弊社を何で知りましたか?」と質問されれば新聞やTVを見ても「ネット広告」と答えるのではないか?と考えたのです。間違っていないけど、誤っている…。統計学・機械学習的にもコールセンターの生データ的にも「そうであろう」と結論に至りました。

どこから消費者は流入するのかを考えていれば当たり前過ぎる結果なのですが、当時は「消費者がネット広告と言っている」を真に受けすぎました。リアルに「うぐぐ…」と言った案件です。

この結果から、データサイエンティストとして2つの教訓を得ました。

1つ目は、データは事実だが、真実とは限らない。

2つ目は、データの「意味」を考えなければならない。

例えば、最近流行りのHRテック。私も経験がありますが、簡易なアンケートに答えるだけで従業員のモチベーションや仕事への満足度がチェックできる便利なツールが多く登場しています。

私も生真面目に回答していたのですが、転職の決意をキッカケにオール5、全て調子が良いにマルを付けるようになりました。ヘタに本音を書いて人事部や上長に悟られるのが面倒だったからです。

ただ、データ的には「突然の退職」のような扱いになるでしょう。異常値扱いになってしまうかもしれません。

例えば、今は懐かしいサラダマック(2006年5月登場)。以下のプレスにサラダマックの画像が掲載されています。あったあった、私(35歳)が大学4回生の頃だ。

キッカケは、お客様の意見を聞くためのアンケート調査やインタビューでした。「ヘルシーなものが食べたい」「サラダがあれば…」「ヘルシーじゃないからマクドナルドには行きません」なんて声が多かったそうです。

その意見を参考に開発されたのがサラダマックです。

しかし発売後、サラダマックは大半の消費者からスルー。ほどなく販売終了となります。データの言う通りに開発したのに…。

図1

HRテックにしろ、サラダマックにしろ、データを盲目的に信じ過ぎてはいけないと痛感します。

「モチベーションや満足度を教えて下さい」と問うて「最高です!」と答えが返ってきても、真実かどうかは分かりません。会社に信頼が無ければ本音は伝えないからです。

「マクドナルドで何を食べたいですか?」と問うて「ヘルシーです!」と答えが返ってきても、真実かどうかは分かりません。実際にヘルシーを求めるなら、そういう店に行く人が大半だからです。

データが生まれた背景、消費者が"その項目"を選択する理由、行動の背景にある「意味」を読み取らなければ、データは役に立ちません。私は何度もデータに騙されてきました。


そもそも「データ」とは何ですか?

ここまでデータ、データと繰り返しました。ところで、そもそも「データ」って何でしょうか。工業規格を作成する国際的な非政府組織「国際標準化機構」(通称ISO)は「データ」を以下のように定義しています。

情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの。

データ=数字だと捉えている人が多くいます。冒頭に紹介したタピオカのオッサンも、そう思っていたでしょう。

正解ですが、正解ではありません。万国共通で、誰もが認識の齟齬なく、伝達・解釈・処理が行える表現として最適な形が「数字」なだけです。

正確には「データ ⊃ 数字」だと言えるでしょう。

数字は、伝達・解釈・処理に捉え違いを起こす確率は極めて少ない。以下の写真からリンゴが何個かを問うて「2」が最適な表現なのは、2が日本人だろうと何人だろうと解釈違いも処理違いも起きないからです。

画像5

一方で、適・不適はともかくとして、絵や写真、言語、そしてダンスなんかも表現として形式化されています。絵や写真であれば同様に情報が伝わりますが、言語だと「リンゴが前にあって、その後ろもあって、その後ろには何も無いし、前にも何も無い」みたいな表現でしょうか。違うかな。

データ=数字と考えるのは、少し範囲が狭過ぎると思います。情報の表現なのだとすれば、もう少し幅広くデータを捉えられるはずです。

では、さらに深く考えます。「情報」とはどういう定義なのでしょうか。こちらも同じくISOの定義を確認します。

事実、事象、事物、過程、着想などの対象物に関して知り得たことであって、概念を含み、一定の文脈中で特定の意味をもつもの。

つまり「知り得たこと+特定の意味を内包する表現」がデータなのです。数字だろうが言葉だろうが写真だろうが、特定の意味が無ければ情報とは言えず、もちろん"数字だけ"では情報とは呼べません。

例えばフリーザ様が「私の戦闘力は53万です」と言ったところで、数字だけに注目しても、何が凄いかが分かりません。「戦闘力」指標の意味付け、他キャラの戦闘力の相対比較があって53万の凄さの意味が分かるのです。

つまり、データとはその定義からして数学的要素だけでなく、国語的要素も含まれています。むしろ意味解釈がメインである以上、国語的要素が強い。

先ほどのHRテックやサラダマックの例で、私は「データが生まれた背景、消費者が"その項目"を選択する理由、行動の背景にある「意味」を読み取らなければデータは役に立ちません」と言い切りました。

それは「一定の文脈中で特定の意味をもつ」とする大前提の理解無しには、データとは呼べないからです。数字だけで「そういえば兵庫県姫路市の人口も53万だよ」「おっ、じゃあフリーザ様は姫路だね」みたいな会話をしても全く的外れです。

ところが、そんな会話が飛び交うんですよ。現場でも、会議室でも。

マーケティングの場合、特に「特定の意味」が重要になります。目には見えない「人間の心理」に関するデータが多いからです。

「この商品が好きです」なんて文章があったとしても、好きと言わなきゃいけないプレッシャーがあったか、インフルエンサーの影響を受けているだけで購入経験は無いか、好きって言えば良いと思っているだけか、本当にファンで好きか。意味は全く変わってきます。

なのに5段階中の評価が4と数字になるだけで、あとは平均値で纏めれば良い100人のうちの1人の声に変化します。果たしてそれで良いのでしょうか?


価値をデータに捉えて考える

ここで、少し違う話をします。(後からまたデータの話に戻ります)

サラダマック撤退後、マクドナルドの原田さんは株主総会で失敗した理由を「消費者はマクドナルドに求めていないのでは?」と表現しています。消費者に求めている商品を聞いて開発したので矛盾した回答ですが、極めて本質を突いています。

つまり「消費者が何をマクドナルドに求めているか、消費者自身も分からない」のです。商品を見せられてからでないと本当に欲しいかどうかが判断できない。

後に、クォーターパウンダーやメガマックなどの商品で大復活しますが、それは消費者が「分厚い食べ応えのあるハンバーガーを見せられるとガブッといっちゃう」みたいな、隠れた心理を抱えていると分かったからです。

図1

「サラダを食べたい」発言の建前は、恐らく「だって世の中は健康志向だからハンバーガーとか言ってられない」みたいな本音の裏返しです。そこまでなら洞察はできます。

ですが「不健康かもしんないけど肉まみれのハンバーガーにガブッとかぶりつきたいよね!」と考えている隠れた本音は、定量調査ではなかなか出てこないでしょうし、データの読み解きや仮説を立てる力が必要になります。

どうすれば、本音の奥底に辿り着けるでしょうか?

様々な手法があります。このあたりはマーケティングリサーチの会社や、いろんなカンファレンスに登壇されているCMOクラスのマーケターに聞かれると良いでしょう。

私の所属するデコムでよく使うのは、不満を直接聞くのではなく、相対的に炙り出す方法です。

スマホゲームで考えます。退会者に「なぜ辞めてしまったの? 何が不満だったの?」と問えば、様々な理由を挙げてくれるでしょう。

ただし忘れてはいけないのは、絶対基準の不満など無いのです

不満とは、充たされた状態からの差分です。人は何かと比べ、あれが足りない、これが足りないと損失を感じ、不満を抱きます。行動経済学で言う「参照点依存」の考え方に近いでしょう。

ですから、退会者に「なぜ辞めてしまったの? 何が不満だったの?」なんて問えば、退会者が勝手に「辞めた理由の参照点」を定めてしまいます。つまり充たされた状態を勝手に決めてしまう。典型的なのが類似する商品との比較でしょう。

スクリーンショット 2019-11-24 18.20.11

その結果、スマホゲーム同士を比較して「あのゲームに比べて…」「あのゲームは…」なんて単なる見た目の機能比較に陥るのです。そうなると、大した不満は引き出せません。(ダメだとは言っていません)

最悪なのは「飽きた」「面白くなくなった」みたいな表面的な不満を間に受けて「飽きたを検知できませんか?」と各ベンダーに問うたら「私達のツールなら、ログイン回数を蓄積して頻度を確認できます。データを蓄積しましょう!データから傾向が見れるはずです」と言われてDMPだCDPだと言い出す事態です。

違う、入り口から間違えている。

私達は、なぜスマホゲームをするのでしょうか? まさか、スマホゲームをしたいからしている、と考える人はいないでしょう。商品が提供しているのは価値です。消費者は価値を感じるから商品を買うのです。

どんな価値が考えられるでしょうか?

面白くて夢中になれるから。

友達との会話に付いて行くため仕方が無く。

自分の育てているキャラを大切に守りたい親心が芽生えているから。

単なる時間つぶし、暇つぶしができるから。

スマホが登場するまで、いや、ガラケーが登場するまで、移動中や待ち合わせの時間潰しは、皆さん何をしていたでしょうか。電車の中や駅併設の書店で新聞や本、漫画を読む人が大勢いました。駅ビルのアパレルをちょっとだけ斜め見する人が大勢いました。

今はみんな、移動中も待ち合わせもスマホと睨めっこしてますよね。ぶつかるぶつかる! と私なんか思ってしまう。

つまりガラケー、スマホのゲームは「電車で移動中の20分」「待ち合わせの5分」など時間を潰せる便益を消費者に提供し、新聞や本、漫画、ウィンドウショッピングから消費者を奪ったのです。

ガラケー、スマホのようなデバイスで再び便益を提供したら良いのに、紙に拘っている人、リアル店舗に固執している人が未だに多い…あれは何なんだろうか。

すなわち消費者の不満を炙り出すために、充たされた状態として定義するのは「価値」です。参照点は「価値」を基準にします。価値との比較であれば単なる見た目の機能比較に止まらない、様々な不満が出てくるでしょう。

スクリーンショット 2019-11-24 18.50.23

価値について「こういうのがあって便利だなぁ」と役に立つと感じる機能価値の観点、「他の人は知らないけど私にとってはすごく重要」と意味があると感じる情緒価値の観点で見比べれば、より表現がリッチになるでしょう。

ちなみに「遊び」にかんして、勝負事だけはイヤな思いを忘れて夢中になれる価値を持っている人に、スマホゲームを辞めた理由を聞けば「何度も負けて悔しい思いをした」と返ってくるかもしれません。だから「飽きた」のです。本音は「悔しい思いをこれ以上したくない」のかもしれません。

「負けないゲームって何だろう?」

本来は、そこから始まるべきです。ログイン回数じゃない。

マクドナルドの場合も、提供しているのは、ハンバーガーでも食事でもなく「不健康かもしれないけどガブッと喰らう背徳感」だと気付いていれば「それだったらサラダは違うよね」となったでしょう。

タピオカが流行った理由は、充たされない消費者の何かを掴んだからでしょう。TwitterでX万回数字で言及された、テレビでX回取り上げられたなんて結果であって、X万回言及があったから流行ったわけではありません。ましてやX万回言及があったから流行るとも言えません。

「色んな数字を集めて、タピオカの次に何が流行るか」分かれば良いのですが、数字はそこまで万能ではありません。数字だけで表現しきれない情報は無数にあります。むしろ数字に表現を落とし込めば、情報量がリッチで無くなるでしょう。かならず情報が欠落します。

マーケターはエクセルばかり見る目を人間に向け、計算できる数字ばかりでなく価値のような捉えどころの無いデータも考えるべきです。


数字だけで課題解決に挑むには限界が来ている

数字だけのデータドリブン、いよいよ限界が訪れていませんか? 数字だけの問題解決には、やれない範囲が多過ぎやしませんか?

確かに、数字は改善に最適な表現です。もっとも比較がし易い。

「掃除機の改善」のために吸引力向上を目的にするなら、機体の内部のモーターの回転率をいかにして上げるか…を考えれば良い。

「洗濯洗剤の改善」のために汚れ落ち向上を目的にするなら、10cm×10cmの布切れの汚れ落ち面積をいかにして広げるか…を考えれば良い。

しかし、ある日突然に「吸引力は変わらない」プロモーションにより「吸引力の向上は大事では無い」と消費者に認識される。「あなたの臭いは本当に大丈夫? 脱スメハラ対策!」プロモーションにより「汚れ落ちより臭い対策」と消費者に認識される。

今までの改善(Operation)は何だったのか? と思いがちですが、それが革新(Innnovation)ではないでしょうか。

果たして数字だけでInnnovationは起こせるでしょうか? データドリブンイノベーションなんて有りうるでしょうか? ちょっと難しいと感じています。なぜなら物事を考える際のフレームワークとして、主に帰納法と演繹法の2種類がありますよね。

図1

しかし実際には、これらは「机上の理想」に過ぎません。こんな上手く行かない。世の中のデータドリブンの大半は、以下図のような場面に多く遭遇します。

図2

数字だけのデータドリブンがこうも息詰まるのは、数字だけしか見ていないからです。言い切れるのは、私がそんなデータサイエンティストとして仕事をしていたからです。自分の実力の無さを痛感します。実力がある人なら、数字だけでもこんなワナに堕ちないのでしょうか。

しかし私は「数字だけで第2のタピオカを発見できる」なら、日本はもっと経済成長していると確信しています。広告代理店がトレンド発見ツールを開発しているのは知っていますが、それらが未だに日の目を浴びないのは、データが不足しているからではなく、そもそも無理筋だからです。

数字の裏側にあるデータ、例えば数字では表現し切れない価値も含めて、データドリブンしないと知りたい結論に辿り着けないと思っています。

データドリブンとは「定量(数字)」と「定性(価値、インサイト)」をもとに問題解決に挑む手法である。これが私なりの現時点での結論です。

図3

数字は「確からしい仮説」と「結論」を紐付けるための因果推論に依る検証のために使うべきではなかろうか…なんて考えています。


本資料について

本noteの大半は、Wingarc Forum 2019 で開催された私のセッション「誤解だらけのデータ・ドリブン」がベースです。大阪・東京合わせて500名の皆さまにご清聴頂きまして、誠にありがとうございます。

こうした場は私にとっても「新たな気付きを得る場」として有用だと思っています。都度、ちゃんと調べて、整理して、気付きを発表するからです。お陰様で、大坂会場では満足度が極めて高かったそうです。

データサイエンティストな皆様、マーケターな皆様と勉強会、私主催の勉強会は常に設けており、どうぞお気軽にお問合せ頂ければ幸いです。


1本書くのに、だいたい3〜5営業日くらいかかっています。良かったら缶コーヒー1本のサポートをお願いします。