大量のデータから自動的に仮説を導く方法:Einstein Discoveryの使い方
データ分析と可視化
列(Column)数もレコード(Row)数も大量にあるデータセットがあったとします。データセットに詳しい人間が頭で考えて、この切り口ならなにか特徴を捉えられるのではないか?みたいなことを考えて、その仮説をもとにデータをフィルタリングし、適切なグラフに可視化してダッシュボードにまとめ上げる、なんてことをやったりします。
このプロセスで一番の難関は人間の頭脳は大したことないということ
弊社リバネスのSalesforceの商談レコードにも今や492(最大500)もの項目(Column)が存在しています。これらの中から、成約可能性を決める因子を導き出したいと思ったら、一つ一つの項目を熟考して仮説検証なんてやっていられません(よね?)。いくら時間をかけても全部を網羅するのは至難の業だし、網羅してないと諦めきれない。人間はそういうものです。時間が無限にかかってしまう。
絶望の淵に一筋の光
そんな風に絶望していた私のところに、Einstein Discoveryが最適ですよ!と、Salesforceの方から連絡が来たのが2019年でした。Einstein Discoveryっていうのはデータテーブルを突っ込んで最適化目標を教えてあげれば、何が寄与しているのかを網羅的に解析して全部羅列してくれるという機能です。
こんな感じで。
何が起きたのかを選択すると、この項目が寄与していますよというのを見ることができます。以下のスクショでは一つしか見えていませんが、下にスクロールすればあらゆる組み合わせの結果を見ることができるはずです。
次に、なぜそれが起きたのかをクリックします。
どの項目がプラスに寄与し、マイナスに寄与するのかが見えます。
何が起きる可能性があるのかタブを開きましょう。
左側には寄与率が高いものから順番に並んでいます。AIが解析したモデルとの称号がここから可能です。このモデルは適当なものなのであまり意味が無いのですが、例えばこれらの項目が自分たちで変更可能なパラメータだけになっていれば、この項目をこうした場合にゴール目標に到達する可能性はどの程度あがるのか、みたいなシミュレーションが簡単にできてしまいます。めちゃくちゃ便利じゃないですか?
次に、インサイト部門ではなくモデル部門を見てみます。
表示される内容はこんな感じです。こちらは概要ページ。
次に、モデル評価>全体的なパフォーマンス。
ゲイングラフおよびリフトグラフではこんなイメージになります。
交差検証タブ
係数タブ
以上がモデル評価についてのページでした。
しきい値の評価ページを見てみましょう。
右側のコントロールパネルでしきい値をグリグリと変更できます。
しきい値スライダを動かすことで、混同行列がリアルタイムに変更されます。設定が楽ですね。
予測検査ページでは、教師データのサンプリングができます。どのレコードがどんな形になるのかを把握するのに役立つでしょう。
データソースについて
Salesforce社が提供しているので、Sales Cloudのデータを取得することは当然簡単にできるのですが、CSVでのインポートもサポートしています。ということで比較的なんでも使えるよという状態になっているといえます。Salesforce関係なくても利用価値があるシチュエーションもあるのではないでしょうか。
まとめ
ということでまとめです。Einstein Discoveryは、AIがインサイトをくれるツールなんですというもやっとした説明からはいられることが多いのですが、最初に書いたとおり大きなデータセットの中から考えうる仮説を自動的に抽出したいという目的がある人におすすめな機能です。
上述のスクリーンショットのように、投入したデータセットからどのように数値を導き出しているのかについても、バックグラウンド情報が多く、GUIでわかりやすくまとめておいてくれるので、誰かに説明するための資料も備わっています。
大量のデータをどう料理すれば良いかを考える時間が無い!という人には是非使ってほしい機能です。これを使ってます一次スクリーニングをし、データにあたりを付けてから詳細の可視化はTableauとか使い慣れたツールでやるみたいな形でも良いのではないでしょうか。
以上、現場からお伝えしました。