Hivemall勉強会 PLAZMA TUG meetup #1.0レポ


2019.7.16(火)
続く長雨の中、東京108町会の氏神さま神社として有名な神田明神。
その敷地内に今年建てられた「神田明神ホール」にてTUG meetupが開催されました。

トレジャーデータ主催のイベント「PLAZMA 2019 KANDA」のイベント終了後の懇親会として約70名のTDユーザーさんが集まり、TUGのオフラインイベントとしては大規模な会となりました。
TUGのメンバー内でも開催要望の多かった、Hivemallをテーマとした勉強会の模様をレポートします!

事前のアンケートでは「これからhivemall使っていくにあたり、どういう活用ができるのかを知りたい」という意見をいただき
トレジャーデータのサポートエンジニアで、Hivemallや機械学習に堪能な吉村先生に登壇していただきました。

機械学習でできるユースケース

hivemallは機械学習に使えるツールという事で、そもそも機械学習では何ができるのか?

大きくは
・CV拡張・・・過去にCVに至ったユーザに似た行動傾向を持つユーザを抽出。特定商品の購入ユーザの拡張や離脱/解約予測・メール開封予測などに適用可能。
・閲覧コンテンツによる性別/年齢推定・・・会員外のユーザーを閲覧コンテンツから性別・年齢を推定。
・記事分類(教師あり・教師なし)・・・文章の形態素解析を行い、記事のカテゴリ推定や記事のクラスタリングが可能。大量の記事のタグ/ラベリングの工数削減に有効。
・需要予測・・・直近のトレンドやマーケティング施策の効果を説明変数に在庫の最適化が可能。
・レコメンデーション・・・各ユーザの購入履歴からユーザと商品の特徴量を学習。その特徴量を使ってユーザとそのユーザの未購入の商品との類似度を計算することでレコメンドに活用可能。
上記5つの機械学習について、TUGメンバーたちとの質疑応答をしつつ進行していきました。

Q 需要予測の説明変数の準備が大変なイメージ。何を指数にすべきか?
A ケースバイケース。流れとしてはまず現場の方にヒアリングを行い、気温・出店場所付近のイベント開催・最寄りの駅の乗車率など…何が起因で購買変化がありそうかを予想し、指数を決める。同じメーカーの店舗であっても、オフィス街にあるかショッピングモールにあるかで指数が変わってくる。

Q どこまでデータを揃えれば、実際に”活用できる”レベルの予測ができるのか?
A データの内容にも寄るというのは前提として、正確に○○万件という数値はなく、多ければ多いほど精度が高くなるという訳でもない。
 なので、今保有しているデータ量から回してみる。そこから徐々に増やし、ズレてきたら減らして…を繰り返して、自社にあった分析のデータ量を決め、そこからはデータを新しくクレンジングしていくことが活用レベルに近づける道筋かと。

Q 機械学習の実装にかかる時間は?
A 精度の高さに寄る。すでにデータを用意していれば、1か月で実装可能。その結果をみて、データのチューニングを続いて行なっていくことが機械学習の精度を上げていく。(活用レベルの話と同様)
 また、ユーザー行動は常に変化するものなので、機械学習において精度100%いつまでも完成しないと考えていい。

また、レコメンドでの説明では、Hivemallを使えばレコメンドエンジンに変わってwebコンテンツの出しわけが可能となるのですが、パッケージ化されたレコメンドエンジンと違い、「なぜこの商品ページを見ている時に無関係な商品がレコメンドされるの?」と疑問に思うような表示のチューニングも自社でできるとのこと。
レコメンドエンジンのコストとHivemall運用の人的コストが大きく乖離がなければ、TDユーザーにとっては無料でレコメンド機能の実装ができるという訳です。
そして、ここでもTUGメンバーからの鋭い質問が!

Q 実用できるレコメンドとしては、リアルタイム性が重要になってくるが、リアルタイムAPIで対応可能?
A 可能です!webサイトに訪れた時点で、そのユーザーのデータを参照して設定したレコメンド内容が表示される。
 また、商品軸でも対応可能なので、よくECサイトなどで見る「あなたにおすすめ(人軸)」「この商品を見ている人はこの商品もおすすめ(商品軸)」のどちらもできる。
 
Q 無料といえど、CPUのリソースが食われたり、モデルを作成する際で中間テーブルにデータを出すときにレコード数にカウントされたり…でプランによっては結局費用がかかるのでは?
A 契約プランによっては、というのは確かにあります。ただ、基本的にデータ数が増やしすぎても意味はあまりない…ので、環境と相談しつつ運用できればいいかなと。
 ※基本的にHIVEが回すのでCPUは同じ。ただ、数千万単位の顧客アカウントデータから人軸で機械学習を回そうとすると、許容容量を超える質問ユーザーさんのパターンもあり

Hivemallで機械学習を行う利点について

すでに機械学習を業務に取り入れているユーザーさんはPythonを使用している方がほとんどで、機械学習においてHivemallを採用する検討点は何があるのか、という話に… 。

・SQLで機械学習ができるので、Pythonを使えるエンジニアがいない企業にとっては、導入ハードルが低い
・大量のデータを処理できる
・TDワークフローの中で実装できるので、通常の処理の中で機械学習を組み込める
・TDに貯めてあるデータをそのまま使って繋げることができるので、データの移動コストがない
・トレジャーデータにHivemallの開発者である油井さんが所属しているので、サポートが正式にしてもらえる

すでにPythonを使って機械学習を行なっている場合は、作り直しになってしまうのでHivemallにやり直す必要性はないとのことでした。
どちらかで検討している・小規模で試してみる段階においては、Hivemallの機械学習はハードルが低いという利点ありです!


機械学習でできない(難しい)こと

サポートエンジニアである吉村先生ならではのテーマとして、よくある「機械学習ってこんなことできるのでは!!!?」という希望をバサッと切る話を…

・名寄せ・・・氏名/住所等の文字のゆらぎが含まれる可能性のあるフリーテキスト入力の項目で名寄せすることは、基本的には機械学習が扱える範囲ではない
・組み合わせ最適化・・・広告予算のアロケーション(どの広告にどれだけ予算を寄せていくか)などは、組み合わせのパターンが多すぎて計算ができない

シフトの作成も、広告予算のアロケーションと同じく、あらゆるパターンを組み合わせて、一番いいものをピックアップする、ということになるので範囲外とのこと…
上記の内容は、機械学習ではなく、ディープラーニングと言われる分野で、Hivemall関係なく機械学習では難しいということです。

最後に

吉村先生曰く「AIは人間には勝てない。機械学習もあくまで、業務補助・効率化の為に使えるものだということが伝われば嬉しい」とのことでした。

また、これから機械学習を始めるにあたっては
「縦にデータが大きいよりも、横のデータが大きい、データのバライティが豊富というのが機械学習を行うには重要!なので、スモールスタートであっても、データ量よりも種類を様々なところから持ってくる事を念頭に試してほしい。」
とのアドバイスをいただきました。

ーーー

残念ながら時間切れで説明しきれなかったデータの事前準備やHivemall事例については、添付の資料をご覧ください。


(少しでも興味がありましたら、担当SEや吉村先生、TUGFBグループまでお気軽にご連絡くださいませ)

TUGでは基本的にはユーザーさん同士の交流や情報交換をメインとしていますが、外部ベンダーやトレジャーデータ社員を呼んでの勉強会や、TDプロダクトフィードバック会も行なっていきたいと思います。(「この方(企業)にこんなことを聞きたい!」といった案も大募集!)

神田神社は商売繁盛のえびす神も祀られており、縁起のいい場所でのイベントができました!
TDユーザーさま・TUGの繁盛を祈りつつ、今後の活動活性に繋げていきたいと思います。

TREASURE DATA USER GROUP事務員 マミー

【TREASURE DATA USER GROUP Facebookグループ】
TREASURE DATAユーザー限定の非公開グループとなります。
オフラインでのイベント告知やディスカッションなどユーザー同士の交流が日々行われています。


いいなと思ったら応援しよう!