マイベストにおけるデータ民主化に向けた取り組みと民主化の現状

2024年12月10日 10:26

「最もフィジカルで、最もプリミティブで、そして最もデータなやり方でいかせていただきます」

どうも、地面師コラが大好きな品原@データエンジニアです。
mybest Advent Calendar 2024 の10日目を担当します。9日目はPdMのホープ棚原さんによるこちらの投稿でした。

さて、入社エントリーを公開してから早いもので、もう2ヶ月が経ちました。

前回は決意表明の色が強かったですが、今回はもう少し具体的な話として、マイベストのデータ民主化に向けた取り組みと民主化の現状を紹介したいと思います。また、本アドベントカレンダーのテーマ「今マイベストに入社したらできること」に関連づけて、これを読んでいる将来の仲間 <<あなた>> がDSチームにジョインした際、どういったことに共に取り組むのか、業務の解像度を高める手助けとなれば幸いです。

データ民主化に向けた取り組み

ひとことで「データ民主化」といっても、さまざまな文脈があります。ここでは、データ基盤の整備やガバナンス強化といったアプローチではなく、「データを実務で活用する」という本丸とも呼べる部分へのアプローチについて取り上げます。

データドリブン文化の醸成

私の所属するデータサイエンスチーム（以下、DSチーム）では、社内に転がっているさまざまなデータを自由に分析・考察し、それをSlackで毎日発信する「毎日ファクト」（注1）という取り組みを行っています。

と、すごくマイベスト独自感を出していますが、マネージャーの内藤さんが前職から持ち込んだ文化をそのまま踏襲させてもらっていますｗ

現在のDSチームやマイベストの置かれている状況を踏まえ、自分なりに本取り組みの位置付けを咀嚼すると、期待できる効果は5つほどあるように感じています。

社内でのデータ活用の機運を高める・盛り上げる
社内で共通認識となっている「当たり前」を定量的に裏付ける、あるいは覆す
ミッションクリティカルではないが、おもしろそうなデータの「味見」をする
DSチームが社内の誰よりも自社のデータに詳しくなるための修行
汎用的なデータ可視化・分析スキル向上の修行

想いとして、投稿したファクトが誰かの業務に有益になることがもちろん理想ではありますが、我々は目先の困りごとベースでファクトを出していません（ミッションクリティカルな分析はプロジェクトとして切り出してその枠の中で取り組む）し、社内のデータにまつわる全てのドメイン知識を熟知しているわけでもありません。したがって、なかなか自分のアイデアだけでドンピシャで刺さるファクトは生まれづらいです。

それでも、自分たちが率先してこういった取り組みを推進することで
「こういう見せ方もできるのか」
「もっとこんな切り口で見てみたい」
「よくわからんけど面白そうなことやってるな」
といったデータ活用のささやかな刺激は提供できると考えており、これを一番の狙いに据えて取り組んでいます。実際、中には良い反響を頂けるファクトもあって、以下のように他部署のメンバーから嬉しいコメントを頂けることもあります。

この取り組みをスタートしたのは今年の8月。そこから積み重ねで、現在の累積ファクト数は80個に登ります。年内中には余裕で100個を超えるペースです。とはいえ、DSチームとしてはハナからもっと高い山を登ろうとしていて、目指せ1,000ファクトの思いで日々頑張っています。

Notionで管理しているファクトDB。分析・可視化に用いたコードはGitHub上で管理しています。

今回は概要、しかも良い面だけを取り上げましたが、裏には反省や苦労話もあります。その他にも、技術的に工夫している話や、各ファクトの反響をデータドリブンに振り返りしている話など、他にも語りたいことは山ほどあるので、この辺りはまた別の記事で深堀りできればと考えております。

リテラシー向上支援

当社では社員が一定の水準でSQLを書けるようになることは、データ民主化における非常に重要な一歩と捉えています。なぜなら、当社が扱うデータ規模の都合上、SQLを書けないと自発的に実施できる分析の自由度が低下するからです。

前提として、当社の大半のデータはBigQueryに一元集約されており、データを使ってなにがしかをしたい人はみなBigQueryにデータを参照しに来ます。このとき、Looker StudioやGoogle スプレッドシートなどを使えば、SQLを書かずともノーコードで完結させられそうに思いますが、そうは問屋が許しません。
当社のBigQueryには数百万レコード規模のテーブルもゴロゴロ転がっており、それらを無邪気にツールに接続してしまうと、ツールの処理が重くなったり、そもそもツールで捌くことが可能なレコード数の上限を超過してしまうことがあります。かつ、BIツールだけに頼る形になると、どうしても他人が作ったものをそのまま流用するシーンが増え、自分が向き合っているデータについてよく分からないまま分析を進めてしまうリスクが増えることも懸念しています。

では、DSチームがそこに対してどのようにアプローチしているかというと、ありきたりになりますが、草の根活動的に社内の各部署にレクチャーを実施しています。

初学者向け
- BigQueryハンズオン（余談ですが、今晩も23卒・24卒の若手社員向けの大規模なBigQueryレクチャー会が予定されています）
- Google スプレッドシートのデータコネクト機能を用いたBigQueryとの連携ハンズオン
パワーユーザー向け
- Dataformによるmart作成・更新のハンズオン

10月に行った初学者向けのBigQueryハンズオン。20名近くの社員・インターンシップの方にお集まりいただきました。意欲がすばらしい！

本当はデータの使い方（分析のHowToなど）の支援もしていきたいところではありますが、各部の業務優先順位やDSチームのリソースを鑑みて、直近はSQLのスキルを伸ばすことにフォーカスして支援を進めていく予定です。

SQLライティング支援

当社には、社内のメタデータをグラウンディングさせたSQLライティング支援チャットボット「ナイチンゲール先生」がいます。

ただ、残念ながら最近は的を得ない回答をすることもしばしばあり、社内での利用頻度が減少傾向にあるため、抜本的な強化を予定しています。ナイチンゲール先生の威厳をちゃんと保つ！

データで見る民主化の現状

当社では、全社のデータ民主化の度合いを定量的に測定するために、以下のメトリクスを定点でモニタリングしております。

データ分析基盤の浸透度合い
- MAU率
- WAU/MAU比率 (stickiness)
データに関するリテラシーやスキル水準
- データリテラシースコア

以下に、それぞれどのようなものか、そして現状どのような結果になっているのかを記載していきます。

MAU率

以前のNoteで私はこう書きました。

民主化の第一歩として、まずは直近半年で、社内のBigQuery月間利用者割合を50%超えに底上げします。現状どうなっているか？15%です（2024年9月のMAU数が31名）。

マイベストのデータ民主化を実現していくぞという話

これが2024年11月時点でどうなっているかというと、なんと、23%（MAU数53名 = +22名）に上昇しています。これだけでも十分ステキなのですが、利用状況をモニタリングしていて判明したもっとステキなデータを次に示します。

WAU/MAU比率 (stickiness)

ユーザーのリテンションを測定する指標としてメジャーな stickiness（粘着性）を WAU (Weekly Active User) ÷ MAU で算出したところ、11月の結果は以下のようになりました。

2024年11月のWAU/MAU比率。後半になるにつれて減少していくのは不自然ではなく、なぜなら分母のMAUは週が進めば基本的に増加、最低でも横ばいになる一方、分子のWAUは最大でもMAUと同数（横ばい）であるため。

なんと、脅威の毎週60%超え！3週目になってもなお81%！

最もWAUが少ない週でも35名（= 2024年9月のMAU以上）の社員がBigQueryを利用しているという結果に。マイベスト社員のデータ活用の本気度・自主性がくっきり現れていて、喜ばしい限りですね。こんなデータ出ちゃったからには、もう…ね… ↓

データリテラシースコア

ここまで取り上げたデータは、とにもかくにもBigQueryを使っているかどうかにフォーカスを当てていました。では、そのBigQueryを使っている人、はたまた使っていない人のスキルやリテラシーはどの程度の水準なのだろうか？これを調査すべく、「第1回データリテラシー調査アンケート」を期初に実施しました。

具体的な設問や集計方法は割愛しますが、内容としては各社員を「データを処理する力」と「データを読み解く力」の2軸でスコアリングをするもので、最終的にそれらを全社でまるっと集約したスコアをマイベスト全体のデータリテラシースコアとして算出しました。

社内懇親会のLTで結果を共有したときの資料。本題と逸れますが、安直に散布図を使ってしまってよくなかったなと反省しています（プロットがかなり重なっている）

とはいえ、このスコア単体で見ても何も意味はありません。このスコアが、これから上昇するのか、はたまた停滞するのか、この変化が重要です。今後も第2回、第3回のアンケートを予定しているので、そこでどのような結果が得られるのか楽しみです。楽しみであると同時に、ちゃんと継続的に上昇していけるように、自分自身も頑張らねば・・・！

おわりに

本記事ではマイベストにおけるデータ民主化に向けた取り組みと民主化の現状を紹介しました。最後までお読みいただきありがとうございました。

今最も熱いデータサイエンスチーム（マイベスト調べ）で、あなたも魂燃やしていっしょに働きませんか！？（求人票のヘッダー画像、撮影タイミングの都合で僕が仲間外れになっているので、可及的速やかに差し替えてもらう予定ですｗ）

注1）
毎日（なるべく、可能な限り、ベストエフォート）です。全員が毎日ファクトを出すことが理想ですが、まだ修行が足りておらず、その状態には到達できていません。かつ、現実的な話として、全員が0.1人月underのサブプロジェクトとして取り組んでいる背景もあります。よって、現状は「毎日チーム内の誰かしらがファクトを出せればOK」といった温度感で進めています！