![見出し画像](https://assets.st-note.com/production/uploads/images/160920466/rectangle_large_type_2_d60d0bef2ada2852812e04bc9bf85138.png?width=1200)
【イベントレポ】2024/11/07 データ民主化の現在地〜「誰もがアクセスできる」のその次へ〜
データが誰にでも使えるようにすると便利になる一方でガバナンスが効かなくなるのは避けられないですよね。具体的にどういう課題や解決策があるのかこのイベントに参加してまとめようと思います!
概要
近年、データの価値と重要性がますます浮き彫りになっています。ビッグデータの増加、技術の進歩、そしてデジタル化の進展により、私たちは膨大な量のデータを生成し、保有するようになりました。
本イベントでは必要な人が必要なときにデータにアクセスし、理解/活用していくことであらゆる可能性を広げることができることを指す「データの民主化」に着目しました。 データの民主化向き合ってきたお二人に登壇いただき、具体的な事例や実現において重要なこと、実践的なアプローチを交えながらお話しいただきます。 データサイエンティストやデータを扱う方はもちろん、開発に係る全ての方にとって貴重な学びの場となる場を目指します。
データの民主化とはなんぞや
登壇者
河合 俊典@vaaaaanquish
エムスリー株式会社 / VPoE
OSS活動や技術発信が評価され、日本で数名、AI/ML分野におけるGoogle Cloud Champion Innovatorに認定されるなど、機械学習エンジニアとして長く積極的に活動。人、組織に向かい、より大きな課題を解決すべく、2023年よりエムスリー株式会社VPoEとして活動中。
参加が遅れてメモ取れませんでした、ごめんなさい!🙇
急成長する組織を支えるデータ基盤のこれまで、これから
登壇者
土川 稔生 @tvtg_24
株式会社タイミー / データエンジニアリング部DREグループプロダクトオーナー
株式会社タイミーで1人目のデータエンジニアとして、BigQueryを中心としたデータ基盤開発・運用を5年ほど担当。AIエンジニアをやる中、データの流れを一通り自分で実装してみたいと思いデータエンジニアに興味を持つ。現在はプロダクトオーナーとしてデータ基盤プロダクト開発に携わる
データの民主化ってなにか
社内の誰もがデータにアクセスし、理解し、活用できる環境を構築すること
タイミーの従業員数の増加に沿ってデータの民主化を考える
初期
社内100人くらい
データ基盤の状況はBigQueryに収集済み
データ活用状況は各部署にSQL書ける人が数人いるくらい
施策として、BIツールの整備とSQL勉強会の実施を行った。
これにより、データを使う人が増え、全社的にデータを活用する文化が広がった。一方で、ダッシュボードが増えた影響でそれぞれの指標にずれや、間違ったデータによる意思決定が起こる可能性もあった。
一方で、社内誰も使える状態があったが、数値にブレがあり、データを理解できていなかった
中期
200~500人くらい
基盤は同じような形
社内で誰でもデータによる意思決定が正しく素早く行える。
SQLでなくてもデータにアクセスできるようにし、
正確に素早く理解し活用できる環境を民主化として定義した。
施策として、Lookerの導入とLookerンバサダー制度による活用人材の教育を行った。
これにより、社員が1000人を超えてきてもデータ活用をスケールすることができた。SQLを書かなくてもデータアウトプットが取得できるようになった。
一方で、データ活用のユースケースが急増し、期待値以上の品質を前提としたユースケースや、ビジネスクリティカルな問題に発展するケースがあった。
現在
1000人以上
データの民主化としてデータ生成者と利用者とともに考える必要があると定義した。
というのも、生成者はデータの中身に詳しく、利用者はユースケースや、ROIに詳しい。
データ組織の人員が少ない中で、データオーナーの移譲やデータカタログの整備をしていくことでユースケースに対して答えていこうとしている。
パネルディスカッション
テーマ①データ民主化の理想携帯
開:土川さんの定義が近い気がするがどう思うか。
河合:データ欲しいとなったら生成できるようにしたい。ビジネスはないデータから価値になると考えている。勝手にデータパイプラインでデータ基盤に入ってすぐ使えるようにならないか。
土川:データ基盤チームは社内の活用に対して少ない。そこに手を介さずともデータが扱える状態は、民主化にとってプラスに働くと思う。
河合:例えばM3はお医者さんのアンケートサービスがある。1時間で数万件結果が集まる。例えばタイミーさんも働いている人たちの考えをプッシュ通知で回答されることが考えられる。データ基盤を介さずにアンケート結果を勝手に集めてBigQueryに構築されると楽になる。そうなるといいですね。
土川:アウトプット自体もAIが入っているので、どうデータをとってくるのか、どう可視化するのかが自動化されるといいですね。
開:LLMが自社に問わず、世の中のデータを内包していく。ここ5年10年のスパンで成し遂げられると思うが、現時点では厳しいと思う。現在取り組んでいることはあるか?
河合:ユニークなデータであることは重要な気がする。Wikipediaがあったとしてもテックブログがなくならないように、ドメインに特化した、リアルタイムのここでしか集められないデータなど抽象度の高い話はしている。売っているデータや他の組織のデータは差別化できないので集めない選択をとることもできる議論をしている。
土川:LLMでアウトプットの自動化をしていくと、Lookerを使うより、自然言語でデータ抽出できるといいという話はある。LLMが出したアウトプットにそれが正しいのかの判別が難しいので、そこの品質がずれた状態だと意思決定がずれるので、まだ課題がある。
河合:それを解決するには計算リソースがまだ足りていないと思う。ChatGPTを1万パターン作ってA/Bテストして試していくことはまだしていない気がする。
テーマ②データ民主化を進めるときによくある失敗とその対策
土川:民主化を進めていくにあたって社員の人数が1000人以上になるとユースケースがめっちゃ増える。そうなると、取り組みを進めるときに影響範囲が大きくなる。それに対して、民主化を進めやすくなる取り組みはあると思う。例えばダッシュボードのリネージュを見れるようにするとか。具体的にはdbtなどで。今、民主化のためにデータ基盤にメス入れようとして実験などしているところ。
河合:M3ではマイクロサービスの考え方を取り入れているが、データ基盤とマイクロサービスは合わない。なぜなら、JOINとかするので。これの原因はデータの分け方とかデータモデリングの失敗。
また、人間もデータの使い方をよくわかっていない。このデータがあったらこういうことできそうだという妄想はできるが、実際に事業にどれぐらい価値があるかとか、世の中的に世界が変えられるかとかが考えられる人がそもそも多くない。要望がたくさんあってそこに合わせて作ってみたけど依存が多くてあんまり活用できないということはよくある。土川さんの方でどのように対策しているか。
土川:使う人は事業部が多いが、使う人は仮説を持って使っている。うちだとデータアナリストが事業部に居てユーザーの課題感をデータ側でサポートしつつ、施策と効果検証を繰り返す。
河合:データ分析コンサルみたいな人が必要ということですね。国とかもメディアを巻き込んで伝えるので、妥当な方法かと思う。
開:発表にもあったように利用者や生成者を巻き込んでいくことが重要ですね。
土川:例えばこのチームはデータに知見がある。プロダクト側だとSQLよくわかる。チームや組織によって責務を明確化にする。
河合:それを進めると分業化されてしまう。アナリストはビジネス活用。データ基盤チームはDBを考える。それに対する対策はあるか。
土川:横断的にPM組織を作ろうとしていて、そこでEnd-to-Endの価値提供をして、優先度付けしている。
河合:組織の構成は重要。データ基盤を作るにあたって、仕組みや構成や考え方が事業や技術や営業に影響を及ぼしている。
テーマ③組織が増えていくことで変わったこと変わらなかったこと
開:土川さんのスライドで変遷はあったが、逆に変わらなかったことはあるか?
土川:データを扱ってくれる文化は途絶えなかった。データチームとして勉強会やアンバサダー制度で広めていった。経営層の方々が当たり前のように総会で意思決定を強く推進してくれている環境があった。変わらなくてよかった部分。
河合:民主化においてもリーダーが使っているのは重要。独裁になっていなくて、リーダーが推進者として使っているのは重要。みんなのデータ活用に対するテンション、意識みたいなものがずっと向いている必要がある。
土川:それがあることで施策が回しやすいし、FBがもらえる。そのためにリーダーが推進者であることは前提であってほしい。
河合:それで言うとタイミーさんは比較的小さい段階からデータ基盤を作り始めて、それとともに成長してきたイメージがある。多くの企業は各部署にDB持っているが使い方わからないとかの企業が多い。そのような企業にとってリーダーが使うことは一つのヒントになる。
土川:最初の段階で誰でもデータに触れれる環境を出したのは、デメリットもあったが、データを触りたいという人にとって良かったのかなと思う。
開:M3でも変わらないことはあるか
河合:M3の大きくなり方は、グループ会社が大きくなっていく。140社くらいある。データの品質や種類がすごい広い。ToCやToB、秘匿性の高さ低さ、属性が変わり続けているとか。クラウドにデータ載せないでくれとか、そのためにオンプレが必要だったり。要件やパターンが増えていくのが変化としてはでかかった。ユーザー側よりかはデータが作られる側が大変だった。対策としてパターン分けを行った。このパターンはこういうデータストア、活用の方法も制限するとか。使う側もこのデータはここに使えないんだとかが明確にされているため分かりやすい。また、パターン分けされていることで、なぜこっちのデータは活用できるのにこっちはできないんだなど、交渉がしやすくなった。
開:Findyも拡大期にあるので、二人の取り組みがためになりました。
まとめ
データの民主化とは、社内の誰もがデータにアクセスし、理解し、活用できる環境を構築すること。
生成者、利用者などステークホルダーを巻き込み推進すること。
文化の醸成には技術発信やコンサルのような第3者も必要。
結局データ生成者がデータカタログとか作るのが一番効率いいですもんね。また、利用者同士の事例の共有なども、自動で共有されるような世界観であったり、LLMに助けてもらうのも一つの手だなと感じました。