データメッシュ、データファブリック
データメッシュ
概要説明
データの分散管理をしようという考え方
これまでの主流の考え方
データレイク、データウェアハウス
TDやSnowflakeといったデータウェアハウスを利用して社内のデータを一か所にまとめて管理する。
課題
大企業だとすでに部署・店舗ごとに異なるデータ管理をしているなどで一か所にまとめるのが現実的ではない。
解決策
今まで通り部署・店舗ごとにデータ管理でOK
ただしビッグデータ分析などで部署・店舗横断でデータ活用していく必要がある。そのために全体ルールを設計し、各ドメイン責任者がそのルールに従ってデータ管理をする必要がある。
=データメッシュ
例)
セールスで使用されるSalesforce
経理で使用されるfreee会計
マーケティングで使用されるMAツールのMarketo
など各部署で使われているデータを各部署が責任を持って管理
全体のデータ管理部署では他部署からもアクセスしやすい状態を作る
データメッシュの懸念点
各部署にデータ管理できる人材が必要
部署ごとのデータ以外が少ないことが前提
横断やそれ以外のデータが多いと結局データレイクあった方がいい、横断部署で責任もって管理しないといけないとなるため
完璧なデータガバナンスは難しい
各部署に管理任せるため品質などのブレは発生する
ルール細かすぎると守られなくなってしまう
上記のようにデータマッシュ実現するうえで各部署のデータが独自ルールで好き勝手に作られないようにするのに重要なのがデータファブリックという考え。 ※好き勝手に作られた無法地帯のデータのことをデータスワンプという
データファブリック
概要説明
分散されたデータの管理と統合のための総合的なプラットフォームやアーキテクチャを指す用語
データファブリックに求められるもの
信頼できるデータの提供
全体ルールの策定
(ルールの適応状態の監視)←各ドメインが責任者
データの提供窓口の統一
セキュリティとアクセスコントロール
データカタログなど各データの使用に必要な情報の整備
ビジネス要件に合わせたデータの整形・統合=セマンティックレイヤ
セマンティックレイヤ
ビジネス指標の定義を一括管理するレイヤ
https://dev.classmethod.jp/articles/developersio-2023-semantic-layer-difference-looker-and-dbt/
DWH上でデータマート等で指標を管理することもできると思うが、Semantic Layerを使うメリットとは?
ビジネス指標の定義のためにドメインを横断してデータ統合などする必要あるため
データファブリック製品例
Dataplex
Googleの製品内限定だが部署ごとに違うCloudやBigqueryなど使っていた場合に統合管理できる
参考サイト
+ChatGPT