メダリオンアーキテクチャを1分で解説
最近、メダリオンアーキテクチャを用いた開発を行うことになったので、備忘録として記載します。
メダリオンアーキテクチャを行う環境として、Azureが適しています。
概要
メダリオンアーキテクチャは、データレイクハウスのデータを整理・分析するためのデータ設計パターンです。
このアーキテクチャは、3つのレイヤー(ブロンズ、シルバー、ゴールド)を持ち、データの構造と品質を向上させることを目的としています。
各レイヤーは、DBとし、店の売上金額や人件費をデータを例に説明します。
・ブロンズ:データをそのまま保存する(CSVなどの元データを格納)
・シルバー:データの重複&不要データ(返品や不良品)、形式の統一(売り上げ計算するシステムが取り込めるフォーマットに変更したりテーブルの再定義など)
・ゴールド:曜日単位での平均売上金額、人気商品の記録、従業員の平均残業時間など
メダリオンアーキテクチャーを基に
店の売上データを分析に利用することを目的として、メダリオンアーキテクチャを利用する場合。
ブロンズレイヤーには、未加工データを格納します。
シルバーレイヤーでは、ブロンズレイヤーのデータをマッチング、マージ、フィルタリング、クレンジング(適度なレベル)を行います。
一般的にシステムの運用では、シルバーまでのレイヤーまでしか行いません。ですが、この売り上げのデータからマーケティングや戦略を考えるとなると更に記載のデータが必要となり、このデータを管理するレイヤーがゴールドになります。
SQLサーバを3台構築するなどコストがかかる部分はありますが、元データのCSVファイル等の管理もブロンズのレイヤーが担ってくれたり、各レイヤーのデータを確認できるので、拡張性にも優れています。
今後のデータ分析やAI技術の発展で流行ってくるかもしれません。
参考サイト
1,メダリオンアーキテクチャ
・https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse/medallion
・https://docs.gcp.databricks.com/ja/lakehouse/medallion.html
2,データレイクについて
・https://www.nttdata.com/jp/ja/data-insight/2023/0620/
この記事が気に入ったらサポートをしてみませんか?