簡潔にデータ用語を整理したい...
今回の整理対象は下記です。
似たような概念が多かったり、その違いがイマイチ理解出来ない概念について紹介できればと思います。
※注:個人的見解・解釈等を含んでいる為、ご参考程度に!
< 整理したいリスト一覧 >
・データレイク
・データベース
・データマート
・データウェアハウス
・データソース
・スキーマ
・マスタデータ
・メタデータ
・データカタログ
・ローデータ
大きなグループ分け
◆データの種類
・ローデータ
・マスタデータ
・メタデータ
◆データが生まれる
・データソース
◆データを溜める(=データストレージ)
・データベース
・データウェアハウス
・データマート
・データレイク
◆データを整理する
・データカタログ
・スキーマ
各グループについて、上から順番に見ていきましょう。
< データ自体の種類について >
生データ(=ローデータ)
何も加工を加えていない元々のデータ
メタデータ
データ自体についての情報
例)画像"データ"の場合は、撮影場所・解像度・撮影日時などの情報
マスタデータ
特定のエンティティに関する情報を集めたデータ
例)顧客マスタデータには、顧客ID、氏名、住所、電話番号などが格納
※エンティティ
データモデルの構成要素の1つで取引先・商品などのデータの集まりを指す
< データが生まれる >
データソース
・データが生成される最初の場所
・情報が最初にデジタル化される場所
(データを保存及び管理する場所・システムを指す事もある)
つまり、データベース、スプシ等も該当し、無数の種類が存在する。
< データを溜める(=データストレージ)>
データベース・データウェアハウス・データーレイク
3種類のデータストレージの特性と違いについて記載します。
※データが溜まるイメージ
※注意:あくまでイメージです。
データマート
特定の領域(分野 / 組織 / 部門)・ユースケースに焦点を当て、
厳選されたデータウェアハウスよりも小さなサブセット。
小規模設計によるコスト削減・クエリの合理化につながります。
※データフローイメージ
※注意:もちろん、その時々で仕様は変わります。あくまでイメージです。
※補足:データレイクはデータスワンプ状態に?
データレイクには、トランザクションのサポートやデータ品質の保証がないと言われています。
一貫性と分離性の欠如により、
・アペンド(データをファイルなどに追加する操作)と読み取り、
・バッチとストリーミングジョブ(データをリアルタイムで処理)
を混在させることはほぼ不可能。
データレイクは、これらの理由から本来の目的の達成には至っておらず、データスワンプ(活用ができないデータが大量に溜まっている)状態となっているのが実情とされています。
< データを整理する >
データカタログ
利用可能なデータの目録。
組織が持つデータを"カタログ"の様に管理し、
適切なデータの早期発見とアクセスを可能とする。
スキーマ
実際にデータは踏まれず、構造・組織・ルールに関する仕様を管理。
データベーススキーマ、テーブルスキーマ、概念スキーマ、論理スキーマ、物理スキーマ等が存在する。
最後までご覧いただきありがとうございました!