データXXXって何?
データXXXって何?
世の中データ活用が語られています。
その中で「データXXX」という言葉が色々出てきます。
「データレイク」「データウェアハウス」「データマート」などなど。
これら、定義は若干人によって異なることはあるのですが、おおまかな区別があるので紹介します。
データレイク
世の中、会社、個人、システム、アナログ、デジタル、データには様々な種類や形式があります。
データレイクは、このようなデータをファイルとして保存する場所です。
CSV、txt、画像、xml、jsonなど色々なファイル形式がありますが、とにかく必要なデータを入れていく器です。
データウェアハウス
前述のデータレイクに集まったデータを、抽出可能な状態にして保存する器です。
抽出可能な状態というのは、単位を揃えたり、ファイル形式を揃えたり、重複データをマージしたり、不要なゴミデータを削除するなどの状態にすることです。
顧客情報、購買情報、来店情報、コストデータ、商品データなど業務に必要なデータを、分析者取り出せる状態です。
主に構造化データと言われるものは、表形式やJSONなどを用いた階層型データとしてSQL(クエリ)などで抽出ができる状態のデータを保管するのでデータウェアハウスです。
データマート
データウェアハウスでは、取り出せる状態のフルデータが保管されていることが一般的です。
データウェハウスから、必要な単位(例えば、売上データ)にデータを切り出して取り出せる状態にしたものです。
営業が売上データを取得する場合、不要なデータは取得せずに必要なデータのみを取り出した状態で保管し参照できる状態です。
この段階のデータは、いわゆるBIツール(ビジネスインテリジェンスツール)などから参照して、BIツールで可視化、分析、施策実行などが行われます。
おわりに
上記のように一口に「データ」と言っても、様々な形態や状態で保管されており、それぞれの用途に応じて使われます。
データ活用というのは、利用シーンにあわせて、どのようなデータを活用するか、どのような状態のデータを活用するか、設計しながら進めていくことになります。
データの専門家が必要なのは、このような様々なデータの状態をユーザーが適切に活用できるようにするためです。