[エンジニアのための]データ分析基盤入門データ活用を促進する! プラットフォーム&データ品質の考え方

2024年6月4日 23:51

〇タイトル

[エンジニアのための]データ分析基盤入門データ活用を促進する! プラットフォーム&データ品質の考え方 | 読書(84/1000)
著者斎藤友樹

○学んだ点

・データ分析基盤の基本構造

１収集：ストリーミング・バッチ・プロビジョニングなどでCRMデータ・Excelデータなどをかき集める。
２加工：ETL、データランディング、暗号化、データ品質計算を行う。データ加工だけでなくデータチェックを行う。
３蓄積：データベースなどを構築して収集したデータを保存する。
４活用：BIツールなど何かのツールをセットでユーザに活用をしてもらう。

・データのゾーン管理

データの加工・活用に応じてゾーンを分けることでアクセス権限の管理が容易になる。
１ローゾーン：収集したデータをそのまま保存しておく場所。
２ゴールドゾーン：データマートやデータウェアハウス。BIやMLで参照するならここ。
３ステージングゾーン：データウェアハウスとデータレイクの間。ローデータを若干変更しておいていつでもゴールドゾーンのデータを作れるように。
４クォレンティーンゾーン：機密情報などが入っており、必要な人しかアクセス不可。
５テンポラリーゾーン：プロビジョニングによって入手したデータを置く場所。一時的にテーブルを保存して分析したい時用。自動的にデータが消える設定を入れておくと良い。

・セルフサービスモデルを作る

データ活用をする人によってオーダーは様々。
ローデータにクエリしたい人。BIで参集したい人、MLの元データは様々。
同時にデータを扱う能力も人によって様々なため、参照権限やサポートとなるBIツールを準備しておく。

・データの品質管理の三原則

１予防：クエリの記載方法などルールを作ってルールが守られるようにする。システム的にルールが破られないようにする。
２検知：データ品質のテストクエリを定期的に流すなどしてルールが、守られているのかを検知する。
３修正：検知して問題のあるものを修正する。
この3原則が偏ってはいけない。
ルール整備（予防）ばかりになってもいけないし、修正タスクに忙殺されてもいけない。
バランスよく予防：検知：修正＝40：40：20くらいになるのが理想。

この記事が気に入ったらサポートをしてみませんか？