[エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方
〇タイトル
[エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方 | 読書(84/1000)
著者 斎藤 友樹
○学んだ点
・データ分析基盤の基本構造
1収集:ストリーミング・バッチ・プロビジョニングなどでCRMデータ・Excelデータなどをかき集める。
2加工:ETL、データランディング、暗号化、データ品質計算を行う。データ加工だけでなくデータチェックを行う。
3蓄積:データベースなどを構築して収集したデータを保存する。
4活用:BIツールなど何かのツールをセットでユーザに活用をしてもらう。
・データのゾーン管理
データの加工・活用に応じてゾーンを分けることでアクセス権限の管理が容易になる。
1ローゾーン:収集したデータをそのまま保存しておく場所。
2ゴールドゾーン:データマートやデータウェアハウス。BIやMLで参照するならここ。
3ステージングゾーン:データウェアハウスとデータレイクの間。ローデータを若干変更しておいていつでもゴールドゾーンのデータを作れるように。
4クォレンティーンゾーン:機密情報などが入っており、必要な人しかアクセス不可。
5テンポラリーゾーン:プロビジョニングによって入手したデータを置く場所。一時的にテーブルを保存して分析したい時用。自動的にデータが消える設定を入れておくと良い。
・セルフサービスモデルを作る
データ活用をする人によってオーダーは様々。
ローデータにクエリしたい人。BIで参集したい人、MLの元データは様々。
同時にデータを扱う能力も人によって様々なため、参照権限やサポートとなるBIツールを準備しておく。
・データの品質管理の三原則
1予防:クエリの記載方法などルールを作ってルールが守られるようにする。システム的にルールが破られないようにする。
2検知:データ品質のテストクエリを定期的に流すなどしてルールが、守られているのかを検知する。
3修正:検知して問題のあるものを修正する。
この3原則が偏ってはいけない。
ルール整備(予防)ばかりになってもいけないし、修正タスクに忙殺されてもいけない。
バランスよく予防:検知:修正=40:40:20くらいになるのが理想。
この記事が気に入ったらサポートをしてみませんか?