見出し画像

[エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方

〇タイトル

[エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方 | 読書(84/1000)
著者 斎藤 友樹

○学んだ点

・データ分析基盤の基本構造

1収集:ストリーミング・バッチ・プロビジョニングなどでCRMデータ・Excelデータなどをかき集める。
2加工:ETL、データランディング、暗号化、データ品質計算を行う。データ加工だけでなくデータチェックを行う。
3蓄積:データベースなどを構築して収集したデータを保存する。
4活用:BIツールなど何かのツールをセットでユーザに活用をしてもらう。

・データのゾーン管理

データの加工・活用に応じてゾーンを分けることでアクセス権限の管理が容易になる。
1ローゾーン:収集したデータをそのまま保存しておく場所。
2ゴールドゾーン:データマートやデータウェアハウス。BIやMLで参照するならここ。
3ステージングゾーン:データウェアハウスとデータレイクの間。ローデータを若干変更しておいていつでもゴールドゾーンのデータを作れるように。
4クォレンティーンゾーン:機密情報などが入っており、必要な人しかアクセス不可。
5テンポラリーゾーン:プロビジョニングによって入手したデータを置く場所。一時的にテーブルを保存して分析したい時用。自動的にデータが消える設定を入れておくと良い。

・セルフサービスモデルを作る

データ活用をする人によってオーダーは様々。
ローデータにクエリしたい人。BIで参集したい人、MLの元データは様々。
同時にデータを扱う能力も人によって様々なため、参照権限やサポートとなるBIツールを準備しておく。

・データの品質管理の三原則

1予防:クエリの記載方法などルールを作ってルールが守られるようにする。システム的にルールが破られないようにする。
2検知:データ品質のテストクエリを定期的に流すなどしてルールが、守られているのかを検知する。
3修正:検知して問題のあるものを修正する。
この3原則が偏ってはいけない。
ルール整備(予防)ばかりになってもいけないし、修正タスクに忙殺されてもいけない。
バランスよく予防:検知:修正=40:40:20くらいになるのが理想。

この記事が気に入ったらサポートをしてみませんか?