【読了】データマネジメントが30分でわかる本



DMBOK日本語訳

データベース設計→データ開発管理
データ分析→DWHとBI管理
データ定義→メタデータ管理

ライフサイクル
定義→登録→保管→利用→消去

○2種のデータ管理活動の連携
・分析系の管理活動/開発運用系の管理活動
→分析担当者がデータの定義や品質に課題を感じても、データベースの開発運用担当者にフィードバックできない

データスチュワード:データ管理の責任者

まえがき

○データ管理の目的
・データ資産から効率的に価値を引き出すため

○データ管理の方法:資産管理(預金や不動産)と同じ
・資産なので置き場所を決めます
・資産なので盗まれたり、なくなったりしないようにします
・資産がどこからきて、どこへ行くのか把握します
・資産の価値が減らないように気を配ります
・資産を監督する人や、そのルールを決めます

○DMBOKにおけるデータ
・データベースに保存された構造化データだけでなく、手書きメモも含まれる

プランニング

1. データアーキテクチャ

・データDataと業務Opsの繋がりを示す
・どう発生し、どこに格納され、どの業務に利用されるのか
・アーキテクチャはメタデータとして保存し、改善計画に基づき更新される必要がある

○プロセス
①As-Isのデータアーキテクチャを把握する
②データアーキテクチャのTo-Beを検討する
③ギャップを埋めるためにアクションを打つ

○例
・ETLツール、DWH導入
・Excelに散在する集計ロジックをSQL化する

実装・運用(システム編)

2. データストレージとオペレーション

・データベースの構築運用
・従来からDBAがやっている業務

○プロセス
①業務ニーズ(データに求める可用性・完全性・機密性)から、どのデータベース技術を採用するか検討する
②データベースオブジェクト(テーブル、ビュー、ストアドプロシージャなど)を構築・運用する

○例
・初めはSoE(体験重視)のDWHを使い、業務拡大に応じて、SoR(記録重視)のRDBMSに置き換える

3. データ統合と相互運用性

・データ移動を効率的に管理する
・ETL(抽出/変換/取り込み)の管理

・必要なフォーマットとタイミングでデータを安全に提供する
・共通のモデルとインターフェイスを開発することで、統合にかかるコストと複雑さを削減する
・重要なイベントを検知できるようにアラートとアクションを定義する

○プロセス
・業務要件(フォーマットとタイミング)を明確にする
・データソースを探し、要件を満たせるか評価する
・データのユーザに提供するための統合サービス(データソースからETLしてユーザに提供)を実装する
・統合サービスをモニタリングする

○例
・JenkinsなどのジョブスケジューラでETLバッチを動かす

実装・運用(ロジック編)

4. データモデリングとデザイン

・ERD
・データ間の関係性を定義する(概念→論理→物理)
・データモデルをメタデータとして運用管理する

5. マスターデータ管理

・全社共通マスタデータの構築と保守運用
・全社システム間で信頼できるデータソースを構築する

○プロセス
・マスタデータの所有者=品質管理責任者を決定する
・マスタデータの変更プロセスを決定する:タイミング、検証方法など
・ETLを実装する:データ統合における1要素として扱う
・SLA(鮮度)を保証し、評価尺度(参照頻度)を測定する
・野良データを使わずマスタデータを参照するようにレビューでルールに準拠させる(ガバナンス)

6. ドキュメントとコンテンツ管理

・非構造化データの管理:ワード、エクセル、PDF、電子メール、画像
・非構造化データの中にも、個人情報(PII)や秘密情報は含まれている

○プロセス
・非構造化データの分類と整理
・非構造化データにメタデータをつけて、検索抽出可能にする
・業務ルールの整備運用(個人メモからwikiに移す)

信頼性(「安心」の実現)

7. データセキュリティ

・ポリシーとルール
・アクセス制御
・監査とモニタリング

○プロセス
・データ資産の特定
・セキュリティレベル区分と規制カテゴリ区分
・メタデータ化
・監査ログの実装
・要件定義レビュー(法務・消費者保護・個人情報保護)

○例
【機密性レベル】 公開用 社外秘 制限付き機密(知る必要がある人だけ) 登録者限定機密(知る権利がある人だけ)
【規制カテゴリ】 PII: 個人識別情報 財務データ 個人健康情報 PCI-DSS 競争上の優位性、企業秘密 契約上の制限

8. データ品質管理

・データ品質の定義(その品質が満たされないとどんなリスクがあるのか)
・測定プロセスの定義
・維持向上プロセスの定義

○プロセス
・重要なデータを識別(不要なデータの品質維持は無駄)
・理想のデータ品質を定義
・ログ設計:品質測定のため
・維持向上のためのプロセス策定:品質を担保できるのはデータ生成側
・報告プロセスの策定:インシデントレポート(要求品質を満たせない場合に報告)、モニタリング活動の品質評価レポート(品質の低下/向上でどんな影響があるか)

○例
・フォーマット、アクセス権限、適時性、基盤の稼働率、クエリの性能、業務プロセス
・過剰品質

○データ品質の評価軸
・意図に合う内容・形式のデータか(正確性、妥当性、有効性)
・欠損のないデータか(完全性)
・データ間の関係に矛盾がないか(一貫性、整合性、一意性)
・最新のデータか(適時性) 適切な参照権限が付与されたデータか

○重要なデータ
・法律要件・規制に関わるデータ
・顧客や取引先に関わるデータ
・社員に関わるデータ
・企業財務・インサイダーに関わるデータ
・事業の収益や費用に影響を与えるデータ
・注力領域・競争上の差別化に関わるデータ
・定常業務が依存しているデータ

信頼性(「便利」の実現)

9. DWHとBI

・データウェアハウジングとビジネスインテリジェンス
・DWHを構築し、データ分析(機械学習など)の対象となるデータを蓄積し、業務利用や意思決定に繋がるデータを使いやすい形で提供する

○ゴール
・支援対象となる業務・分析案件を理解する
・統合データの提供に必要な技術環境と業務プロセスを構築する
・データ利用者が効果的な分析と意思決定を行えるように支援する

○プロセス
・データ利用の要件を把握
・データソースの選定
・DWHやBIの構築
・運用チームにフィードバックする

○例
・DWH設計(3層モデル:source/warehouse/app)

○データ活用の7ステップ
①アクセスログ収集:誰がどれだけデータを利用しているか?
②利用度合のマッピング:チームごと
DWHではなくチームの独自判断で独自生成したデータを使っているか→データチームに相談や依頼をしているか→データチームにデータ抽出を依頼しているか→そのチームが自主的にDWHのデータを使っているか→データを使うだけでなく、DWHのデータを生成しているか→DHWの使い勝手が良くなるように貢献しているか
③ターゲットチームを決める:利用頻度×利用度合で判断
④ターゲットチームの施策を効果をC(測定)する
⑤測定結果を踏まえて次のA(施策)を実施する
⑥データを使う文化を醸成する:教育
⑦業務フローに分析ステップを組み込む

10, メタデータ管理

・把握できないデータに管理コストを使うのは無駄
・データの説明や調査した性質を、メタデータとして保存することで、以下の恩恵を得られる
データ生成のコンテクストを把握する
データ品質の測定を可能にする
冗長なデータとプロセスを特定する
データ分析と調査に要する時間を短縮する
利用者とエンジニアのコミュニケーションを改善する
オンボーディングコストを低減する
サービスレベルの無視やデータの誤まった使い方を防ぐ
法令遵守を支援する

○ゴール
・業務用語とその利用法に関する組織の理解を提供する
・様々なソースのメタデータを収集し統合する
・メタデータにアクセスするための標準的な方法を提供する
・メタデータの品質とセキュリティを確保する

○メタデータの分類
・ビジネス:出所、有効値制約、
・テクニカル:アクセス権
・オペレーショナル:最終更新日時、最終実行日時

○プロセス
・メタデータの要件を決める
・メタデータの保存場所を決める:集中型(サーバにマスタがある)/分散型(各リポジトリがマスタを持つ)、メタデータの品質管理責任者
・メタデータの登録タイミングを決める

全体指針とルール

11. データガバナンス

・組織としての方針とルールを決める(ベンダとの契約にも関わる)
・部分最適ではなく全体最適で
・経営戦略とデータマネジメントを繋ぐ(活動を報告し、適正予算を獲得する)
・データマネジメント組織管理:データエンジニアの人事評価、社外人材の活用

○ゴール
・組織が自身のデータを資産として適切な役割分担・権限のもとで管理する
・データマネジメントに関するルール、ポリシー、プロセス、評価、ツール、責任を定義し、組織的な承認を受けて実施する
・ポリシーを守りつつ、データの利活用を監督して導く

○プロセス
・現状調査:弱い部分を探す
・ポリシーを決める
・活動を担う体制・役割・権限を決める: 最低限守るべきデータ管理のルールが決まっていないのであれば、法的要件とセキュリティ要件を優先
・トップダウン:ボトムアップは部分最適を目指すもの
・経営者への報告


この記事が気に入ったらサポートをしてみませんか?