第7章 データスチュワードの重要な役割
覚書です(メモしたものをある程度整形しただけ)
データスチュワードが担う役割とポイントまとめ
データ品質の検査・改善
データがビジネスに役立つ状態であるかを測定し、問題を特定して改善策を実行する。参照データの管理
コードや分類情報など、複数システムで共通して使われる「参照データ」を整理・整合し、一貫性を保つ。マスターデータ管理(MDM)
企業の基幹となるデータ(顧客・製品など)を重複なく、正確な「ゴールデンコピー」として維持・運用する。データセキュリティ・プライバシー
データがどのように扱われ、どんな規制に影響を受けるかを把握し、分類・アクセス制御・規制対応をリードする。品質保証(QA)のサポート
システム変更や新規アプリケーション導入時のテストケース設計・評価に、データ品質の視点で参画する。系統管理(リネージ)
データがどこから生まれ、どんな変換を受け、最終的にどこで使われているかを可視化・追跡する。プロセスリスク管理
ビジネスプロセスにおけるデータ品質リスクを特定・評価し、改善施策を提案する。規制遵守
個人情報保護(GDPR、CCPAなど)の厳格化に対応し、個人データの取り扱いを管理・運用する。
1. データ品質の測定・改善・ルール策定・プロファイリング
データスチュワードの中心的な役割の1つが、データ品質を測定して改善に導くこと。ビジネスにおいて信頼できるデータを維持するために、以下のようなプロセスや視点が重要となる。
1-1. データ品質とは何かを定義する
ビジネス視点からの品質ルール
まず「品質とは何か」をビジネス用語で明確化する。たとえば、「必須フィールドは空欄であってはならない」「特定の列には決められたコードのみが入る」といったルールの設定。測定可能な指標の設定
単に「良い/悪い」ではなく、どの程度ルール違反が発生しているかなど、定量評価できる指標を定める。
1-2. データ品質を測定する
データ品質ルールの定義と評価
品質ルールを定義し、それに照らしてデータがどの程度準拠しているかを調べる。具体例として、必須項目の空欄率や、コード値の妥当性などのチェック。優先度の決定
すべてのデータを同時に改善するのは難しいため、ビジネスインパクトが大きい部分から優先的に手を付ける。経営判断に直結する項目や、顧客満足度に強く影響する項目などが典型例。
1-3. データ品質を改善する
問題箇所の特定と是正措置
データの欠陥や不備が見つかったら、根本原因を分析し、修正・再発防止策を講じる。たとえば、入力の段階で必須項目をバリデーションする仕組みを導入するなど。継続的な監視
一度改善しても、運用でデータが再度劣化することは珍しくない。そのため、定期的にモニタリングを行い、再度測定→改善のサイクルを回す。
1-4. データ品質を考えるコンテキストの重要性
利用目的に応じた品質要件
データは利用シーンに応じて必要とされる正確性や鮮度が異なる。経営レポートに使うなら月次集計レベルで十分でも、リアルタイム在庫管理には秒単位の更新が必要な場合がある。ステークホルダーとの連携
どの程度の品質が「十分」なのかは、現場・経営陣・IT担当など多様なステークホルダーの意見を聞くことで決める。その調整こそがデータスチュワードの大きな責務。
1-5. データ品質の主な側面(ディメンション)
完全性(Completeness)
必須項目がどの程度埋まっているか。妥当性(Validity)
コードやフォーマットなど、事前に定義されたルールに合致しているか。一貫性(Consistency)
システム間で同じデータが異なる値を持っていないか。正確性(Accuracy)
実世界の真実と比べて、データがどの程度正確か。適時性(Timeliness)
必要なタイミングでデータが更新・取得できるか。一意性(Uniqueness)
重複がなく、一意に識別できる状態になっているか。
1-6. データ品質ルールの指定とデータプロファイリング
ビジネスデータ品質ルール
ビジネス視点で「何が高品質か」を言葉で定義し、それがなぜ重要かを明記する。
例:「婚姻状況コードは Single または Married のみを使用し、空欄は不可」など。
データ品質ルール仕様(物理的な定義)
実際にどのカラムをチェックし、どのようなバリデーション(正規表現・範囲など)を行うかを具体化する。
例:「メールアドレス列は特定の正規表現 ^.+@.+\..+$ にマッチする必要がある」など。
データプロファイリングの実施
定義したルールをもとに、ツールで大量のレコードを自動解析し、品質違反の数や分布を可視化する。
ワークフロー例
1)プロファイリング対象を抽出
2)ツールで初期結果をレビュー
3)違反状況を評価し、対処方針を決定
4)必要に応じてルールを修正
5)継続的にチェックを実施
ロード時のデータ品質強制
データを取り込む際にルールエンジンでチェックし、違反があればエラーテーブルに振り分ける手法を導入。
エラー内容をレポート化し、データスチュワードが原因分析・修正を行い、ルールや入力プロセスを改善する。
2. メタデータプロファイリングとメタデータ品質
2-1. メタデータプロファイリング
メタデータの品質測定
ビジネスグロッサリーやメタデータリポジトリに登録されている定義・構造・関係性が正確かを分析。定性的な側面
テキストフィールドの曖昧さ、意味の重複など、人のレビューが必要になる場合も多い。
2-2. メタデータ品質の側面
完全性・有効性・正確性・一貫性・適時性・有用性 など
データ品質に似た観点で、メタデータが整っているかを評価。メタデータの重要性
定義や構造が不明瞭だと、そもそもデータ品質を語る以前に正しく使えないリスクがある。
3. 参照データのメンテナンス
3-1. 参照データとは?
システム間で共通して利用されるコードや分類情報(例:都道府県コード、ステータスコード、婚姻状況など)。
3-2. 一般的なメンテナンス
値の追加・変更管理
新たなコードを追加する際、他システムへの影響範囲を把握してから実施。説明やビジネス定義をしっかり整備。システムオブレコード(SOR)の管理
「この参照データが正とみなされる場所(システム)」を特定し、そこを経由して変更を反映させる。
3-3. システム間の参照データ値の調整
ハーモナイゼーション(調和)
性別コードひとつとっても「M/F」「1/2」と表記揺れがあるように、システム間で意味を合わせる作業が必要。クロスウォーク
ソースとターゲットで異なるコードをマッピングするルール集を管理し、データ連携時に自動変換できるようにする。
4. マスターデータ管理(MDM)における主要活動
4-1. 識別属性の特定
ID解決プロセス
複数システムから集めたレコードが同一人物・同一製品を指すかを判断するために、どのフィールドをキーとして使うかを決定。データ品質の観点
運転免許証番号のように信頼性が高いフィールドを優先するなど、実データのプロファイリング結果をもとに検討。
4-2. レコードの特定とフィールドマッピング
システムごとのフィールド名や型の違い
「CustomerID」と「CustID」のような違いを整理して、同じ概念にマッピングする。データクレンジング・標準化
住所表記や名前表記などはスペルミスや表記ゆれを除去し、単一フォーマットに揃えることでマッチング精度を高める。
4-3. サバイバーシップ
複数ソースのデータが競合する場合の決定ルール
どのソースを優先するか(更新頻度が高い、公式性が高い、検証済みなど)を属性ごとに決める。ゴールデンコピーの作成
サバイバーシップルールに基づき、最も正確だと判断された値を「マスターデータ」として保持する。
4-4. 例外処理
MDMシステムで発生する例外
期待されるフォーマットではない、必須項目が欠落などでエラーが起きた場合、レポート化して対応。原因分析と再発防止
例外の根本原因を突き止め、入力元や変換ルールを修正・改善する。
5. 情報セキュリティにおけるデータスチュワードの役割
セキュリティ分類の設定
企業独自のポリシーや法令(個人情報保護など)に基づき、データを「機密」「制限」「公開」などに分類。アクセス制御の管理
従業員の役割(Role)に基づき、最低限必要なデータへのアクセスだけを許可。プライバシー規制への対応
個人識別情報(PII)の取り扱いを厳格化し、漏洩や不正アクセスが起こらないよう施策を講じる。
6. 品質保証(QA)へのサポート
テストケースの作成支援
データスチュワードは、ビジネス定義やデータ品質ルールを踏まえたテストケース作成をサポート。テスト結果の評価
QAチームが実行したテストの結果を確認し、不備が見つかれば原因を分析してデータ品質の観点から是正を行う。
7. 系統管理(リネージ)のまとめ
データの流れを把握・文書化
どのシステムから、どの変換を通り、どこで使われているかをマップ化。監査・トラブルシューティング時に大きく貢献。ビジネスリネージ・技術リネージ
ビジネス要素同士の関連(派生関係)と、実際の物理データの移動経路(ETL・APIなど)の両面を可視化する。
8. プロセスリスク管理
ビジネスプロセスリスク測定(BPRM)
どのビジネスプロセスで、どのデータ要素が欠陥になると大きなリスク・損失をもたらすかを評価。データ品質リスク指標(DQRI)
プロファイリングによる品質スコアとBPRMを組み合わせ、全体リスクを定量化。優先度を決めて改善に取り組む。
9. データ主権規制(プライバシー規制)への対応
9-1. 規制の主な原則
情報開示請求権
自分に関するデータがどのように扱われているかを知る権利。削除請求権
同意撤回や不要なデータの削除を企業に求める権利。販売停止請求権
第三者へのデータ販売を拒否する権利。同意の権利
個人データ利用について事前に同意する/しないを選択できる。訂正請求権
不正確なデータを修正するよう企業に求めることが可能。
9-2. 規制遵守と追加メタデータの取得
地理的要素の把握
どこでデータを取得し、どこに保存し、利用者がどこからアクセスするかなど、地理的要因を記録。同意情報の管理
どんな目的でデータを使うのか、どこまで同意を得ているのかをメタデータとして残す。個人データのライフサイクル追跡
収集~削除までを一貫して管理・追跡し、削除請求などに迅速対応。
9-3. データとプロセスの最初の検討
機密データの収集開始点
個人情報を収集する際は、同意の有無と目的を明確に記録。データ主体の特定
削除・訂正リクエストに対応するため、どのデータがどの個人に紐づいているかを追えるようにする。法務・コンプライアンスチームとの連携
規制要件を正確に把握し、メタデータやシステム改修計画に反映していく。