「データ品質」データマネジメント知識体系(DMBOK)第13章の解説
はじめに
データマネジメントの本丸の一つであるデータ品質について説明されている章となる。
データ品質という名称だけを見ると、データの完全性、一意性、適時性、有効性、正確性、一貫性という、今DWH上に管理しているデータの品質に目が向きがちだが、それが全てではない。高品質なデータとは、データ利用者の要求に合致するデータを整えられていることである。
ここでDMBOKの各章を読み直してみると、サイロ化されているデータをDWHに整えて格納することがデータマネジメントの目的の一つである。
つまり、DWH上に管理されていないデータを利用者の要求に応じて整えることもデータ品質の要素の一つである。
データマネジメントにおけるデータ品質は、整えたデータを維持し続ける責任もスコープに入っており、コミュニケーションとトレーニングへのコミットメントも含まれる。
DMBOKの各章の要約・解説
他の章も興味ある人はこちらからどうぞ。
今すぐわかるデータマネジメントの進め方
著者のDMBOKを用いてCDO室を立ち上げデータマネジメントを推進した経験を基にデータマネジメントの進め方をまとめたkindle本を執筆しました。
データマネジメント知識体系(DMBOK)第13章「データ品質」について
データ品質とは
データ品質という用語の中にはデータに関する特性と、データ品質を測定し改善するためのプロセスの両方がある。
データ品質の目的はデータ利用者の要求に合致するデータを整えられていることである。
つまり何をするのかというと、利用者の要求を明確にし、要求に対する状況が可視化できる指標を定義する。定義した指標に対して要求を満たしているのか計測し、維持し続けることである。
一方で、利用ニーズがないデータについて完全性、一意性、適時性、有効性、正確性、一貫性を維持し続けるのは、目的に沿っていないデータ品質を管理しているという事になる。
低品質なデータにはビジネスリスクがあり、高品質なデータはビジネス的な価値を生み出すことを理解し、ビジネスに活用できる高品質なデータを維持し続ける。
ソフトウェアの品質とは
データの品質を考えると、DWHに入っているデータの事のみを指すと思われがちだが、目線を変えてソフトウェアの品質について考える。
ソフトウェアの品質もソースコードの保守性も品質だけど、ソースコードだけが品質かというとそうではない。求められている要求を満たすためのソフトウェアになっているのかというのが、品質である。
データの品質も求められている要求を満たせるのかという観点で考えて、DWH以外にも着目して考える。
データ品質の評価軸
データ品質を計測するには、要求するビジネスが測定に値するビジネスかを判断する。測定するべきとなれば、意味があり測定が可能な指標を定めビジネス要求にこたえる水準を維持する。
本質的データ品質
・正確性
・客観性
・信憑性
・評価
目的によるデータ品質
・付加価値
・適合性
・適時性
・完全性
・適切なデータ量
表現に関するデータ品質
・解釈の正確性
・理解の容易さ
・表現の一貫性
・簡潔な表現
アクセス可能性に関するデータ品質
・アクセス可能性
・アクセスセキュリティ
データ品質のゴール
データ品質のゴールは、品質管理技術をデータに適用するアクティビティを計画し、実施し、制御する。これによって、データが様々な目的で利用されて、データ利用者の要求に合致することを保証する
データ利用者の要件に基づいて目的に合ったデータを生成するために、統制されたアプローチで開発されている
データライフサイクルの一環としてデータ品質統制の標準、要件、仕様が定義されている
データ品質レベルを測定し、監視し、報告書を作成するためのプロセスを定義し実施されている
プロセスやシステムの改善により、データ品質を向上させる機会を特定し提唱されている
データ品質の進め方
高品質なデータを定義する
多くの人は低品質なデータを見ればそれが低品質であることがわかる。一方で高品質なデータとは何を意味するのかを定義できる人は少ない。もしくはあいまいな言葉で表現されていることが多い。
高品質なデータとは利用者の目的に合致するデータである。高品質なデータを定義するためには業務ニーズを理解し、用語を定義し、組織の問題点を特定し、データ品質改善のための優先順位を合意しておくことが大切である。
データ品質戦略を定義する
データ品質を向上させるためには、実行すべき作業と実行方法を定めた戦略が必要である。データ品質の優先順位はビジネス戦略に沿ったものでなければならない。
データ品質の向上はデータマネジメント組織だけで完結することはない、業務プロセスやシステム開発にも影響を与えることを理解し、全社的に組み込まれ実施される必要がある。
優先されるデータと業務ルールを特定する
全てのデータが同じ重要性を持つわけではない、データの品質管理は組織内の最も重要なデータに焦点を当てる必要がある。重要なデータの品質が高ければ組織とその顧客に対して大きな価値を提供できる。
データ品質向上の取組はマスタデータから始まり、マスタデータはどの組織においても最も重要なデータである。最も重要なデータを特定した後は、データの品質特性についての要求を左右する業務ルールを特定する。
最初のデータ品質アセスメントを実践する
重要な業務ニーズとそれを支えるデータが特定されたらアセスメントを実践する。そのデータを調べて、内容や関係性を理解し、設定されているルールやデータに対する期待を実際のデータと比較すること。
これを実行すると、アナリストはルールに定められている事以外の、依存関係、暗黙のルール、冗長なデータ、矛盾するデータを見出す。
実現可能な改善点を特定して優先順位を付ける
アセスメントを実行すると、解決に向けた優先順位を付けることができる。アセスメントのゴールはデータを調査し、課題を特定し、改善のために実行可能な計画を策定することである。
データの調査が大規模になると、ステークホルダーとの協議が必要となる。大規模なアセスメントを行うためには、業務以外にも技術的な調査も必要であり、ステークホルダーを巻き込み、結果を共有し、優先順位をすりあわせ進める必要がある。
データ品質向上の目標を策定する
アセスメントを通じてまとめられた改善点は、データ品質プログラムの目標を設定するための基となる。
改善点を修復するための手段は、クリティカルな問題を早く解決する方法もあれば、根本的な原因を時間をかけて解決する方法の両軸で検討する必要がある。
改善点が「完全性」であったとすると、完全性を90%から95%に向上することが目標となるが、本質的な目的は完全性を向上させることによって顧客に与えた価値であることを念頭に置き進める。
データ品質オペレーションを開発し展開する
アセスメントによって洗い出された改善点を向上させるために改善プロジェクトを開始させる。改善プロジェクトは一連の手順と継続して取り組みが続けられるようにガバナンス体制を整えて進める必要がある。
データ品質ルールを定める
データ品質を測定し、監視する
データ問題を管理するための作業手順を定める
データ品質サービスレベル・アグリーメントを確立する
データ品質報告を作成する
データ品質の成果物
成果物として「提言」や「報告」が入っており、データ品質のみではなくデータガバナンスと組織の文化の変革がスコープに入っていることがわかる。
データ品質の戦略とフレームワーク
データ品質プログラムの組織
データプロファイリングの分析結果
問題の根本原因分析に基づく提言
データ品質管理手順
データ品質報告
データ品質ガバナンスについての報告
データ品質のサービスレベルアグリーメント
データ品質ポリシーとガイドライン
おわりに
自分の知識をまとめるためと今後誰かがデータマネジメントをやってみたいと思った時のきっかけとなるためにnoteを書くことにしました。
モチベーションのために役にたったという人はぜひ、フォロー&スキをお願いします。
ツイッターでもデータマネジメントに係る情報をつぶやいてますので、よろしくお願いします。
データマネジメントを学ぶ人が抑えておきたい本
今すぐわかるデータマネジメントの進め方
著者のDMBOKを用いてCDO室を立ち上げデータマネジメントを推進した経験を基にデータマネジメントの進め方をまとめたkindle本を執筆しました。
データ組織立ち上げ編 AI事務員宮西さん
著者のデータ組織の立ち上げ経験をマンガ+コメントでまとめてみました。立ち上げ編は組織を立ち上げてやることが決まるまでのストーリーです。
無料公開のため0円となります。
データ組織の立ち上げに関係する方は是非読んでみてください。
DXを成功に導くデータマネジメント
DXを成し遂げるために必要なデータをどうマネジメントしていけばよいかが書かれている。
データ環境より、セキュリティの観点であったり、プライバシーの観点であったりといった非技術者向けの内容が多く書かれている。
データマネージメントに興味を持った人はまずは読んでみるとデータマネジメントでなすべき概要が理解できる。
実践的データ基盤への処方箋
データ利活用を行うために必要なデータ基盤の考え方と、利活用するためにはデータをどのようにマネジメントしていけば良いかを具体的な例を用いて説明されている。
技術が中心になるので現在データ技術に係る人がデータマネージメントに興味を持った時には、まず手に取ることをおすすめする。
個人データ戦略活用 ステップでわかる改正個人情報保護法実務ガイドブック
個人情報保護法を順守するための基本的な考え方が実務ベースで書かれている。2022年4月に施工される改正個人情報保護法で新たに追加される概念も同様に記載されている。
政府の出しているガイドラインよりも俯瞰的に読めるためデータプライバシーにかかわる人、データを使ったビジネスを推進する人は読んでおくとスムーズに業務が進められる。
データマネジメント知識体系ガイド(DMBOK)
自分も要約・解説記事を書いているDMBOK。データマネジメントに興味を持った人がまず手に取ると挫折することは間違いないほどのボリュームがある。
読めば読むほど味が出てくるので、データマネジメントを進めようとしている人は各家庭に1冊は是非買っておきたい。
データマネジメントが30分でわかる本
著者もDMBOKを読むためには非常にボリュームが多く読み解くには苦労するので、かみ砕いた解説書をまとめたと書いてある通り、DMBOKを独自解釈してわかりやすく書かれている。
DMBOKを技術者目線で読み解いた内容になっているので、実践的データ基盤への処方箋と同様データ技術に係る人におすすめする。