見出し画像

【データ品質管理の基礎】データの品質状態を良くするのってそもそも何するの?


はじめに

近年、生成AIをはじめ、様々な分野でデータドリブンなビジネス展開をする上で、データに関する重要性は増してきていますね!
そのため、人間もコンピュータも分析をするさいには、使用するデータが正しく扱えるかが重要となります。
※いつの時代もそうだとは思いつつ、、、

そこで、いわゆる”データ品質管理”という施策をどれだけガチンコで取り組む必要があります。

今回はそういったお話を簡単に説明していきます。

データ品質管理について

データ品質を良くするために考える事

データ品質管理というのは、簡単に言うと、「データの保存前にルールに沿っているかを確認、保存後データはルールが適用されているか」をしっかりやっているかになります!

小難しい説明などもありますが、実際にやることは、PDCA的に次の3つを繰り返し実施していきます!

  1. 予防:データ保存時の品質を良い状態にする。

  2. 検知:保存データの品質がルール通りかをする。

  3. 修正:保存データ、各ルールを修正する。

img

図を見ると、「そんなんあたりまえやろぉ!」と感じる方もいらっしゃるかもしれませんが。しかし、そのあたりまえがあたりまえにできないから困るんですよね笑

実際にデータ品質をよくしようと活動してみるとわかるんですが、なかなかデータの修正から進まず、予防や検知の活動進捗が悪くかったりするんです。。。

データ品質の測定

下記のような評価基準をベースにする事で最低限は確保できているかと!

  1. 正確性

  2. 完全性

  3. 一貫性

  4. 有効性

  5. 適時性

  6. ユニーク性

これらは「ISO/IEC 25012(データ品質の評価)」という国際基準のうちのひとつをベースに、日本政府が「政府CIOポータル」公開している評価基準、15種類から抜粋したものとなります。

実際のデータ品質向上の施策としては、上記6つの内容を可視化して結果が分析できるならほぼ良いです。

それぞれの評価基準については下記のようになります!
※基準については政府CIOポータルを参考にまとめています。

  1. 正確性
    文字通り、データは実態に沿ったものであるか、つまり正しいものであるかが評価ポイントとなります!

    ポイントは、集めたデータに入力ミス、表記揺れ、収集元に間違いはないか、意図していない値などの誤りを含んでいないか、分析に足る最新のデータであるかなどです。

  2. 完全性
    データは目的に応じて、値の抜け漏れはないかを評価します!

    ポイントは、必須となる値に空欄がないか、分析に必要なカラムは網羅されているかです。

  3. 一貫性
    ポイントは、整合性や一貫性のあるデータであるかです!
    データ内の項目や値に矛盾があるとエラー処理やデータの推測、補完作業などが必要になるためです。

  4. 有効性
    格納されているデータ値は、フォーマットに沿った値であるかを評価します!

    ポイントは、データ保存のための入力規則などを作成した上で、ルールを遵守する文化と、適合したデータにし続ける事です!

  5. 適時性
    データが誰でも問題なく使用できるものになっているかを評価します!

    ポイントは、最新の状態のデータであり、かつ問題なく使用できる状態である事です!
    ただし、データには誰でもアクセスできるようにするのではなく、適切なアクセス権限による制御をした上で上記を達成する事が大切です。

  6. ユニーク性
    データに不要となる重複が存在せず、一意のものであるかを評価します!

    ポイントは、「ここでは、これしか存在してはいけない」というものをきめて、他に作り出さない事です!

以上、6つの基本的な評価でした!

データ利活用や品質管理といった考え方は、近年注目されていますが、まだまだ若い分野であり「これだ!」となる統一的評価基準が未確定です、、、

そのため、非常に投げっぱなしとなりますが、データ作成・分析からエラー監視まで、自社用途に適したベストプラクティスを考えていく必要がありま
す!

データ品質を意識すると幸せになる

少々大袈裟な表現ですが、現代社会においては真理だと思います。
データ品質を意識したデータ群は様々な恩恵をくれます。

例えば、データドリブンな経営判断、データ修正に関するコスト削減、分析および関連作業の効率化などです。
※浅くてごめんね。

データの放置はデータを劣化させる

データは保存したら終了ではないです。
目的にそった運用ができて、効果を得られ始めてからがスタートなのです。

そんなデータちゃんは必ず劣化します。
例えばデータの送受信時の欠損、ETL等の実行時におけるデータの欠落、データが古い状態のままで現状と解離している(貨幣価値の変化など)、人的要因による設定ミスや考慮もれ、外部要因による誤った結果など

さいごに

まずはデータ品質を向上させようとする文化を社内に浸透させていきましょう!
そのための第一歩でありコツは、所属チームでの成功体験作りです!
自分のところがうまくいったら、しっかり社内外に情報発信することで輪っかが広がっていくらしいです。らしいです!!!

すでに浸透しきっている場合は、データ管理のためのルールを策定し、それを布教するのです!

この記事が気に入ったらサポートをしてみませんか?