![見出し画像](https://assets.st-note.com/production/uploads/images/152672943/rectangle_large_type_2_3388a21c0c5863ff40d66c04d454dbf4.png?width=1200)
データマネジメント知識体系ガイド(DMBOK) 第二版における「データの廃棄」
𝕏で流れてきたSalesforce Architect Group Osaka の市川洋平氏 (𝕏アカウントはこちら)の以下のスライドに触発されて、DMBOKに記載されているデータ廃棄に関連した記述を読み漁っていました。
このエントリは読み返した内容の中から、気になったところをメモしたものです。
データ廃棄に関連した記述箇所
DMBOKにおいてデータ廃棄については主に以下の箇所に記述されていました。
第1章: データマネジメント
第2章: データ取扱倫理
第6章: データストレージとオプション
第9章: ドキュメントとコンテンツ管理
このうち「第2章: データ取扱倫理」と「第9章 ドキュメントとコンテンツ管理」については、ガバナンス面でのリスク低減のためにデータ破棄について言及している印象です。今回は分析の品質やシステムのパフォーマンス(スループット)に影響する面で、どういった記載がされているか読み解きたいため、「第1章: データマネジメント」と「第6章: データストレージとオプション」に着目しました。
第1章: データマネジメント
この章ではデータマネジメントの原則について記述されています。この章からは以下の様な内容が読み取れました。
データライフサイクルの主要アクティビティには廃棄が含まれる
以下の図は章中に出てくるデータのライフサイクルの概念を説明した図です。
![](https://assets.st-note.com/img/1725112749781-Sp7Vkt2Ogz.png?width=1200)
データマネジメントにあたっては最も重要なデータに焦点を当てて取り組む
多くのデータは使用されない。このことを踏まえて、最も重要なデータに焦点を当て、データのROTを最小にするべき。(ROT: Redundant, Obsolete, Trival)
データ品質をデータライフサイクル全体で管理する
データ品質管理はデータマネジメントの中核である。品質の低いデータは価値を生み出すどころか、コストとリスクを生む。この品質はデータライフサイクルの一環として、管理する計画を立てるべき。
第6章: データストレージとオプション
この章では保管データの価値を最大化するための設計、実装、サポートについて記述されています。この章からは以下の様な内容が読み取れました。
データベースの最大容量とデータ増加ペースを予測する
時間の経過に応じて、データベースをどのくらい、どの程度のスピードで拡張するべきか考える必要がある。拡張しない場合はデータを入れるペースに合わせてデータをアーカイブする必要がある。
データを廃棄する理由
データを廃棄するためには2つの理由がある。1つはデータベースの容量を圧迫し、性能劣化を招く可能性があるから。もう1つは時間の経過によってデータの価値が低下し、場合によっては誤用されるリスクが生じることすらある。
終わりに
なんでデータパージが必要なんだっけ?となったときにいままでの経験で答えられるものの、改めてベストプラクティスに触れることでよりスムーズに答えられるようになれた気がします。なお、DMBOKは幅広い観点で様々な情報が記載されており、読んでいると「この話も気になるな」というものも多く気が散ってしまいがちでした。今後も別のテーマで記載内容を読み漁ってみようと思います。
ちなみにDMBOKはこちらで購入できます。いまはKindle版も出ていて便利ですね。