分析屋の下滝です。
いわゆるDMBOK(Data Management Body of Knowledge)と呼ばれるデータマネージメントが体系化された本をようやく読み始めました。
そのまま勉強していくのもつまらないので、この記事のシリーズでは、DMBOKの内容をパターン言語として表現できないのか、という観点から見ていきたいと思います。パターン言語の方が使いやすいんじゃないのか?という仮説もあります。
パターンとパターン言語
パターンの概念の話は、ソフトウェア開発業界では、デザインパターンをもとに広がりました。
もともとの概念は、建築業界で生まれました。
パターン(とパターン言語)の定義は、様々ありますが、本記事では、パターンとは、ある状況(コンテキスト)において繰り返し発生する問題に対して、その問題を解決することが繰り返し行われており、したがって有効性が確認されている解決方法であり、その解決方法に名前がついたもの、とします。
パターン言語は、あるモノは、様々なパターンを組み合わせて使うことで作ることができるという概念です。我々が、様々な単語を組み合わせて、さらにその組み合わせには有効な組み合わせとなる規則があり、その規則に基づいて、ある文を作っていると同じようなイメージです。
参考として、より深みのあるパターンの定義を参照しておきます(太字は私によるもの)。私はまだ理解しきれていませんので、参考としてです。
パターンの記述の具体例は、日本語で良いのが見つからなかったので、引用した『組織パターン』の原文(書籍になる前のもの?なった後のもの?)と思われるものが英語であったのでリンクを紹介します。
このサイトから、パターンの例として「常に誰かが進捗させる」というパターンを紹介します(『組織パターン』からの直接の引用ではありません)。
「それゆえ」の次の文章が「解決策」にあたるものです。その前の文章は、「コンテキスト」と「問題」が含まれる部分となります。
具体的にどのようにパターンを記述するのかには、様々な流派があります。『組織パターン』では次のように説明がされています。
続いてパターン言語に関しても引用します。
『組織パターン』で紹介されているパターン言語を参考として紹介しておきます。
「信頼で結ばれた共同体」や「スケジュールを小分けにする」といった四角で表されているものが一つのパターンに対応します。これらの個々のパターン同士の繋がりも含めて、全体としてパターン言語となります。なお、図をきれいに書くのが大変でしたので、パターン間の線がパターン上に重なっており、綺麗になっていません。書籍では綺麗に表現されています。
以上を踏まえて、次節では、DMBOKがどのようなものなのかを見ていきます。
DMBOKとデータマネージメント
まずは、(設計の)問題解決の知識を記述する観点から、DMBOKがどのようなものなのかを確認します。
DMBOKでは、DMBOKとは何か、に関わる記述として次のように書かれています。
「上記の実務」が何かは次回の記事以降で詳しく確認しますが、今回の記事では、データマネジメントという領域についての定義だけ確認しておきます。
これだけではさっぱりわかりませんが、続けます。
別の記述では、組織におけるデータマネジメントのゴールとは以下であると記述があります。
ここでの私の解釈は、データ利用・活用自体のプロセスは、データマネジメントと関係しているとしてもデータマネジメントの知識体系の範囲ではないということです。
たとえば、マーケティングプロモーションにおけるデータ活用を考えてみます。施策例として、2回目の購入を促進するために、初回に購入した商品の購買データをもとに、次に購入しやすい傾向のある商品をクーポン付きでレコメンドするメール配信するといった施策が考えられます。別の言い方をするなら、DMBOKでは、このようなプロモーション施策と言った、具体的な活用施策に関わるような特定のパターンは存在しない、と思われます。
さて、最初の引用に戻りますが、DMBOKは「実務を遂行する一助」であるとありますが、DMBOKがそのためにどのように具体的に表現された内容なのかはそこからはわかりません。
他の記述を確認します。
DMBOKとは、参考書であるとのことです。この抽象度では、どのような観点から表現され記述された参考書なのかはわかりません。
続いて、DMBOKが役立つ観点として、3点があげられています。
・機能的フレームワークの提供
・共通語彙の確立
・基本的なリファレンスガイド
それぞれを確認します。
「機能的フレームワークの提供」に関しては、フレームワークなので、フレームワークとしての表現があると考えられます。上記の記述からはどのフレームワークを指しているのか明確ではないように読めましたが、3.3節では、3つの図が紹介されています。
・DAMAホイール図
・環境要因ヘキサゴン図
・知識領域コンテキスト図
これら3つを指して、DAMAデータマネジメント・フレームワークと呼んでいるように読めました。したがって、このフレームワークを「機能的フレームワーク」と呼んでいるのかもしれません。
これらの図の中で、以下のDAMAホイール図は、よく見るものと思います。
DAMAホイール図に関係するものとして、さらに、従来の「データマネジメント・フレームワーク」では不足していた箇所があるとのことで、このフレームワークの再構築が行われたと書かれています。DAMAホイール図の発展形として、DAMAデータマネジメント・フレームワークが示されています(以下の図)。
続いて、「共通語彙の確立」に関してです。共通語彙が何を指すのかは具体的にはわかりませんが、「ベストプラクティスの基礎となる」とあるので、ベストプラクティス自体ではないと思われます。また、語彙とあるので、単語や用語レベルの粒度での表現であると思われます。
「基本的なリファレンスガイド」に関しては、今回の記事の関心とは関係がありません。
まとめると、パターンとパターン言語に関係がありそうなのは「機能的フレームワークの提供」のみと言えそうです。
続いて、前述のDMBOKの引用の続きを見ていきます。
データマネジメントには、11の知識領域があり、その領域の粒度で、データマネジメントの実践に関わる何らかの表現がされている、と読めそうです。表現方法は、11の領域で同じであり、引用した1~7の内容で構成されています。
なお、11の領域とは以下になります。
1.データガバナンス
2.データアーキテクチャ
3.データモデリングとデザイン
4.データストレージとオペレーション
5.データセキュリティ
6.データ統合と相互運用性
7.ドキュメントとコンテンツ管理
8.参照データとマスターデータ
9.データウェアハウジングとビジネスインテリジェンス
10.メタデータ
11.データ品質
パターンとパターン言語とDMBOK
さて、ここまでを踏まえて、パターンとパターン言語とDMBOKの表現との関係を考えてみます。
1つ目として、粒度は異なるということが言えそうです。パターンの記述において、このような幅広い一つの領域の粒度が一つのパターンとなることは通常無いためです。各領域が複数のパターンからなるあるパターン言語として整理できる可能性はあります。あるいは、領域を超えて、データマネジメントのパターン言語として一つの整理できる可能性もあります。
2つ目として、前述の各知識領域の以下の記述の構成の中に、個々のパターンとして現れるような記述が存在するかもしれません。とはいえ、パターンの主要な構成要素である「コンテキスト」、「問題」、「解決法」に対応する粒度ではなさそうです。1~7のどれかに、パターンの構成要素が含まれている可能性はあります。
・1.イントロダクション
・ビジネス上の意義
・ゴールと原則
・本質的な概念
2.アクティビティ
3.ツール
4.技法
5.導入ガイドライン
6.データガバナンスとの関係
7.評価尺度
今回は以上です。次回は、11の知識領域のどこかを見ていこうかと思います。
株式会社分析屋について
ホームページはこちら。
noteでの会社紹介記事はこちら。
【データ分析で日本を豊かに】
分析屋はシステム分野・ライフサイエンス分野・マーケティング分野の知見を生かし、多種多様な分野の企業様のデータ分析のご支援をさせていただいております。 「あなたの問題解決をする」をモットーに、お客様の抱える課題にあわせた解析・分析手法を用いて、問題解決へのお手伝いをいたします!
【マーケティング】
マーケティング戦略上の目的に向けて、各種のデータ統合及び加工ならびにPDCAサイクル運用全般を支援や高度なデータ分析技術により複雑な課題解決に向けての分析サービスを提供いたします。
【システム】
アプリケーション開発やデータベース構築、WEBサイト構築、運用保守業務などお客様の問題やご要望に沿ってご支援いたします。
【ライフサイエンス】
機械学習や各種アルゴリズムなどの解析アルゴリズム開発サービスを提供いたします。過去には医療系のバイタルデータを扱った解析が主でしたが、今後はそれらで培った経験・技術を工業など他の分野の企業様の問題解決にも役立てていく方針です。
【SES】
SESサービスも行っております。