「ビッグデータとデータサイエンス」データマネジメント知識体系(DMBOK)第14章の解説
はじめに
近年はデータサイエンスブームになっており、「ビッグデータ」も「データサイエンス」も話し手によって定義が違い、いわゆるバズワードとなってしまっている。
それゆえに、近年データ利活用と言えば、データサイエンスという感じになっているが、データを使ってビジネスに活かす手段は、データサイエンスのみではなく、むしろデータサイエンスで解決できる課題は一部なのではないかと思う。
この章では「ビッグデータ」と「データサイエンス」を改めて定義して、データマネジメントをするという章である。
DMBOKの各章の要約・解説
他の章も興味ある人はこちらからどうぞ。
今すぐわかるデータマネジメントの進め方
著者のDMBOKを用いてCDO室を立ち上げデータマネジメントを推進した経験を基にデータマネジメントの進め方をまとめたkindle本を執筆しました。
データマネジメント知識体系(DMBOK)第14章「ビッグデータとデータサイエンス」について
ビッグデータとデータサイエンスとは
ビッグデータとデータサイエンスとは何だろうか、「ビッグデータ」と「データサイエンス」に分けてそれぞれについて解説する。
ビックデータとは
ビッグデータとはデータ量だけを指すのではなく、データの多様性とデータの生成されるスピードを表している。
多様性とは、構造化データ・非構造化データ、ドキュメント、ファイル、オーディオ、ビデオ、ストリーミングデータといったデータの種類を指している。
ビッグデータは一般的なリレーショナルモデル体系ではないため、今までのETL、データ統合、メタデータ管理にはない課題が出てくるため、それらに対する取り組みが必要になる。
データサイエンスとは
ビッグデータを掘り起こし、予測を立てて、機械学習や処方的モデルとアナリティクス手法を開発し、その実施結果に興味を持つ人たちが分析できるようにすることをデータサイエンスと呼ぶ。また、その担い手をデータサイエンティストと呼ぶ。
データサイエンスは長い間存在してきた。以前は「応用統計学」と呼ばれていた。従来は膨大なデータを詳細に分析するには技術的な限界があった、しかしそれを実現する技術が登場したおかげで、データサイエンスとビッグデータを利用し、数学、統計、コンピュータ科学、信号処理、確率モデル、パターン認識、機械学習、不確実性モデル、データの視覚化などの方法を統合して行動を予測するようになった。
データサイエンスは、過去の傾向を分析する「後方確認ミラー」となるものと、未来の傾向を分析する「フロントガラス」となるものがある。
ビッグデータとデータサイエンスのビジネス的意義
ビッグデータとデータサイエンスを扱うビジネス上の最大の意義は、ビジネスチャンスを見つけ出して行動できること。チャンスはビッグデータを探索できるようになれば多くなる。機械学習アルゴリズムを使って、複雑で時間のかかる活動を自動化することで、効率性を上げ、コストを削減し、リスクを削減できる。
データサイエンスのプロセス
データサイエンスのプロセスは、ビジネスニーズを定めて戦略を描き、必要なデータを取得し、仮説を立て、取得したデータの前処理を行い、モデルを作り、導入とモニタリングを行うというサイクルを継続することである。
ビッグデータとビッグデータ・アーキテクチャ
ビッグデータを扱うためには、データの種類と必要なストレージについて把握する必要がある。
ビッグデータは多様なデータを扱う必要があるため、従来のDWHのアーキテクチャではなく、データレイクを用いて取り込む方式も変えて行う必要がある。
ビッグデータとデータサイエンスのゴール
ビッグデータとデータサイエンスのゴールは、分析開始時には知られてもいない問いに対し、答えと洞察を見つけるため、多種多様なデータを収集し、分析されていること。
データとビジネスの関係が整理されている
企業内のデータソースが反復的に統合されることが支援されている
業務に影響しかねない新たな要因を発見し分析されている
視覚化の技法を使い、適切な方法、信頼できる方法、論理的な方法でデータが公開されている
ビッグデータとデータサイエンスの進め方
データサイエンスのプロセスについて、一つ一つ進め方を説明する。
ビッグデータ戦略とビジネスニーズを定義する
組織のビッグデータ戦略は、全社的な事業戦略を支え、事業要件を満たすとともに、データ戦略の一部でなければならない。
ビッグデータ戦略を策定する上で、組織がどんな問題をビッグデータを用いて解決しようとしているのか、なぜデータサイエンスが必要かを明確にする必要がある。
データソースを選択する
ビッグデータを扱うデータサイエンスが特殊なのは、データソースの範囲が広いことである。扱うデータの品質と信頼性を評価し、時間軸を考慮した利用計画を立てる必要がある。
詳細かつリアルタイム性が高いデータを扱うと、個人レベルで特定することが可能となってしまい、プライバシーのリスクをも考慮する必要がある。
データソースの取得とインジェスト
データソースを選択した後は、データをデータレイクに取り込む必要がある。取り込んだデータのデータ品質を評価し、メタデータを管理することでデータの適性を評価することができる。
データの仮説と方法を立案する
モデルは入力データとアルゴリズムによって結果が変わる。可能性が低いと思われても、可能性があるかぎりテストをする必要がある。
分析用データと統合の整合
日次で更新されるデータと月次で更新されるデータがある場合、整合性が整った形で日々のデータを分析するためには、事前に調査し整合性を担保できるようにする必要がある。
モデルを使ってデータを探る
モデルをトレーニングする方法は、仮説を立て検証を行うという事を繰り返し実行することである。トレーニングする過程で外れ値や異常値を検知することができる。
モデルを構築・評価・検証し、洞察が正しいかどうか確認する。モデルに基づくデータを視覚化し、最初に策定した目的が満たさなければならない。データを可視化し、ストーリー化することにより新たな質問がデータ検索の文脈に載ってくる。そしてビジネスに貢献することができる。
配備と監視をする
作成されたモデルは本番環境に配備され、継続的に監視される。モデルは一度作成したら使い続けられるものではなく、常にデータソースを追加しモデルをよいものに改善し続ける必要がある。
ビッグデータとデータサイエンスの成果物
高度分析のメリットを享受するためには、業務側の人たちが深く関与している必要がある。センターオブエクセレンスとビジネスユーザーが同じビジネス目的を目指したコミュニケーションを築くことが重要である。
ビッグデータの戦略と標準
データソーシングの計画
取得されたデータソース
初期データ分析と仮説
データから得た洞察と調査結果
強化計画
おわりに
自分の知識をまとめるためと今後誰かがデータマネジメントをやってみたいと思った時のきっかけとなるためにnoteを書くことにしました。
モチベーションのために役にたったという人はぜひ、フォロー&スキをお願いします。
ツイッターでもデータマネジメントに係る情報をつぶやいてますので、よろしくお願いします。
データマネジメントを学ぶ人が抑えておきたい本
今すぐわかるデータマネジメントの進め方
著者のDMBOKを用いてCDO室を立ち上げデータマネジメントを推進した経験を基にデータマネジメントの進め方をまとめたkindle本を執筆しました。
データ組織立ち上げ編 AI事務員宮西さん
著者のデータ組織の立ち上げ経験をマンガ+コメントでまとめてみました。立ち上げ編は組織を立ち上げてやることが決まるまでのストーリーです。
無料公開のため0円となります。
データ組織の立ち上げに関係する方は是非読んでみてください。
DXを成功に導くデータマネジメント
DXを成し遂げるために必要なデータをどうマネジメントしていけばよいかが書かれている。
データ環境より、セキュリティの観点であったり、プライバシーの観点であったりといった非技術者向けの内容が多く書かれている。
データマネージメントに興味を持った人はまずは読んでみるとデータマネジメントでなすべき概要が理解できる。
実践的データ基盤への処方箋
データ利活用を行うために必要なデータ基盤の考え方と、利活用するためにはデータをどのようにマネジメントしていけば良いかを具体的な例を用いて説明されている。
技術が中心になるので現在データ技術に係る人がデータマネージメントに興味を持った時には、まず手に取ることをおすすめする。
個人データ戦略活用 ステップでわかる改正個人情報保護法実務ガイドブック
個人情報保護法を順守するための基本的な考え方が実務ベースで書かれている。2022年4月に施工される改正個人情報保護法で新たに追加される概念も同様に記載されている。
政府の出しているガイドラインよりも俯瞰的に読めるためデータプライバシーにかかわる人、データを使ったビジネスを推進する人は読んでおくとスムーズに業務が進められる。
データマネジメント知識体系ガイド(DMBOK)
自分も要約・解説記事を書いているDMBOK。データマネジメントに興味を持った人がまず手に取ると挫折することは間違いないほどのボリュームがある。
読めば読むほど味が出てくるので、データマネジメントを進めようとしている人は各家庭に1冊は是非買っておきたい。
データマネジメントが30分でわかる本
著者もDMBOKを読むためには非常にボリュームが多く読み解くには苦労するので、かみ砕いた解説書をまとめたと書いてある通り、DMBOKを独自解釈してわかりやすく書かれている。
DMBOKを技術者目線で読み解いた内容になっているので、実践的データ基盤への処方箋と同様データ技術に係る人におすすめする。