見出し画像

DWH?DataLake?CDP? :データ活用サービス選定のための基本と理解

データアーキテクチャは企業や組織がデータをどのように収集、保存、処理、管理するかを計画し、実行するための枠組みのことです。データの扱い方を定義することで、ビジネスの成長や効率化、DXの推進を支えます。この分野ではDWH、DataLake、DataMart、Lakehouse、CDP、DMPなどありますが、「どうせみんな一緒でしょ」だと、かなり誤解しています。この記事では、初心者にもわかりやすく、データアーキテクチャに関連する基本的な用語や概念をCOKOOZ合同会社の東(あずま)がご説明します。



データアーキテクチャを構成する基本要素

データソース:データの出発点

データはどこからやってくるのでしょうか? 以下は主なデータソースの例です。多くの場合、本来の目的で集められたデータを、別目的のデータとして利用します。そのために、異なる目的のために大きくデータ加工・整備をする必要があります。

  • OLTPデータベース:オンライン取引や購入履歴など、日常的な業務で生成されるデータ。

  • 企業アプリケーション:ERPやCRMなどのシステムを通じて集められる顧客情報や在庫データ。

  • サードパーティ:市場調査や競合分析など、外部から提供されるデータ。

  • ウェブ/ログデータ:ウェブサイトの訪問履歴や広告のクリック履歴など、インターネット上で生成されるデータ。

  • IoTデータ:スマートデバイスから生成されるデータ、例えばスマートフォンや家庭用デバイスの使用履歴。

元々、販売システム、生産システム、顧客管理システム、アクセス解析などが初めからデータ分析を意識した形になっていることはありません。
在庫管理をしたり、売上や財務の計算、出荷・運送などを目的としており「データサイエンティストがデータ分析しやすいようにデータ収集する」などという事は全くといいほど考えられていません。

これらの別の目的で集めたデータを強引に機械学習・EDA・レポーティング用に加工しなければいけませんので、大変な作業になるのは容易に想像がつきます。

ETLとELT:データの変換プロセス

データは生成された状態のままでは役に立たないことが多く、加工が必要です。この加工プロセスをETL(抽出、変換、ロード)またはELT(抽出、ロード、変換)と呼びます。

  • 抽出(Extraction):データソースから必要なデータを取り出すステップ。

  • 変換(Transformation):抽出したデータを使用しやすい形に変換。重複データの削除やフォーマット変更が含まれます。

  • ロード(Load):加工されたデータをデータウェアハウスやデータレイクに保存するプロセス。

最近の傾向として巨大なデータを使う場合にはほぼ「ELT」が中心になるでしょう。過去のようにデータウェアハウスに使えるストレージやマシンパワーが足りていない時には、データ基盤に投入する前に綺麗に目的に合った形に変換、加工、整理する必要があります。

しかしながら、現在は機械学習のために、莫大なデータを全件格納できるようなクラウドDBがあります。事前にデータ加工をすると、将来必要なデータまで削除してしまうことが多く、再抽出などがたびたび発生してしまう事も増えるでしょう。VUCAで不確実な時代では、目的や状態は常に変化してしまうため、未来のことも含めて、事前にしっかり要件定義するのは不可能です。

このような非効率さを除くためにも、データに最低限の加工を行い、全件をDataLakeに格納(Extract/Load)し、その後にDataLake内であらゆるニーズに対応した形に加工(Transformation)をするのが主流となりつつあります。このように今後は、ELTが重要なデータ変換方法になるでしょう。
Extractでは様々なSaaSシステムとAPI連携し、簡単にデータ取得ができるソリューションを活用すると良いと考えられます。

データの保管場所:DWH・DataLakeなど

データを安全・効率的に保存するスペースとして以下が挙げられます。

  • データウェアハウス(Data Warehouse/DWH):構造化データ(表形式のデータ)を保存するためのシステム。レポートや分析に使われます。

  • データレイク(DataLake):構造化データだけでなく、非構造化データ(画像やログファイルなど)も保存できるシステム。大量のデータを保存し、必要に応じて処理します。

  • レイクハウス(Data LakeHouse):DWHとDataLakeのそれぞれの欠点を補い、莫大なデータ量の取り扱いと、データの管理に優れています。

  • データマート(Data Mart):ボリュームやアクセス権の問題などいくつかの理由でDWHを切り出した、目的に特化した小さなDWHです。

DWH・DataLakeを選ぶか?CDPを選ぶべきか?

多くの方が、CDPやDMPという言葉も耳にしたことがあると思います。その時に「BigQueryやRedShiftを買えば同じことができるではないか。CDPなどは不要。」という意見もあります。
ただこれは「そこに木材と建築機器がある。建売住宅なんて必要ない。自分で家を作れば良いじゃないか。」と言っていることと同じだと思います。
ド素人が作った家が悲惨なのは想像がつくでしょう。

要するにCDPやDMPはデジタルマーケ・顧客分析を強力に支援するための仕組みやサービスが出来上がった全体像です。Spark・Airflow・SuperSet・MariaDB・CircleCIなどのOSSや、Amazon RedShift・Azure Synaps・Google BigQueryなどを活用して構築され、DataLakeなどがベストプラクティスとして組み込まれています。

これは出来上がった「建売住宅」として売られているようなものです。提供される機能・仕様ではなく、全てを自分(自社)の要件に合わせるなら、カスタマイズした「注文住宅」をSIerに依頼した方がトラブルは減ります。

CRM・MA・行動予測・LTVレポーティング、セキュリティ・API連携などが、目的に応じて出来上がっており、月額料金で安価に活用できるようになっているのがSaaSです。大抵のマーケティング部門は、これらをゼロから開発していてはROIが全く合いません。安価なSaaSサービスでスモールスタートをすることも大事です。

もしあなたがマーケットや投資家からの莫大な資金提供を受けていたり、Netflix、Airbnb、Uber等のデータサイエンティストであれば、「データこそが命」であり、PaaS・IaaS・プライベートを駆使した自社開発は当然でしょう。
ただ小売・流通・サービス・コンテンツ販売などで、クイックに業務をスタートして学びながらスモールにスタートしたいなら、SaaSで提供されるCDPやMAを活用して、クイックにスタートすることをお勧めします。

「CDPはRedShiftやBigQueryの機能でできるから不要」というのは「フォントの大きさや色が変えられるので、WordもExcelもPowerPointは一緒だ」と言っているようなものです。

機能比較表でツール選定をする失敗はここにあります。
「機能が豊富か」ではなく「目的に合うか」で選ぶべきなのです。
そして他社事例を集めても自社の「目的」は決まりません。


データアーキテクチャの応用:どのようにビジネスで活用するか

ではどのような目的や目標が合うのでしょうか?以下は様々なデータアーキテクチャが、企業のさまざまな部門で活用される例になります。具体的な活用方法は検討が必要ですが、以下のような目的があるなら、データ基盤の構築と、どのようなアーキテクチャで臨むべきかの検討に値すると思います。

企業内部の主要部門での活用

  • ビジネスインテリジェンス/アナリティクス:企業戦略の策定と分析。

  • マーケティング:顧客分析、ターゲット設定、キャンペーン戦略の開発。

  • 財務:財務状態の分析、予算計画、投資戦略。

  • 人事:従業員の成果と満足度の分析、人事戦略と評価基準の策定。

開発・テスト環境での活用

  • テスト/開発: 製品性能テスト、バグ追跡及び最適化。

  • リアルタイム分析:リアルタイムユーザー反応とシステムモニタリング。

  • 製品管理 : ユーザー経験分析、製品機能改善及びロードマップ設定。

データ専門家による高度な活用

  • データサイエンス: 複雑なデータ分析、機械学習モデリング。

  • データ収益化: データを基にした新しいビジネスモデルの探索。

  • セキュリティ: 脅威及び侵入検知、データ保護戦略の策定。

一般的な運用とレポートの活用

  • 運営報告: 日次/週次/月次の業務報告及び成果管理。

  • 外部ユーザー :外部パートナー、顧客、協力会社向けのデータ提供。

  • 顧客サポート: 顧客問い合わせ及び問題解決のためのデータ分析。

様々な分野でのデータ活用

  • ヘルスケア: 患者の分析、治療戦略の策定、予防、病院運営の効率化。

  • 公共部門: 市民の意見を活用した政策、都市計画、サービスの改善。

  • 教育 :学習パターンの分析、教育カリキュラム・プランの最適化。

  • 物流・輸送: 輸送手段の管理、経路の最適化、物流コストの削減。

  • エネルギー : 消費パターンの分析、持続可能なソリューションの研究。

  • 不動産 : 市場動向の分析、投資価値の評価、不動産価格の予測。

  • メディア: コンテンツ分析、カスタマイズされた広告と推薦・推奨。


結論:データがビジネスに与える影響

データアーキテクチャは、企業がデータを効果的に活用し、競争力を高めるための基盤です。特にDXやデータドリブンのビジネスモデルを推進するためには、適切なデータアーキテクチャの設計と実装が不可欠です。各企業は自社のニーズに応じたデータアーキテクチャを構築し、データをビジネスの成功に結びつけることが求められています。

自社にあった適切なソリューションやテクノロジーの選定が重要になるでしょう。もし、短期・単発などでも少額で相談をしてみたいという方は以下をご参照ください。

役に立つブログを続けていきたいので、「フォロー」「スキ」を押してもらうと大変励みになります!

いいなと思ったら応援しよう!