DE58:DWH【データサイエンティスト検定(リテラシーレベル)補習ノート】

データサイエンティスト検定(リテラシーレベル)の公式リファレンスブックで躓いたところをまとめていきます。

DWH(データウェアハウス)

テキストにいきなりDWH(データウェアハウス)なる用語が出てきました。データベースとの違いがわからなかったので簡単にまとめておきます。

データベースとDWH

ウェアハウス(WareHouse)は「倉庫、貯蔵所」という意味です。イギリス英語では「卸売り店」という意味もあるようです。

一見するとデータベースと似ていますが、DWHはデータの分析に特化しており、意思決定を支援するために整理されているものというところが異なります。こちらの記事がわかりやすかったです。

データレイクとの違い

テキストのDE58には出てきませんが、よく似たワードで「データレイク」というのもあります。

データレイクはすべての構造化・非構造化データを保存しておくためのもので、データ分析用ではありません。下記の記事でデータレイクとDWHの両方が必要になる理由が説明されています。

データマート

これまたテキストのDE58にはありませんが、データマートというワードもあります。

データマートは特定のニーズのためにDWHから一部を切り出したミニ版、というのが自分のような初心者にはイメージしやすいかなと思いました。

少々語弊があるのは、DWHから切り出すだけでなく、他のソースから構築することもできるので、ミニ版というのは一面的なイメージだということです。詳しくは以下の記事を参照してください。

RDBとDWH

RDB(リレーショナルデータベース)は行指向、DWHは列指向という違いがあります。それぞれのメリット・デメリットを簡単にまとめておきます。

行指向のメリット:少数の行に対する処理が得意
行指向のデメリット:データ分析する際に不要な列も一緒に処理されるため重たい

列指向のメリット:分析に必要な列だけ取り出せるので処理が軽い
列指向のデメリット:少数の行に対する処理が苦手


DWHの種類

DWHにはクラウド型と、アプライアンス型、そしてテキストには出てきませんがオンプレミス型があります。

アプライアンス型とオンプレミス型はどちらも自社サーバーを使いますが、アプライアンス型のほうがサーバーハードウェアとシステムソフトウェアがセットになっており導入はしやすいと思われます。

様々な商用サービスがあるようです。最近はクラウド型が多いようですね。残念ながら自分にはあまり違いがわからず。。。


参考資料


この記事が気に入ったらサポートをしてみませんか?