データレイクとは何か、纏めてみました。
どうも、やすちょです。
最近、データレイクって言葉を仕事でちょくちょく聞くようになってきました。
ただ、残念なことにデータレイクに関する知識を殆ど持ち合わせていないので、少しずつ学んだことを自分なりに纏めていく事にします。
1.データレイクとは
Wikipediaによると、
データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XML、JSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。
つまり、データレイクはデータの種類を問わず、一元的かつそのままの形(ローデータのまま)格納できるところが強み。
上記を例えると、バラバラになっている水溜りや池ではなく、一つの大きな湖に多種多様なデータが集まっているかつ適切に管理されている状態です。
2.データレイクが必要になってきた背景
多くの企業が、想像以上の大量のデータを生成し活用するようになってきたから。
現在、企業を取り巻くデータの数や種類は爆発的に増えています。
基幹システムに格納している社内情報だけではなく、モバイル端末やSNSの情報など、企業が集約しなければならないデータは日々膨大な量になっています。
その一方で、データを活用していくための蓄積方法や管理手段がなければ、それらが有用なデータだとしても、
見通しが悪い、探し方がわからない、扱い方がわからない
と、社内の誰もがデータを活用できる状態ではない。
そこで登場したのがデータレイクというわけです。
3.データレイクとデータウェアハウスの違い
データレイクの事を学んでいくと、頻繁にデータウェアハウスという言葉を見かけますが、具体的な違いがわからなかったため、こちらも2つの点から違いを纏めておきます。
1.格納するデータの構造の違い
データウェアハウスでは構造化されたデータのみ格納可能。
データレイクでは構造化データに加え、非構造化データも格納可能。
そのため、データレイクはデータの柔軟性に長けている。
2.利用目的の明確さ
データウェアハウスで扱うデータは利用目的が明確。
データは目的に応じて適切に処理され、無駄な部分を削ることで、洗練された状態で保存可能。
データレイクに保存されるデータは利用目的が明確ではない。
目的が定まっていないために、構造化できないとも言える。
将来利用される可能性があるデータをひとまず非構造化データのまま格納。
4.データレイクのメリット・デメリット
データレイクはデータウェアハウスと比較し、
消費ストレージの無駄が大きくなります。
一方で明らかに必要なデータしか保存しないデータウェアハウスに対し、一見不要なデータが後から必要になった場合にも対応可能です。
ざっと纏めてみましたが、まだまだ自分の知識レベルは低いので、さらに学んでいきたいと思います!
このnoteが役に立ったと言う方は、ぜひコメント、スキ、フォローよろしくお願い致します!