見出し画像

データレイクの活用について考えたこと

以前、データベースとデータウェアハウスについて記事を書きましたが、今回はデータレイクについて最近業界内で話題になっているITベンダーについて調べたので、そのことを書きます。
まず、データベースというのは特殊なデータセット(ファイル)のことを言います。複数人が同時にアクセスするデータセットのアクセスをコントロールして、データの一貫性を確保するシステムをデータベース管理システムと一般に呼びますが、このデータベース管理システムによって管理されたデータセットをデータベースと定義されています。
データウェハウスは、特殊なデータベースのことを意味していて、①時系列に沿ってデータが保存されている、②データを更新・削除をしないなどのいくつかの条件を満たすデータベースのことをデータウェアハウスと定義されています。学術的な定義は定まっていません。
そのうえで、更にデータレイクと呼ばれる製品が世にでてきました。営業をオフィスに読んで、説明を聞くのですが、「それってデータウェアハウスですよね?データレイクって何ですか?」という問いに答えてくれる製品や営業はこれまでありませんでした。
しかし、今回下記の製品の資料を読んで納得できました。Json、XML、画像、word、PDF等の生データをむりやりデータベースやデータウェアハウスに保存することはできましたが、これらを分析できるような形にはなっていなかったと思います。まだなんとなくなのですが、現在の業務で使っているシステムの課題を解決できそうな気がしています。画像や動画などのファイルは増えてきているので、これらを保存して、活用するケースが増えてくるだろうなとは思っています。

いいなと思ったら応援しよう!