
データの活用 ~第8章~
はじめに
データベースをテーマとして徒然なるままに記述しています。何となく『そうなのね~』と解釈していただければそれで結構です.逆に言うと多少(大いに?)厳密性に関しては怪しいところを含むかもしれません.基本的には一般論として述べるつもりですが,所々筆者の独断と偏見に基づく表現も含まれることと思いますので,それを前提にお読みください.
コラムの連載予定
1 DB(データベース:Data Base)とは
2 DBシステムとファイルシステムとの違い
3 DBの歴史
4 何故正規化するのか
5 ER図とテーブル関連図
6 トランザクションとリカバリ
7 同時実行制御
8 データの活用 ←現在地
9 おわりに

前回のコラム、第7章はこちら↓
8 データの活用
最後に,収集蓄積したデータの活用の側面について触れる
▶DWH(Data Warehouse)
DBの語源としてDataのBase(基地)と冒頭に述べたが,DWHはDataの倉庫(Ware House)からきていると言われている.
1990年代初頭このDWH構想を述べたのがBill Inmon(ビル・インモン)とRalph Kimball(ラルフ・キンボール)である.
筆者もこの時期リアルタイムで著書を原典で読み込んでいたことを思い出します.
一度インモン氏の講演会に参加し,『ふ~ん,なるほど~』と(本当は分かってもいないのに)分かった気になった記憶があります.
当時既にDB関連の仕事に取り組んではいましたが,DWHに関しては私にとっては初めて聞く用語や概念ばかりでもの凄く新鮮に感じておりました.
ただ当時の技術の下では,それなりのパワフルなコンピュータが必要となる前提であり,即手元で試してみるという代物ではありませんでした.
理論だけを学んだ頭でっかちな状態でした.
それが今ではデスクの上のPCでそれなりに動く,,,,時代の進化は凄い(失礼,また少し道が外れました).
▶DM, ETL ,OLAP
さて,DWHのシステムアーキテクチャとしては,情報の発生源である企業の基幹系のシステムが(複数)あり,それらから情報を抽出し変換し倉庫(DWH)に受け渡す,という絵になります.
情報の抽出変換受け渡しを担う機構をETL(Extract Transfer Load),DWHに蓄積された膨大なデータからある主題(subject)に着目して切り出したものをデータマート(Data Mart)と言う.
DWHやDMに蓄積されたデータをいろいろな角度から分析する手段としてOLAP(On-Line Analytical Processing)と言われる各種ツールも登場した.
最近はBIツールとの用語の方が主流かもしれない.
それらを基に経営判断を迅速に行う(行える)というのが当時の売りであった.
但し当時の情報処理機器の性能は今と比べると非常にpoorであり,売り文句を実感できる人は非常に少なかったと思われる.
▶Data Lake
最近は,これに加えData Lakeという用語も使われる(1990年代はこの言葉は無かった).名前の通りデータ(情報)の湖とかデータ(情報)の貯蔵庫という事である.
情報源から収集した元々の生データのまま蓄積しておく.
1990年代は想定していたデータは基本的に構造化データであった(と思う)が,現代はそれに留まらず非構造化データも含めたあらゆる形式の膨大な情報を扱うことからデータ形式等には手を加えずそのままのデータ形式で扱うことが必要になってきた.
それらをいわゆるビッグデータ処理して可視化して提供するという形に変化(進化)してきている.
DWHよりもはるかに大きな記憶媒体を必要とされる.
更には,筆者はごく最近見聞きした言葉だが,データレイクハウスという用語(概念,アーキテクチャ,プラットフォーム)も有る様です.
何となくは推察できると思われるが,興味ある方はデータレイクハウスで検索するといろいろヒットします.

出典 : https://dx.lakeel.com/column/dwh_merit_demerit/
最後までご覧いただきありがとうございました。
第9章には、「終わりに」を書いております。
あわせて是非ご覧ください!