データベース超入門 -1|データベースを学ぶモチベーション
少し前に「データベース超入門」について、社内講師として説明したことがあります。その時のエッセンスを複数回に分けて、noteに残しておきます。
1. このような人間さんに向けて書いています
・エクセルは触ったことあるけれど、データベースって何?という方。
・データサイエンスに興味があるけれど、勉強したことないよという方。
・お子さんに「でーたべーすってなに?」と聞かれて困っている方。
・総合広告代理店のグループ会社に務める新米リサーチャーさんの方。
日本語がネイティブな人間さんであれば、特に前提知識は必要としません。ただし、リサーチャーさんや集計さん向けに話した内容ですので、内容に偏りがあると思います。また、SQLをバリバリ書いちゃうような人間さんにとっては退屈な内容になる可能性がございます。
初回はデータベースを学ぶモチベーションについてお話ししますね。
( ※ It's about 2000 words, so you'll be able to read it in 5minutes. )
2. データは21世紀の石油と言われています
「なるほど、データって炭化水素なんですね。芳香族系ですか?パラフィン系ですか?ぜひ蒸留の仕組みを教えて下さい。」と思ったあなたは化学系。
さて、当然、データが炭化水素ではないことは自明ですが、なぜ21世紀の石油と呼ばれるのでしょうか。その答えは、近年の人間さんを取り巻く環境にあります。
近年では、IoT(Internet of Things, 様々なモノがインターネットに接続)の普及により、人間さんの周りには大量のデジタルデータが飛び交うようになりました。その結果、「ビッグデータ(Big Data)」と呼ばれる大量のデジタルデータを人間さんは生成、収集することが可能となったのです[1]。
すると、どうでしょう。色んな国の人間さんは、このビッグデータを上手く利活用することでビジネスや社会の発展に利用したいと考えるわけです。そのため、データの価値はビジネスや国のあり方や発展に影響を与えるだろうとされており、「データは21世紀の石油である」と呼ばれるに至りました。
ちなみに「人間さんが住むリアル世界」と「大量のデジタルデータが飛び交うネットワークの世界」の境界が曖昧になり、全体として最適な世界にしましょうというのが、最近、耳にすることが増えたデジタルトランスフォーメーション(DX, Digital transformation)の世界観です。
3. ではビッグデータはどこに貯めておくのさ?という話
どうやらデータはお金になりそうなので、たくさん集める必要があるとお仕事に熱心な人間さんは考えます。さらに、上手く利活用できるような集め方をしたいなぁとも思うでしょう。そこに登場するのが、「データウェアハウス(DWH, Data WareHouse)」と呼ばれるプラットフォームです。
データウェアハウスは、お仕事の中で得られるデータを時系列で保管するための倉庫のことです。この「時系列」という点がポイントで、「今は使わないかもしれないけれど、ひとまず、保管しておこう」という発想に繋がります。
それ故、データウェアハウスは「収集グセがあるけれど、大豪邸に住んでいるから、飾っておく置く場所には困っていない石油王」みたいな状況になります。つまり、データを捨てるといった、断捨離をするミニマリストさんのような設計にはなっていません。
データウェアハウスの例としては、GoogleではBig Query、Amazon Web ServicesではAmazon Athenaやamazon RED SHIFTなどがあります。それぞれ、特徴が異なりますが、ここでは詳細は触れません。利用することになったものを、必要なタイミングで勉強すればよいと思います。
例えば、Big Queryであれば、データ分析のコンペティションサイトであるkaggleにもデータサイエンティスト向けのチュートリアルがあります。こちらで勉強するのもおすすめです[2]。
4. ビッグデータを自在に操るためにデータベースを理解しましょうという話
ビッグデータを保管する仕組みの存在があることはわかりました。では、その中身はどうなっているのでしょうか?ここで理解する必要があるのが「データベース」という存在になります。
この本によると、
書類であれば何でもデータベースになのか、と言うとそうではなく、「何かの目的や基準で集められたデータの集合体」である必要があります。
と記載されています[3]。なるほど、色々とルールがありそうですね。このルールについて学ぶことが、ビッグデータを利活用するために必要なポイントとなります。「ビッグデータの利活用についてもスコープとして、データベースを学ぶモチベーションとするのはいかがでしょうか」・・・と社内研修では話しました。
ちなみに広告業界においては、ビッグデータの利活用としては、下記のようなものがございます。「これらのデータを扱う必要があるから、僕たちはデータベースを勉強する必要がありますよ」・・・とも社内研修では話した気がします。
5. 結論
「データって炭化水素じゃないんだよ!」(違うそうじゃない)
ビッグデータを扱うために、その手前の知識として、データベースについて勉強しましょう。という話でした。次回はデータベースの考え方について、整理していきますね。
以上、データベース超入門 -1 でした。
----------------------------------------------------------
REFERENCE
[1] 総務省HP,「平成30年版 情報通信白書 第1部」,https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h30/html/nd102100/(accessed May 5, 2020).
[2] kaggle HP,” Faster Data Science Education”, https://www.kaggle.com/learn/overview (accessed May 5, 2020).
[3] 小笠原種高. なぜがわかるデータベース. 翔泳社, 2018, p12-13.
Thanks for the support !