![スクリーンショット_2017-04-10_8.56.33](https://assets.st-note.com/production/uploads/images/4353835/rectangle_large_f0ba35cfc4d44f88c254e2bd26c0ea32.jpg?width=1200)
データ分析までの道のり
Google Analyticsに代表されるように簡単にデータ分析するツールは沢山溢れており、データ分析は手軽に出来る時代である。
しかし、企業内で散らばっているデータを統合して、分析することは簡単ではない。
そのため今日はデータ統合するまでの3ステップについて紹介したい。
1.データ抽出
まずは企業内に散財しているデータを抽出する必要がある。
POS・ECなどの購買履歴データ、ネット上の行動履歴データ、顧客データなどを同じデータベースに抽出する作業だ。
2.データクレンジング
前述のデータでもわかるように、元々は違う目的で収集されたデータだ。
それを不要なデータをなくし、名寄せすることで、利用可能な形にする必要がある。
不要なデータをなくさないと、インフラ費用や統合する時間にかかってしまう。
そのため、このデータクレンジング作業がとても重要になる。
3.データ統合
最後に各データを同じキーで統合する必要がある。
例えば、メールアドレスやスマホの端末IDなどでデータを統合する作業だ。
これによって、複数に散らばっていたデータを統合データとして取り扱うことができる。
事例の紹介
コルクでは、TreasureDataというクラウド型のデータマネジメントサービスを利用してすべてのデータを統合管理している。
ポケモンGOのような大規模データ処理が必要なサービスでも動いているfluentdというOSSで有名な企業だ。
TreasureDataのメリットは下記3点である。
1.HadoopやPrestoを使った分析が可能
HadoopやPrestoを使った分散データ基盤をクラウド上で利用可能であり、大量のデータを高速に分析が可能なこと。
2.エンジニアリングコスト削減
Hadoop・Prestoのようなクラスタリング運用基盤をクラウドによってマネジメント不要になること。
fluentdやembulkなどを使ったデータ統合が容易に可能なこと。
3.PrivateDMPが構築可能
MySQLやRedShiftなどの他データベース、GoogleSpreadSheet・PowerBIなどの他の可視化ツール、IntimateMerger・AudienceONEなど広告ツール、SFTP・MailChimpなどのレガシーシステムなど様々なシステムに検索結果をExport可能であり、PrivateDMPが構築可能なこと。
もし興味がある方はご紹介も可能なので、ぜひ使って頂きたい。
最後に
最後に、テック会議は毎週月曜日に「エンターテイメント業界をテクノロジー視点」で語る会議です。ハッシュタグ#テック会議で一緒に盛り上げて行きましょう!
また僕のTwitterアカウントは @daisakkuなので、フォローしてない方はお願いします。
いいなと思ったら応援しよう!
![萬田大作 / 技術の力でマンガ家を支えたい!コミチ代表](https://assets.st-note.com/production/uploads/images/76293556/profile_2bcdf17769be50cb4d266463a9409ada.png?width=600&crop=1:1,smart)