見出し画像

【前編】リアルタイムのタクシー乗降データ基盤構築と可視化

ストリーミングデータを用いて、タクシー乗降のデータ基盤構築とリアルタイム分析可視化を行います。参考にした本は「Google Cloudではじめる実践データエンジニアリング入門」です。架空のタクシー会社を想定しプロジェクト形式で作成しました。(キャプチャが古いですが、記事化が遅くなりました!)
◆後編はこちら↓

1.プロジェクトの目的

タクシー乗降データのリアルタイム収集と可視化により、業務負荷軽減とマーケティング施策の改善を目指します。

2.システム構成と概要

Google Cloud Platform上で、データ収集、データ加工、データ蓄積・分析、データ可視化を行います。

アーキテクチャ
タスク
スケジュール

3.データ収集 - Cloud Pub/Sub、Cloud Shell

Cloud Pub/Subを用いて、リアルタイムな位置情報を取得するサブスクリプションを作成し、Google Cloud上のタクシーの位置情報を収集します。

Pub/Subは、メッセージキューイングを行うマネージドサービスです。メッセージ受信者であるパブリッシャーと受信者であるサブスクライバーを仲介し、両者のやりとりを100ミリ秒程度のレイテンシで非同期に通信します。

ストリーミングデータは、Pub/Subで公開データセットとして提供されている、ニューヨークタクシーのリアルタイムデータを利用し、タクシーの乗車から降車までの位置情報を収集しました。位置情報は平均して数秒に1回発生。乗車毎にユニークキー(ride_id)が振られ、ride_status(pickup, enroute, dropoff)によりイベントを定義しました。

Pub/Sub サブスクリプション詳細
BigQueryイベント定義

後編に続きます!

最後までお読みいただき、ありがとうございます!