Google CloudのAnalytics Hubを使ってみた
電通デジタルでデータサイエンティストを務めている広瀬です。
この記事では昨年リリースされ、Cloud Next’22にて一般公開が開始されたAnalytics Hubについて機能の紹介から、私が考える今後の可能性について記載します。
目次
Analytics Hub について
機能紹介
安全なデータセット共有
一般データセットを利用した分析
Cloud Next'22 にて発表された新機能
検証
今後の可能性
Analytics Hubについて
Analytics Hubはセキュリティとプライバシーを兼ね備え、組織の境界を超えてデータと分析情報を共有できるBigQueryを基盤としたデータ交換プラットフォームです。
Analytics Hubでは以下のタスクが実施可能です。
データの共有をリアルタイムで行うことができ、データを複製することなく適切なユーザーに対してデータの共有が可能です。
一般公開データセットに挙げられているデータを自社のデータと結合し独自のデータ分析を行うことが可能です。
Analytics Hubではデータを共有する側をパブリッシャー、データを利用する側をサブスクライバーとして定義しています。
AnalyticsHubにおいて、パブリッシャーはデータストレージのみに課金がかかり、サブスクライバーは共有データに対して実行されるクエリに対してのみ費用が発生します。
機能紹介
安全なデータ共有
パブリッシャーはデータ共有を行うためのデータセットである共有データセットを作成します。パブリッシャーはテーブルやビューなどサブスクライバーに対して共有するものを共有データセットに作成します。
次にパブリッシャーはExchangeを作成します。Exchangeはデータ共有を可能にするコンテナのようなもので、データセットを参照するリストが含まれています。 パブリッシャーと管理者はこのExchangeにおいてサブスクライバーに対して権限を付与することができ安全にデータの共有を行うことことができます。
最後にListingを作成します。Listingは共有するデータセットの説明、データセットで実行するサンプルクエリ、関連ドキュメントとのリンクなどサブスクライバーのデータセットの利用をサポートする情報を追加します。
一般データセットの利用
Analytics Hubでは一般的に公開されているデータを利用することができ自社のデータと組み合わせることで独自の分析を実施することが可能になります。
一般公開データセットの中には気象と天候、暗号通貨、医療、ライフサイエンス、運輸などのデータがあります。
さらに一般公開データセットの中にはGoogle独自のデータセットも含まれています。Googleのデータセットの中にはGoogleトレンド データセットなども含まれており自社のデータと組み合わせることで独自の分析が可能になります。
Cloud Next'22 にて発表された新機能
先日行われたCloud Next’22にて発表された新機能の内容について記載しておきます。
30を超えるさまざまなリージョンとマルチリージョンをサポート。これによりサブスクライバーが要求した地域に共有データセットを配信可能になりました。
データパブリッシャーは、Analytics Hubで全ての共通データのサブスクライバーを表示および管理が可能になり必要に応じていつでもサブスクリプションへのアクセスの取り消しが可能になります。
共有データを管理するために、管理者は監査ログ、情報スキーマなどのツールにアクセスし、組織内での製品の使用状況に関する情報を追跡することが可能になりました。
サブスクライバーが関連データを簡単にフィルター処理、並び替え、検索できるように検索方法も改善されました。
検証
一般公開データセットのGoogleトレンドデータセットをサブスクライブしてみます。
まずBigQueryを開きデータの追加からAnalytics Hubを選択するとデータの一覧が表示されます。
データの一覧が表示されたら検索窓に「google」と検索すればgoogle関連のデータセットが表示されます
その中にあるGoogle Trendsを選択するとデータセットの概要を確認することができます。
公開されているデータセットによって内容は様々ですが、Google Trendsのデータセットでは、概要、サンプルクエリ、スキーマなどを確認することが可能です。
内容を確認し問題なければデータセットをプロジェクトに追加してください。
追加する際に、送信先としてプロジェクト、リンクデータセット名を設定する必要があります。追加が完了すれば指定したプロジェクトに追加されています。
今後の可能性
今後のAnalytics Hubについては一般公開データセットの拡充、IAMでの権限付与との差別化が図れればより使いやすいものになるかと感じました。
ある程度の一般公開データセットは揃っていますが、現状では国内データが少ないため国内での利用は難しいかと思います。
国内のデータが拡充されれば一般公開データセットを説明変数に加え自社データを目標変数にすることなどで機械学習の精度が上がり独自のデータからの分析が可能になってくるかと思います。
データの共有に関してはIAMでの権限付与を実施すれば解決する部分もあるので現在の体制を変えてまでAnalytics Hubを使用してデータの共有を行う利点が少ないように感じているので付加価値がつくようになれば利用頻度は上がっていくかもしれません。