TableauとSnowflakeで2025年の崖を乗り越える! ~1億件規模の全社横断的なデータも鮮度高く軽快に分析~
突然ですが、経済産業省の2025年の崖という有名なレポートをご存じでしょうか?このレポートでは、データ活用が進まない原因として、既存システムが事業部門ごとに構築され、全社横断的なデータ活用ができないことが挙げられています。
例えば、代表的な社内システムとして、会計システム、予実管理システム、生産管理システム、在庫管理システム、営業活動情報などを管理する顧客管理システムなどが挙げられます。
通常、それぞれの社内システムにデータを可視化する仕組みがあり、これを使うと各システムに閉じたデータを把握することはできますが、他のシステムのデータと掛け合わせることはできません。このため、CSVファイルにエクスポートし、それらを表計算ソフトで集計したりBIツールで可視化したものを、経営者が参照します。
しかし、この従来型のデータ活用プロセスは、システムからデータを抽出した時点からデータの鮮度が落ちていきます。このため、変更・改変をしたいときにすぐに修正することができず、最新の正しい情報で意思決定することが難しくなります。
これを解決する方法として、Snowflakeにデータを集約し、それをTableauで分析することがおすすめです。今回は、そんなSnowflakeとTableauについて、そのアーキテクチャや製品ラインナップをご紹介します。
Snowflakeのビジョンとアーキテクチャ
Snowflakeは、すべての組織をデータドリブンにするために、どんな人でも簡単にデータを扱うことができるように作られたクラウド型のデータウェアハウスです。
そもそも、なぜデータは使いたいときに使えないのか?そこには、次の3つの課題があります。
Snowflakeは、上記の課題を解決するために作られた次世代のフルマネージド型のクラウドネイティブ・データウェアハウスです。複数のクラウドサービスに対応していることや、ストレージとコンピュータリソースが分離しており、処理が集中する時に必要なリソースを動的に割り当てることパフォーマンスを気にすることなく利用できることが特徴です。それらの特徴を詳しく説明していきます。
▼データクラウド
Snowflakeは、アプリケーションクラウドとインフラストラクチャークラウドの間にデータクラウドとしてクッションのように存在している状態を目指しています。クラウド上にデータを格納し、マルチリージョンやマルチクラウドで利用する場合も、すべてのユーザーがいつでもどこからでもデータにアクセスできるようにしておくことが重要だと考えています。
▼コンピュータリソースの動的割り当て
ストレージは一箇所に統合されており、そこにアクセスできるコンピュータリソースは何個でも作ることができます。ストレージに格納されたデータにたくさんのコンピュータリソースが同時にアクセスしても、必要なリソースを動的に割り当てることで全く競合しないというのがSnowflakeのアーキテクチャです。
▼スモールスタート
コストは従量課金制で、性能×稼働した時間によって決まります。性能はウェアハウスのサイズによって変わり、サイズを上げていくと処理時間が短くなります。例えば、XSサイズで16分かかる処理を、XLサイズで1分で処理できたならば金額は同じです。つまり、性能を上げることで、同じコストでも処理時間を短縮することができます。柔軟に性能や稼働時間の拡大・縮小ができるため、お試し利用から始めて徐々に利用を拡大していきたい場合におすすめです。
▼データシェアリング機能
例えば、「データの一部分だけ外に公開したい」、「このデータはある人にだけ貸してあげたい」ということもできるのが Snowflake です。自分のデータを1カ所に保存して、どこにもコピーしないままに、別のユーザーがその人が所持しているウェアハウスを使って、みなさんのデータにアクセスすることができる。これがデータシェアリング機能になっています。
この機能を活用してデータプロバイダーが自分たちのデータをまるでマーケットに並べて出店しているかのようなデータマーケットプレイスもあります。新型コロナウイルスに関するリアルタイムな情報などは、データマーケットプレイス上で無償公開され、世界中の調査機関や医療、製薬業、政府などに活用されています。ウェアハウスがいくつアクセスしてきても良いからこそ実現できる画期的なデータ共有の方法です。
このような機能やビジョンが評価され、現在3000を超えるお客様のデータ基盤としてSnowflakeが採用されています。
Tableauの製品ラインナップとAL/MLレイヤーの機能
Tableauは、直感的な操作で非常に強力な分析が誰にでも出来るビジュアル分析プラットフォームです。各社内システムのデータを集約したSnowflakeにつなぐことでアクションへつなげるサイクルがとても早くなります。
まず、Tableauの製品ラインナップをご紹介します。
2020年、Tableauはセールスフォース傘下に入りました。「Einstein Analytics」(アインシュタイン・アナリティクス)とTableauは、別製品ですが、これから統合していく方針です。まず、AI/MLとデータのレイヤーから統合・連携していきます。
▼ダッシュボード拡張機能 (Dashboard Extensions):ダッシュボードからリアルタイム予測結果にアクセス
下図の左側がTableauダッシュボード、右側がアインシュタインになっています。
右側に31%と書いてありますが、これは、ある商品の出荷が遅れる可能性を示しており、その下に出荷の遅れる原因は何か、出荷を早める要因は何か、ということが記載されています。このように様々な予測データをアインシュタインが分析した結果を表示していますので、素早く次の手を打つことができます。
▼分析計算(Analytics Calc):リアルタイム予測をVizに埋め込み
下図の右下に散布図がありますが、Tableauのワークシートから計算式でTableau CRMを表示させています。現在、PythonとかRなど外部関数をCallする仕組みがありますが、同じ仕組みを実装しています。
▼Tableau Prep:予測数値をデータセットに追加
Tableau Prep のフローに、予測モデルにデータを渡し、結果をもらう機能が追加されます。あらかじめ作っておいた予測モデルを選択できますので、予測モデルの詳細を知らなくても予測モデルの結果を組み込んだデータを準備することができます。
予測ができれば、変化への対応も楽になります。では、次にどのように開発を進めていけばよいのかということを紹介します。
まず、SnowflakeにDesktopやPrepをつなげて、データを綺麗にします。そしてTableau CRMにデータを渡し、予測データを作ります。予測データ付きのデータをTableau Online にアップロードすると、ここに過去のデータと未来のデータのデータセットができます。
それを、アナリストの方々がTableau Desktopで分析するもよし、現場の方々がTableau Onlineに接続してみるのもよし、場合によってはSalesforce をお客様のポータルに埋め込んでポータルのユーザーが間接的にそのオンラインのデータを見るというシナリオです。その裏にあるデータセットの実態は、SAPやAnaplanなどのデータを収集したSnowflakeです。こうすることによって、さまざまな業務で使っているデータを横ぐしで見ることができます。
Tableau Creator とTableau CRMとSnowflakeがあれば誰でも着手出来ますので、ぜひお試しください。
Snowflake×Tableauでデータドリブンな経営をスモールスタート
セルフサービスBIの普及を牽引してきたTableauと、クラウド型でベンダーの垣根を超えてデータを集約できるSnowflakeは、データを自由に活用するために必要な製品として最適な組み合わせです。両製品を組み合わせてデータドリブンな経営をスモールスタートさせませんか?
気になる方は、ぜひジールにご相談ください!