【動画でレポ】BIツールカジュアル座談会 ~BIツールとETL~
今日は2021年2月25日に開催されたBIツール研究会さんのオンラインイベント動画「BIツールカジュアル座談会 ~BIツールとETL~」を見て勉強します。BIというと可視化ツールの部分ばかり注目されますが、ETLも重要な要素です。今回の動画はそのなかから代表的なETLツールの紹介があるそうです。
本日のゴール
ETLツールの特徴とBIにおける必要性を理解しよう。
1.ETLとBI
ETL 「Extract(抽出)「Transform(変換・加工)」「Load(ロード)」の略語
ETL利用時のデータ全体像
上の図はTableauのDatasaverでよく使われる図でデータサイクルを表現しています。
・意思決定からデータを作る ←ここをカバー
・必要なデータを選択する
・ビジュアライゼーション/データを見る
・インサイトを得る
・ネクストアクション
ETLとBI
個別のBI利用であれば個々にデータ加工しても問題はない
↓
全社利用する場合はロジックの可視化、正確性の確保が必要
様々なデータソースを利用する場合は加工部分がカオス化してしまう。
ETLの現実:アドホックと全車標準の2系統がある
ETLツールのメリット:開発工数の削減、開発品質の向上、メンテナンス性の向上
ETLの利用例・使い分けの例
1)TroccoとBigQueryの例
・元々、バラバラに連携していたがボトルネックになりがちで、同じような処理が分散していた
・連携をtroccoに集約しBigQueryにデータを集約
・Salesforceの数式項目などの連携問題も」解決
troccoとBigQuery+Locker
・SaaSサービスのデータを単純にtroccoでBigQueryに連携。
・洗替や差分更新などでtroccoを利用
・センサーデータなどの大容量はエンジニアの手を借りてembulkを利用
・BigQueryをデータレイクとして、そこから先の二次加工やデーターマート、ダッシュボードはLockerを使用
・EXELやCSVのデータはTableauPrepを利用
・データレイク、DWH、データマートはBigQueryに統一
・その間の連携をApatch Airflowでワークフロー管理
・中身はPytonで書いている
・ETLのEはSQLで対応
・ゆくゆくはAirFlowで賄える予定
・エンジニアリングスキルセットがある人はこれくらい整理できる
2.ETLツールの整理
ガートナーのマジック・クアドラント
・対象サービス・製品が幅広い
・上位にERPのETLツールやデータレプリケーションのツールが上位を占めている。(今回の紹介対応ではない)
・アドホックにデータ加工するツールやデータロードをするツールはあまり上位に入っていない
ETLツール選定軸
・使えるデータコネクターの種類
・操作感(UI・機能)
・バグの多さ・対応
・サポート・トレーニング
・値段 ライセンス体系が複雑なので・・・
ここから特徴ある8つのツールを紹介
talend
・2006年企業
・Talend Open Studioは無料で提供
・主要なコネクタに対応
・UIは洗練されてきている
・英語が使えないと代理店のサポートが必要
・価格体系が青天井
・機能が豊富でハイクラス向け
TableauPrep
・2018年にリリース
・Desktop上でアドホックで加工する→最近はサーバ版も
・APIが直接たたけなかったりする
・UIはTableauを使っていればわかる
・トレーニングはひととおり揃っている
・DesktopはTableauデスクトップに同梱、サーバ版は8000/1ユーザ
・Tableauを使っているユーザであればメリットが高い
alteryx
・アドホックで利用されるツール
・1997年創業の老舗でコンサル系、金融、制約などで使用される
・データコネクターは一通りそろっている
・UIはGUIベース
・サポートメニューは公式トレーニングもある
・ユーザ数で課金
trocco
・日本のSaas企業が提供
・メルカリ、サイバーエージェント、Yapplliなどの企業で使用
・Trocco+BigQueryは王道の組み合せ
・よく使うコネクターはそろっている
・GUIベースのUI
・Slackのサポートが充実していて早い対応
・設定代行サービスもある
・データ接続の種類と転送量で課金
Fivetran
・データパイプラインの自動化ツール
・ELT 先にデータをロードしてから加工するタイプ
・データコネクターは海外アプリに強い
・操作感はシンプル
・月次のデータ容量で課金
Xprenty
・Hadoopベース
・Salesforceとの連携
・よく使うコネクタはそろっていて、日本への対応も前向き
・GUIベースのUIで小回りが利く
・日本語対応のリアルタイムの無料サポートがある
・年額定額制の課金
cdata
・オンプレミス型
・コストが安い 0円から始められる
・コネクターは豊富
・GUIベース
・大量データの連携処理で落ちることがある(サーバ次第?)
・メールベースのサポート
・接続しているデータソースの種類により価格が違
BigQuery DataTransfer Service
・GoogleのBigQuery]サービス
・コネクタは Googleのサービス中心、AWSにも対応
・GUIベースのUI
・Slackサポート、ハンズオンも柔軟に対応
・制限はあるが基本無料
番外:Denodo
・データソースからデータを取り出すことなく利用するデータ仮想化のシステム
3.それETLツールで出来ます
Q:どのタイミングでアドホックを共通化に切替えるのがよいか?
A:明確な基準が難しい。Lockerを使っていたのでレビュー文化があったので共通化に自然に共通化されるようになっていった。
A:アドホックが週次、月次で使うようになるなら共通化を考える。ただし時間とのバランスが重要。
<BIツール研究所>・・・connpassページから
データ活用をもっと身近に
BIツールの情報をオープン&適切に比較できるようにするためのコミュニティ「BIツール研究所」のグループです。BIツールに関するイベントを主催します。
Youtubeチャンネル
connpassページ
この記事が気に入ったらサポートをしてみませんか?