セミナーメモ:dbt cloudでデータインフラを効率化! データパイプライン運用のベストプラクティスとは?
下記オンラインセミナーの受講メモ
2024/10/16開催 dbt cloudでデータインフラを効率化! データパイプライン運用のベストプラクティスとは?
主催:PrimeNumber
dbt
データパイプラインを信頼性のあるきれいなものに整備する。
これがdbtプラットフォームの目的
課題感とdbtの意義
データ基盤において、一貫性の担保、不明瞭さ、プロセスのボトルネック、といった問題が生じやすい
dbtでは「プログラマーの様に」、チームが一丸となって開発作業を進められる
TROCCO + dbt Cloud
Reverse ETL に際して、dbtはTROCCOと相性がいい、らしい
機能メモ
dbtメッシュ
dbt Explorer
一貫した組織指標(dbt Semantic Layer)
dbt Semantic Layer を活用した他ツールとの連携の実現状況(?)
MS系も今後追加されるらしい
TROCCO
ETL, ELT, ワークフロー管理ツール
課題感とTROCCOの意義
ツールを絞り開発し、構築・運用を楽にするマネージドサービスを利活用し、スモールスタートで成功体験を積み重ねたい
dbt CloudとTROCCOなら?
TROCCOとdbtの役割分担
TROCCOがETL/ELTを担い、環境感のデータ転送を行う
dbtにてWH内でデータ加工・マート作成を行う
ワークフロー
TROCCOの転送機能でSnowflakeにデータ転送後、
dbtジョブを実行してSnowflake上でデータ加工を行う、
といったことを、ワークフロー機能で定義可能