見出し画像

セミナーメモ:データ基盤を進化させるDatabricksとdbtの実践的活用術


下記オンラインセミナーの受講メモ

  • 2024/11/06開催

  • データ基盤を進化させるDatabricksとdbtの実践的活用術

  • 主催:dbt Labs, データブリックス・ジャパン, 株式会社エーピーコミュニケーションズ

dbt

by dbt Labs

Why dbt ?

これらの課題を解決するのがdbt。
dbtはエコシステムが充実。多くのシステム・サービスと結合可能

データやコンピューティングリソースはDatabricksに依存
dbtはDatabricksの処理を手助けする立ち位置

Databricksにdbtを組み合わせる理由

Databricks

by データブリックス・ジャパン

What's Databricks ?

データレイクハウスが一番のdatabricksの意義

👇️ざっくり整理すると

databricks導入前のイメージ

機能も豊富。ウェアハウス機能もあるし、
サーバレスだし、包括的データガバナンスもできるし、ストリーミングも得意

dbt + Databricks

メリットは?

streaming_table, materialized_view
→dbtは関係ないのでは?

ベストプラクティス

dbtを活用するうえで、こうしましょう、な話

機能の使い分け

DatabricksもETLな処理を色々できる

DLT?

Delta Live Tables

dbt vs DLT 比較

使い分け


疑問と整理

dbtに頼らずともDatabricksでETL/ELT機能を実現できる。
Unity Catalogを用いればデータガバナンスもできる。
データリネージュ機能も提供されるようになっている。

等といった理由から「dbtを使わなくても、Databricksでもある程度できるじゃん」という素朴な疑問がある。

これに対する一つの回答が、前述の「機能の使い分け」にあるように思われる。
実際のところ「たしかにDatabricksでやれる」という答えでありそう。
加えて「他のDWHと共存」であったり「pythonよりSQL寄り」といった事情がある際はdbtを追加で利用する選択肢があるように思われる。

エーピーコミュニケーションズ

事業・サービス紹介

セマンティックレイヤー

課題感

DWHの前段に抽象レイヤーを噛ませることでデータを利活用しやすくする

dbtで抽象レイヤーを作る
その抽象レイヤー化した情報をもとにDatabricks側からクエリする

  • Databricksありき

  • それに対する抽象レイヤーをdbtで定義

  • dbtで定義した情報を改めてDatabricks側から利用

ってこと?一旦無駄にdbtを経由しているような気がして面白い
(が、これがセマンティックレイヤーであることは理解できる)

dbtとDatabricksを組み合わせる価値

いいなと思ったら応援しよう!