Data + AI Summit 2024 現地参加で感じた熱気と個人的注目アップデートまとめ-参加報告①
三菱UFJフィナンシャル・グループ(以下MUFG)の戦略子会社であるJapan Digital Design(以下JDD)のTechnology & Development Division所属の町田です。
Databricks社が主催する年次最大イベント「Data + AI Summit 2024」に参加しました。JDDでは、長年に渡ってデータ分析基盤プラットフォームとしてDatabricksを利用してきましたが、今回が初めてのData + AI Summit参加となりました。イベントから時間がたってしまいましたが、本記事を含めて全3回に分けて、「Data + AI Summit 2024」で得られた情報を紹介させていただきます。
Data + AI Summit とは
Data + AI Summit(以下DAIS)は、Databricks社が主催する年次最大イベントです。参加者数は年々増加しており、今年は世界中から16,000名以上(日本からは250名以上)が現地参加し、Databricksへの注目の高さがうかがえます。
今年は、2024年6月10日から6月13日まで米国サンフランシスコのモスコーニ・センターで開催されました(競合のSnowflake社が前週の6月3日から6月6日に同じくモスコーニ・センターでSnowflake Data Cloud Summitを開催しており、バチバチの様相を呈しています)。
イベント期間中には、基調講演、ブレイクアウトセッション、ミートアップ、トレーニングなど合計600以上のセッションが開催されました。想像以上に会場は広く、移動だけでもあっという間に時間が過ぎていきました。人気セッションは、当日キャンセル待ちの長蛇の列ができて、会場に入りきらず、入場を締め切るセッションもありました。またDAIS期間中には、Databricksの広告がそこかしこに掲げられ、イベントの活気が街中に満ち溢れていました。
基調講演の注目ポイント
DAISの3日目・4日目の2日間に渡って開催された基調講演は、Databricks共同創業者兼CEOのアリ・ゴディシ氏を中心に主要なアップデート、デモ、顧客事例などが発表されました。講演開始前から入場の列が並び、会場は派手なライトアップで照らされ、異様な盛り上がりを見せていました。
以下では、基調講演の発表内容をいくつか紹介いたします。
100% Serverlessの発表
基調講演の中で個人的に一番注目したのは、「100% Serverless」です。
Databricksは、SaaSサービスであるにも関わらず、顧客クラウド環境のクラウドストレージやコンピュート資源を利用するというユニークな構成でサービス提供してきました。これにより、ユーザーはデータを顧客側に配置し、一定のコントロール下において、SaaSサービスのメリットを享受できるものでした。数年前から、このようなインフラ管理の複雑性を排除し、管理を容易にするため、SaaS側でコンピュート資源を提供するServerless機能の提供が始まりました。年々Serverless機能のカバー範囲が広がっており、今回の発表では、クラウドストレージも含めたすべてのサービスをServerless機能で提供することが可能となりました。これによりDatabricksを利用するために、顧客はAWS/Azure/Google Cloudのクラウド・インフラを管理する必要がなくなります。
ただ、会社のセキュリティポリシーで、データを自社のコントロール下に置いておきたい企業があるのも事実です。Databricksには、顧客側でデータをコントロールしたいユーザーもいることを意識して、引き続き投資・サポートを継続いただきたいと感じます。その一方でインフラ運用を削減し、必要時のみコンピュート資源をスピーディーに利用できるメリットが大きいのも事実です。Databricksでは、厳しいセキュリティ基準を適用し、データアクセスを厳重に保護しています。これらの技術動向を継続調査し、有効性・リスクを評価した上で、取り入れていくことも真剣に検討していく必要があるでしょう。
Tabular社買収とUniFormのGA
DAIS開催前週の6月4日に、Databricks社によるTabular社買収という大きなニュースが発表されました。
データレイクを支えるテーブルフォーマット技術 Open Table Format(OTF)には、Delta Lake(Databricksが開発)、Iceberg、Hudi という3つの主要フォーマットがあります。Tabular社は、Icebergのオリジナルクリエイターが創設した企業です。
アリ・ゴディシ氏は、基調講演でUSBストレージになぞらえて、データ保管すれば、どこでもデータにアクセスできるオープンな世界観を語りました。Tabular社の共同創業者であるライアン・ブルー氏も基調講演に登場し、Delta LakeとIcebergの相互運用性を高めて、Delta LakeとIcebergが単一の規格・同じ方向へ向かっていくことが語られました。これらを実現する機能として登場したのが、Delta Lake UniFormです。データの単一コピーを書き込むだけで、3つのOTFをサポートする任意のエンジンからアクセス可能になるのです。これまでデータのサイロ化の一因であったフォーマットの壁がなくなり、シームレスにデータへアクセスできる時代が到来するかもしれません。
Unity Catalogのオープンソース化を発表
Databricksのデータ・ガバナンス・ソリューションであるUnity Catalogについて、アリ・ゴディシ氏は、最重要の開発プログラムであると述べられました。Databricksの発表資料には、常にData Intelligence Platformを支えるベース機能として登場してきますが、そのUnity Catalogをオープンソース化するという大きな発表がありました。
基調講演2日目に登場した共同創業者兼CTOのマテイ・ザハリア氏は、Unity Catalog Tシャツをアピールしながら、Unity Catalogオープンソース化について90日後だと思っていないかと話し始めると、いきなり壇上でUnity CatalogのGitHubリポジトリをパブリック公開する、という憎い演出を行いました。この様子に会場は大いに盛り上がりました!
Unity Catalogのオープンソース化については、こちらで詳しく説明されていますが、今後オープンソースコミュニティでさらに発展し、さまざまなアップデートがもたらされることを期待したいです。
生成AI関連のアップデート
基調講演において、生成AIに関するアップデートはやはり多かった印象です。発表内容からは、すでにAIモデルのPoCフェーズではなく、AIモデルの本番運用へいかにスピーディーに移行していくかを実現する機能を揃えているように感じました。
Mosaic AI Model Training Fine-tuning:ノーコードでOSSモデルの微調整を実行
Mosaic AI Tool Catalog:Unity Catalogに統合されたツール群でAIエージェントに利用
Mosaic AI Agent Framework:本番運用レベルのエージェント開発・デプロイ
Mosaic AI Agent Evaluation:生成AIアプリのフィードバック収集・評価
Mosaic AI Gateway:レート制限、使用状況、ガードレール、トレース機能などを提供
また既存サービスに生成AIを組み込んだアップデートとして、Databricks AI/BIの発表がありました。AI/BIにより自然言語を使用してダッシュボードを迅速に構築できるようになっただけでなく、Genieを利用してインタラクティブにデータ分析を行ってインサイトを得られるというものです。
生成AI関連のアップデートは、昨年Databricksが買収したMosaic AIのサービス統合による部分が大きいと思われます。他にも昨年買収したArcionのサービスもLakeFlowとして発表するなどサービス統合のスピード感に圧倒されました。今後も企業買収を通じたDatabricksのアップデートにも注目していきたいです。
NVIDIAとのパートナーシップ強化
基調講演で最も盛り上がりを見せたのは、NVIDIA社の創業者兼CEOのジェンスン・フアン氏の登場でした。アリ・ゴディシ氏「5年前に時価総額3兆ドルになると思っていました?」、ジェンスン・フアン氏「もちろんですよ」という会話で始まった二人の対談は、Databricks社とNVIDIA社の友好関係を感じさせるものでした。
講演において、DatabricksはNVIDIAと連携して、Photonエンジン処理にGPUアクセラレーションを組み込んでいくことを発表しました。Photonは、C++で開発された次世代クエリエンジンで、既存のSparkコードを改修することなく、パフォーマンス向上を実現する機能です。NVIDIAと連携して、DatabricksのPhotonエンジン上でのコアデータ処理をさらに高速化していくというものです。ジェンスン・フアン氏は「これは大きな発表ですよ!」という言葉に続けて、「NVIDIAとDatabricksのパートナーシップで、AI分野のスキルを組み合わせて、それを皆さんにお届けします」という強いメッセージが届けられました。
以降では、個別セッションで発表された内容をいくつか紹介いたします。
Unity Catalogによるアクセス制御
Databricksにおいてデータガバナンスを司る機能がUnity Catalogです。Unity Catalogの全体感を知りたい方は、まず「Technical Deep Dive for Practitioners: Databricks Unity Catalog from A-Z」をご覧になっていただくことをお勧めします。Unity Catalogの基礎から説明が始まり、メタストア構成、カタログ分離の考え方、アクセス制御、Unity Catalogを利用したAIアセットの探索・活用方法までデモも交えながら、盛りだくさんの内容でした。以下のDatabricksにおけるUnity Catalog管理のベストプラクティスの説明もあり、一通り知識を習得された方も、改めて見直すと良いおさらいになることは間違いないでしょう。
Roleはグループにアサインする
組織ガバナンスに合わせてRoleをアサインする
カタログレベルストレージを使用する
マネージドテーブルを利用する
オブジェクト作成時にタグを付与する
オブジェクトにコメントを付与する
監査にSystem Tablesを利用する
責務に応じてカタログを分離する(環境・部門など)
必要に応じてカタログバインディングを利用する
SDLC/部門全体で単一のメタストアを利用する
クラウドプロバイダ/リージョン間連携にDelta Sharingを利用する
講演の後半で紹介された権限付与のアーキテクチャーパターンは、Unity Catalogの設計を行っている方には有用であると感じました。私自身、当社のUnity Catalog移行を進める中で、どのような責任分担にするか答えがない中で、権限設計を行うのに大変参考になりました。このようなDatabricksのリファレンス・アーキテクチャーの各種パターン資料は、ぜひ今後も充実させていただけたらと感じます。
Unity Catalogの一番大きなアップデートは、ABAC(Attribute Based Access Control)でしょう。「Attribute-Based Access Controls in Unity Catalog - Building a Scalable Access Management Framework」では、ABACの構成、デモ、ユースケースの紹介が行われました。
ABACは大きく3つの要素で構成されます。
属性: ロケーション(WorkspaceやIPなど)、Identity(ユーザー、グループなど)、タグ、時刻
ルール: 属性を使用して強制条件(ルール)を記述して、カタログ/スキーマ/テーブルに適用するもの。ルールタイプは4種類(行フィルター、カラムマスク、許可、拒否)。
継承: カタログ/スキーマ/テーブルなど上位階層に適用したルールは下位階層リソースに適用される
下図は、phoneタグが付与されたカラムをマスク化するというルールを、business_unitカタログに適用する例です。この場合、business_unitカタログ配下の全リソースにルールが継承して適用され、txn_dataテーブルをSELECTすると、cell_phoneカラムはマスク化された結果が表示されるようになります。このようなPIIデータ保護以外にも、時間制限付きアクセス、リージョンベースのアクセス保護などのユースケースもあるでしょう。これまでのUnity Catalogのアクセス制御だけでは実現できなかったことが、ABACにより実現する可能性が広がっており、新たなユースケースを探っていきたいです。
Serverless機能のアップデート
Serverlessについてご存知でない方は、まず「Practitioners Guide to Leveraging Serverless Compute on Databricks」を見れば、従来のクラシック・コンピューティングとServerlessとの違いを理解することができるでしょう。基調講演の紹介でも説明した通り、従来の方式では、顧客側のクラウド基盤にストレージ・サーバーを用意して、データ処理を行っていました。しかし、Serverlessでは、Databricksアカウント側で提供されるサーバー資源を利用して、データ処理を行うことになります。従来方式では、顧客がVPC等のリソースを構築するため、外部との通信ポリシーや権限統制をきめ細かく設定・監視することができました。Serverless方式では、これらの制御がDatabricksにコントロールされることになります。ただし、Serverlessによって、インフラ構築・運用負荷、クラスターのチューニング、Databricksランタイムのアップグレード、アイドル時間削減、クラスタースタートアップ時間を高速化するというメリットもあります。さらに、Private Link経由での顧客VPC内リソースへのアクセス、Egress通信コントロール(IPアドレス・ドメイン指定)といったセキュリティ面の強化にも取り組まれています。
AT&T社の事例「AT&T's Journey Towards a Serverless Data Intelligence Platform」は、規制業界において、どのようにServerless機能の採用に至ったかという大変興味深い内容でした。この発表では、3つのポイントに分けて、Serverlessがどのようにリスクを低減しているのか説明されました。まず1点目のユーザーからDatabricksへのアクセスは、MFA認証、および、Private Link通信・IP制限技術を使用して不正アクセスを防いでいます。2点目は、テナント毎に占有VMとネットワーク構成で環境分離を行い、Control PlaneとPrivate Linkを介してmTLSでWorkspace IDが認証することで、データ漏洩を防いでいます。3点目のクラウドストレージへのアクセスは、Worksapceからのアクセスのみを許可し、許可されないクラウドストレージへの書き込みを禁止することで安全性を確保しています。規制業界におけるServerless導入事例が増えることで、金融業界でのServerlessの利用が促進されるかもしれないと感じました。
基調講演の「100% Serverless」を実現するためにキーとなる技術は、「Default Storage: Fast Track to Databricks Data Intelligence Platform」で紹介されました。これまでのServerless構成では、クラウドストレージだけは顧客側で準備する必要がありました。このクラウドストレージさえも取り除いて、シンプルな構成にするために導入されたのが「Default Storage」です。講演では、Default Storageを利用してワークスペースをセットアップするデモが実演されました。ワークスペース名とリージョンを指定するだけで一瞬にしてワークスペース構築が完了するというものでした。
Default Storageで一番気になるポイントがセキュリティです。どのようなセキュリティ強化策が取られているのかについても説明がありました。顧客管理キーからファイルレベルまで階層的に暗号化を行っており、適切なワークスペースからの適切なユーザーのみがデータにアクセスするように安全に保護されます。
将来的には、Default Storageでバックアップ/災害対策、ライフサイクル/階層化、パフォーマンス最適化などのアップデートも取り組んでいく予定とのことでした。今後ますますDatabricksによる運用管理機能の拡充を計画しているようです。講演では、コストに関する情報は説明ありませんでしたので、今後のアップデートと合わせて注目していきたいです。
コストとオブザーバビリティ
「Simplifying Lakehouse Observability: Databricks Key Design Goals and Strategies」では、Databricksが提供するオブザーバビリティ機能について説明がありました。Databricksのオブザーバビリティ機能の中心にあるのは、「System Tables」です。System Tablesは、Unity Catalog以降に導入された機能で、Databricksによって管理されるテーブルです。コスト情報や監査、リネージュ、各種イベント等あらゆる情報を格納し、モニター・アクションに繋げることを可能にします。
この発表では、現在Public Preview中のSystem Tablesが3QにGA予定であること、そして、今後、以下のようなアップデートを予定していることが述べられました。いずれもシステム管理をしてく上で大変有用なアップデートです。
データ保持期間・ロケーションを調整可能となる
アラート・分析ツールとの更なる統合
System Tablesのテーブル拡充
特に3つ目のSystem Tablesのテーブル拡充では、今後どのようなテーブルが登場するのか、とても楽しみです。そのヒントとして、下図のスライドが表示されました。これらのSystem Tablesは、4つにグループ化する方針であることも述べられました。
Global dimension tables: ユーザー、ワークスペース、グループ等に関するテーブル
Product dimension tables: ジョブ、SQL Warehouse、モデル、Notebook、エンドポイント等に関するテーブル
Product fact tables: ジョブの開始/終了、SQL Warehouseのスケールアップ/ダウン等に関するテーブル
Centralized special purpose tables: コストや監視に関するテーブル
System Tablesから得られたデータを利用して、FinOpsを実現するツールとして紹介されたのが、「Lakeviewコスト・ダッシュボード」です。ダッシュボードを利用して、日次/月次/年次のコスト傾向を調査したり、ドリルダウンやTop-K分析など対話的な分析をすることが可能になります。アカウントコンソールからボタン1つでLakeviewダッシュボードを構築することが可能で、しかもDatabricks提供のダッシュボードなので、新しい機能への追随をしっかり対応してくれると想定されます。さらに、Lakeviewダッシュボードなので、ユーザー側で自由にカスタマイズして利用することもできる点も嬉しい点です。またPublic Previewリリースされた「予算アラート機能」についても紹介がありました。アカウントレベルもしくはワークスペースでタグと組み合わせて、月次コストの予算超過時にはメール通知することが可能になります。
これまで述べてきたコストは、あくまでもDatabricksのコストのみでした。100% Serverlessを利用しない限りは、AWS/Azure/Google Cloud等のクラウドインフラ含めてモニタリングしていく必要があります。このインフラコストも含めた監視を実現する機能が、「Lower TCO and Increased ROI: Managing Your Databricks Costs」で紹介されました。Private Preview中の「Infra Cost System Table」という機能で、AWS Cost ExplorerのEC2のコストデータを取り込むというものです。将来的には、他のAWSクラウドサービスにも対応予定で、TCOの把握を可能にすることを計画しているようです。
コストモニタリング観点では有用なアップデートがリリースされていると感じましたが、今後はコストガバナンス観点の機能アップデートにも期待したいです。例えば、汎用クラスターやジョブクラスターについては、クラスターポリシーでガバナンスを効かせることが可能ですが、その他リソースについて現状コストガバナンスを効かせることは難しいと感じています。これらのアップデートにも今後期待していきたいと思います。
関連記事
さいごに
本記事では、Data + AI Summit 2024 の様子や参加セッションの情報を紹介させていただきました。
DAISへの参加を通じて、多数の最新機能アップデートについて学ぶ良い機会となりました。また、改めて自社のデータ分析基盤がDatabricksの機能を使い切れていないことを痛感いたしました。会社のセキュリティポリシー等の制約で、すぐに利用できない機能もありますが、Databricksはアップデートが早いので、しっかりリクエストを上げつつ、データサイエンティストらに役立つ新機能の試行・検討を続けていく必要があると感じました。
最後までご覧いただきまして、どうもありがとうございました。
Japan Digital Design株式会社では、一緒に働いてくださる仲間を募集中です。カジュアル面談も実施しておりますので下記リンク先からお気軽にお問合せください。
この記事に関するお問い合わせはこちらにお願いします。