Databriks summit 2024 文字起こし
Data + AI Summit Keynote Day 1 - Ali Ghodsi, Co-founder and CEO of Databricks
https://www.youtube.com/watch?v=-6dt7eJ3cMs&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=1
このビデオは、Databricksの共同創設者兼 CEO である Ali Ghodsi 氏による、Databricks の Data + AI Summit での基調講演です。Ghodsi 氏はスピーチの中で、データと AI の重要性、企業がこれらのテクノロジーを導入する際に直面する課題、そして Databricks がどのように支援できるかについて説明しています。
ビデオからの主なポイントは以下の通りです。
Databricks は、データと AI を扱う組織を支援する企業です。
データと AI を活用してビジネス成果を向上させたいという企業が増えています。
多くの企業は、AI を始める方法や AI モデルを本番環境に投入する方法で苦労しています。
Databricks は、これらの課題を解決するためのプラットフォームを提供します。
Databricks プラットフォームには、Unity Catalog、Delta Lake、Mosaic AI、サーバーレスオプションなどのツールが含まれています。
Unity Catalog を使用すると、ユーザーは自然言語で質問をし、データから回答を得ることができます。
Mosaic AI は、AI モデルの構築、トレーニング、デプロイを支援するツールです。
Databricks は最近、プラットフォーム全体がサーバーレスオプションで利用可能になったことを発表しました。つまり、ユーザーはクラスタやインフラストラクチャの管理を心配する必要がなくなりました。
Patrick Wendell, Co-founder and VP of Engineering on Building Production-Quality AI Systems
https://www.youtube.com/watch?v=acIBdCOj88E&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=3
この動画は、本番品質のAIシステムを構築する方法について説明しています。Databricksの共同創設者兼エンジニアリング担当副社長であるPatrick Wendell氏は、汎用AIモデルを活用して企業データを組み込み、より良く、より役立つAIシステムを作成する方法について説明しています。
主なポイントは以下の通りです。
一般知能からデータ知能へ: 汎用AIモデルは一般知識を理解するのに優れていますが、特定のタスクに役立つモデルを作成するには、会社や業界に固有のデータを追加する必要があります。これにより、モデルはより正確で関連性の高い出力を生成できます。
AIシステムを複合システムにモジュール化: 大規模なAIシステムを、より小さく専門化されたモジュールに分割します。これにより、各ステップの品質を向上させ、システム全体のレイテンシーを潜在的に向上させることができます。
Mosaic AIプラットフォームを使用する: DatabricksのMosaic AIプラットフォームは、これらの複合AIシステムの構築と展開を支援するように設計されています。モデルの構築とカスタマイズ、品質の評価、本番環境へのデプロイのためのツールを提供します。
講演者は、これらのポイントを説明するためにいくつかの例を使用しています。 1つの例は、金融データ会社であるFactSetです。FactSetは、顧客からの自然言語クエリをFactSetが内部的に使用する特定のクエリ言語に変換できるシステムを作成したいと考えていました。彼らは汎用AIモデルを使用しようとしましたが、十分に正確ではありませんでした。FactSetの特定のデータと検索および取得ツールに調整されたモデルを含む複合AIシステムを構築することにより、FactSetははるかに正確なシステムを作成することができました。
もう1つの例は、ストック画像を販売する会社であるShutterstockです。Shutterstockは、顧客向けにカスタム画像を生成できるモデルを作成したいと考えていました。彼らは、汎用AIモデルではできなかったであろう、独自の膨大な画像データセットでモデルをトレーニングすることで、これを行うことができました。
この講演では、AIシステムの品質を評価する方法と、Databricksのツールを使用してAIシステムを本番環境にデプロイして管理する方法についても説明されています。
The Best Data Warehouse is a Lakehouse
https://www.youtube.com/watch?v=UcdFPRT_sG8&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=4
この動画は、Databricks SQLがデータウェアハウスとして最適な理由について説明しています。Databricks SQLは、データレイクとデータウェアハウスの利点を兼ね備えた「データレイクハウス」であることが強調されています。
動画の中で、Databricks SQLが従来のデータウェアハウスよりも優れているとされる主な点は以下の通りです。
データウェアハウスの核となる機能を備えている: Databricks SQLは、完全なNC SQLサポート、マテリアライズドビュー、ロールベースのアクセス制御など、データウェアハウスに不可欠な機能を備えています。
すぐに使える高いパフォーマンス: Databricks SQLは、予測IOや自動ワークロード管理などの機能により、従来のデータウェアハウスよりも低コストで高いパフォーマンスを提供します。
使いやすさ: Databricks SQLは、AIによるエラーメッセージや自動修正機能など、アナリストやビジネスユーザーにとって使いやすいように設計されています。
さらに、Databricks SQLは様々なデータウェアハウスやビジネスインテリジェンスツールと統合することができます。
動画全体を通して、Databricks SQLは、従来のデータウェアハウスよりも優れたソリューションであると主張されています。Databricks SQLは、データレイクとデータウェアハウスの両方の利点を備え、パフォーマンス、使いやすさ、コストの面で優れています。
Jensen Huang, Founder and CEO of NVIDIA with Ali Ghodsi, Co-founder and CEO of Databricks
https://www.youtube.com/watch?v=SAsoWmMhX3Q&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=5
この動画は、NVIDIAの創設者兼CEOであるジェンスン・フアン氏と、Databricksの共同創設者兼CEOであるアリ・ゴドシ氏による対談です。彼らは、AIの未来と、企業がどのようにAIに取り組むべきかについて議論しています。
主なポイントは次のとおりです。
ジェンスン・フアン氏は、企業は膨大な量のデータを持っているが、そこから洞察を得る方法を知らないと考えています。彼は、オープンソースのモデルとツールを使用することで、すべての企業がAI企業になることができると述べています。
NVIDIAは、大規模な言語モデルの作成と展開を簡素化するNimsという新しい製品を作成しました。
ジェネレーティブAIは、将来のコンピューティングの主要な力となるでしょう。これにより、デバイスはインターネットから情報を取得する代わりに、独自の応答を生成できるようになります。これにより、多くのエネルギーが節約され、コンピューティングがより効率化されます。
アリ・ゴドシ氏は、企業がDatabricksのデータインテリジェンスプラットフォームを使用してAIに取り組むことを推奨しています。
ジェンスン・フアン氏はまた、モデルをトレーニングする前に、データガバナンスとデータ調整が重要であると考えています。
Fei Fei Li, Professor, Stanford University on the History and Future of AI at Data + AI Summit 2024
https://www.youtube.com/watch?v=Ctuhh8VqtfI&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=6
この動画は、スタンフォード大学の教授であるフェイフェイ・リー氏による、人工知能(AI)の歴史と未来、特に空間知能に焦点を当てた講演です。
リー氏はまず、多くの動物種が初めて化石記録に登場した歴史上の時期であるカンブリア爆発について論じます。この爆発は、動物が視覚を進化させ、新しい方法で環境を見たり、環境と相互作用したりできるようになったことが原因と考えられています。
次に、リー氏はカンブリア爆発と最近のAIの進歩を比較します。視覚が生物界におけるカンブリア爆発につながったように、AIが世界を見たり理解したりする能力は、イノベーションの新しい時代につながっています。
しかし、リー氏は単に見るだけでは十分ではないと主張します。世界を真に理解するには、AIは3D空間で推論し、相互作用できる必要があります。これがリー氏が「空間知能」と呼ぶものです。
リー氏のスタンフォードのチームは、空間知能を持つAIの開発に取り組んでいます。彼らは、2D画像を3Dモデルに変換できるアルゴリズムと、テキストの説明から3D空間を生成できるアルゴリズムを作成しました。
リー氏は、空間知能はAIの未来にとって不可欠であると考えています。これにより、AIはより自然で有益な方法で世界と対話できるようになります。たとえば、空間知能を備えたAIは、手術室で外科医を支援したり、麻痺のある人がロボットの四肢を制御したりするロボットの開発に使用できます。
リー氏は、常に人間中心のAIの開発を呼びかけて講演を締めくくります。彼女は、AIは人間の尊厳を尊重しながら、人間の生産性を増大させ、強化するために使用されるべきだと考えています。慎重な開発により、AIは世界で善のための強力なツールになることができるとリー氏は信じています。
Ken Wong, Sr. Director of Product Management at Databricks on Bringing AI to Business Intelligence
https://www.youtube.com/watch?v=Tde4xAEFVAM&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=7
このビデオは、Databricksのシニアプロダクトマネージャーであるケン・ウォン氏が、AIとビジネスインテリジェンスの融合について講演するものです。
ウォン氏はまず、データブリックスの使命は「データとAIを誰もが使えるようにすること」であると述べています。しかし、現在、ほとんどの人にとってデータを使うということは、レポートやダッシュボードを使うことを意味しています。ダッシュボードは便利ですが、新しい質問が出てくると、ダッシュボードを更新する必要が生じ、時間がかかってしまいます。
そこで、DatabricksはAIを使ってこの問題を解決しようとしています。しかし、従来の方法は、汎用的なLLM(Large Language Model)をBIツールに組み込むというものでした。LLMは質問に答えることができますが、データの汚れやビジネスドメインに特有の用語などには対応できません。
そこでDatabricksが開発したのが「Data Bricks AI」と呼ばれる新しいソリューションです。Data Bricks AIは、ジェニーと呼ばれる会話型インターフェースと、ダッシュボードを作成するためのツールであるAIビルダーで構成されています。ジェニーは、チャットでアナリストに質問するように、自然言語でビジネスに関する質問を入力することができ、可視化されたクエリで答えてくれます。また、ジェニーは継続的に学習し、ユーザーが質問した内容を記憶して、より良い回答を提供していきます。
AIビルダーは、ドラッグアンドドロップで簡単にダッシュボードを作成することができ、他のユーザーと共有することもできます。ダッシュボードには、ドリルダウンやクロスフィルタリングなどの機能も備わっています。
要するに、Data Bricks AIは、AIを活用してビジネスインテリジェンスをより簡単に利用できるようにするツールなのです。
Building an Insights Factory at General Motors - Data + AI Summit 2024
https://www.youtube.com/watch?v=pKdZqKG9NPs&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=8
このビデオは、ゼネラルモーターズ (GM) がいかにして「インサイトファクトリー」を構築し、自動車の安全向上を目指しているかについてのスピーチです。
スピーチでは、まず GM が直面している課題が説明されます。GM は膨大な量のデータを保有していますが、そのデータがサイロ化されており、必要な情報を取得するのに時間がかかっていたり、困難を伴うことがありました。また、GM は自動運転車やコネクテッドカーなど、新しいモビリティソリューションの開発にも取り組んでおり、これらを実現するためには AI や ML を活用することが不可欠でした。
そこで GM は、データサイロを解消し、AI/ML の活用を促進するために「インサイトファクトリー」を構築することにしました。インサイトファクトリーは、データの収集、加工、分析、可視化を行うためのエンドツーエンドのシステムで、Databricks上に構築されています。
インサイトファクトリーを構築するにあたっては、いくつかの課題がありました。まず、インサイトファクトリーは複雑なシステムであり、構築には多大な時間と労力が必要でした。また、GM にはすでに AI や ML を活用している部署がいくつかありましたが、バラバラに存在しており、連携が取れていませんでした。
しかし、GM はこれらの課題を克服し、インサイトファクトリーを構築することに成功しました。インサイトファクトリーを活用することで、GM は自動車の安全向上に役立つような insights をより早く取得できるようになりました。
スピーチの最後では、GM で働くよう呼びかけるメッセージが込められています。GM は、世界を変える意欲のある人材を求めています。
Building and Deploying GenAI Apps at Block with Jackie Brosamer, Head of AI, Data & Analytics
https://www.youtube.com/watch?v=KlRTh8vdhHE&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=9
ジャッキー・ブローサマー氏 (ジョッキ―・ブラーと字幕にありますが、おそらく発音的にはジャッキー・ブローサマーの方が近いと思われます) 、ブロック社の AI データおよびアナリティクスのプラットフォーム エンジニアリング責任者が、Databricks プラットフォームを使用して AI を実際のビジネスインパクトに活用するまでの道のりについて説明します。
ブロック社は、Square、Cash App、Tidal、TBD などのさまざまな事業を展開しており、データプラットフォームチームはこれらすべてをサポートできる柔軟なプラットフォームを構築する必要がありました。
特に重要だったのが、ジェネレーティブ AI の活用です。ジェネレーティブ AI とは、新しいコンテンツを生成したり、既存のコンテンツを修正したりすることができる AI 技術です。ブロック社では、Square の自動メニュー作成など、顧客に時間を還元するジェネレーティブ AI の活用事例を紹介しています。
ジェネレーティブ AI 以外にも、コード生成やワークフロー自動化など、内部業務の生産性を向上させるユースケースにも注力しています。
ブロック社の AI 戦略は、主に 3 つの柱で構成されています。
フェデレーションの活用: モデルを入れ替えることができるように、統一されたインターフェースを構築すること。
アジリティの重視: 将来的にモデルの呼び出し方法が変わることを想定し、柔軟に拡張できるプラットフォームにすること。
セキュリティの確保: 金融機関として、機密性の高いデータを保護しながら新しいユースケースに活用できるようにすること。
ブロック社は、Databricks の Mosaic AI 機能を活用して、オープンソースモデルとプロプライエタリモデルを簡単に比較・切替することができるほか、オープンソースモデルを自社データで微調整することもできます。
さらに、Mosaic AI を使用することで、RAG パターン (モデルと一緒にコンテキスト情報を送信して、より関連性の高い結果を得るための手法) をプラットフォーム内で実装することもできます。
この柔軟なプラットフォームを採用したことにより、ブロック社はジェネレーティブ AI アプリケーションのデリバリーリードタイムを 26% 短縮、開発者の生産性を 32% 向上させることができました。
その他
ブロック社は、Databricks プラットフォームを使用して、AI モデルを本番環境にデプロイし、管理しています。
ブロック社は、AI モデルをトレーニングするために、Databricks の Lakehouse データプラットフォームを使用しています。
ブロック社は、AI モデルを監視するために、Databricks の MLflow ツールを使用しています。
How to Make Small Language Models Work. Yejin Choi Presents at Data + AI Summit 2024
https://www.youtube.com/watch?v=OBkMbPpLCqw&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=14
この動画は、Data + AI Summit 2024で行われたYejin Choi氏による「小さな言語モデルをどのように機能させるか」という講演です。
Choi氏は、現在のAIモデルは学習データによって制限されており、AIの未来はAI合成データにあると主張しています。彼女は、小さな言語モデルを機能させるために彼女のチームが取り組んだ3つの「不可能なミッション」を紹介します。
1. 高品質な小型言語モデルを作成する
Choi氏と彼女のチームは、現在の大きな言語モデルのトレーニング方法は、常に利用可能なわけではない極端な規模の事前トレーニングと極端な規模の事後トレーニングに依存していると主張しています。彼らは、品質を確保するためにフィルター処理された合成データで小さな言語モデルをトレーニングする方法を提案します。この方法は、彼らの研究当時、最高の要約モデルであったGPT-3を打ち負かすことができました。
2. オフザシェルフコンポーネントを使用せずに、ChatGPT 3.5と文書要約で競争する
Choi氏と彼女のチームは、小さな言語モデルの合成データをフィルター処理するために、新しい情報理論蒸留方法を開発しました。この方法は、文書要約においてChatGPT 3.5と同等またはそれ以上の性能を達成することができました。
3. 古典的な統計n-gram言語モデルをニューラル言語モデルに関連付ける
Choi氏と彼女のチームは、兆単位のトークンに対して瞬時の応答時間でn-gram統計を計算できるinfinと呼ばれるシステムを構築しました。このシステムは、サフィックス配列データ構造を使用して、Webコーパス全体をインデックスし、任意のトークンまたはトークンシーケンスを検索するためにクエリできます。Infinは、ニューラル言語モデルと補間して、困惑度を改善するために使用できます。
Unity Catalog Demo of New Features with Zeashan Pappa at Data + AI Summit 2024
https://www.youtube.com/watch?v=o1EudtClHEk&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=15
この動画は、Data + AI Summit 2024で行われたZeashan Pappa氏によるDatabricks Unity Catalogの新機能のデモです。
動画では、カタログエクスプローラー、Lakehouse Federation、オープンAPI、強化されたガバナンス機能など、Unity Catalogの新機能が紹介されています。
カタログエクスプローラーは、テーブル、関数、モデル、ボリューム、その他のデータシステムをブラウズ、アクセス制御の適用、クエリするための統一されたインターフェースです。ユーザーは、Databricks内外のカタログ、テーブル、関数、モデル、ボリューム、その他のデータシステムをナビゲートして整理することができます。
Lakehouse Federationを使用すると、ユーザーはBigQuery、Glue、Hive、MySQL、PostgreSQL、Redshift、Snowflake、Azure SQLなどの外部システムからデータを安全にアクセスできます。
動画では、新しく作成されたテーブルをDatabricks SQL APIとDuckDBを使用してクエリする方法が示されています。ユーザーは、テーブルを外部アクセス用に選択し、DuckDBなどの使い慣れたツールを使用してクエリすることができます。
ガバナンスもこの動画で取り上げられている重要な機能です。Databricks Unity Catalogは、多様なデータとAI資産全体で一貫性のあるスケーラブルなポリシー施行を可能にします。動画では、タグとABACポリシーを予防的なPII監視と組み合わせてこれを実現する方法が示されています。たとえば、ユーザーはすべてのテーブルのすべての電子メール列をマスクするルールを作成できます。
全体として、この動画は、統一されたカタログエクスプローラー、Lakehouse Federation、オープンAPI、強化されたガバナンス機能など、Databricks Unity Catalogの新機能を強調しています。これらの機能により、ユーザーはデータがどこに存在していても、シームレスにアクセス、管理、ガバナンスすることができます。
The Future of Lakehouse Format Interoperability with Ali Ghodsi and Ryan Blue at Data + AI Summit
https://www.youtube.com/watch?v=U6rhhMb_494&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=16
この動画では、レイクハウス形式の相互運用性の未来について語られています。Databricksの共同創設者兼CTOのAli Ghodsi氏と、ソフトウェアエンジニアのRyan Blue氏が、データ形式の課題と相互運用性の重要性について議論しています。
Ghodsi氏は、データ形式の責任をDatabricksがプラットフォームとして引き受けることで、ユーザーが原子性などの複雑な問題に悩まなくて済むようにしてきたと述べています。次のステップは、選択の負担を減らし、すべてのユーザーが単一の標準に従って同じ方向に進むことだと考えています。また、テーブル形式やファイル形式について考える必要がなくなることで、ユーザーが本当に成し遂げたいことに集中できるようになると述べています。
Blue氏もこれに同意し、かつて多くの人が資産取引の仕組みを学ぶ必要があったことを振り返ります。
次に、Icebergの起源について触れます。Ghodsi氏は、Netflixで原子性やデータの正確性に関する問題に取り組んでいたと述べ、ユーザーの課題がフォーマットレベルに集中していたことを指摘します。その結果、より良いフォーマットを模索するようになり、オープンソース化によってコミュニティとの協力が可能になったと述べています。
Blue氏は、Parquetプロジェクトの経験がこの取り組みに影響を与えたとし、相互運用性についての議論は初めてではないと述べています。ファイルレベルを超えた問題もあり、両方のフォーマットが優れているため、協力することで重複作業を避けられると考えています。
最後に、Ghodsi氏は、IcebergコミュニティやDelta Lakeへの投資が、エンジニアリングの楽しみを提供するとして、今後の取り組みに期待を示しています。
Evolving Data Governance With Unity Catalog Presented by Matei Zaharia at Data + AI Summit 2024
https://www.youtube.com/watch?v=lZbmBAxa3O4&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=17
この動画は、Data + AI Summit 2024で行われたMatei Zaharia氏による「Unity Catalogでデータガバナンスを進化させる」という講演です。
講演者であるMatei Zaharia氏は、データガバナンスの課題、特にジェネレーティブAIにおける課題、そしてUnity Catalogがこれらの課題をどのように解決できるかについて説明します。その後、Unity Catalogのオープンソース化を発表します。
この動画の主なポイントは以下の通りです。
データガバナンスの課題には、セキュリティ、品質、コンプライアンス、新しい規制などが含まれます。
Unity Catalogは、これらの課題を解決できるデータガバナンスソリューションです。オープンソースであり、オープンな接続性と、データとAI全体にわたる統一されたガバナンスを提供します。
Unity Catalogを使用すると、任意のデータソースに接続し、セキュリティポリシーを設定し、品質を管理し、データを活用することができます。
Unity Catalogの新機能には、Lakehouse Federation、属性ベースのアクセス制御、Lakehouse監視などが含まれます。
Unity Catalogは現在オープンソース化されており、GitHubで入手できます。
Lakehouse Format Interoperability With UniForm. Shant Hovsepian presents at Data + AI Summit 2024
https://www.youtube.com/watch?v=NOs4z8AbYTQ&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=18
Announcing Unity Catalog Metrics with Live Demo. Matei Zaharia and Zeashan Pappa at Data + AI Summit
https://www.youtube.com/watch?v=OcHN6A0VUsc&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=19
この動画は、Data + AI Summit 2024で行われたMatei Zaharia氏とZeashan Pappa氏によるUnity Catalog Metricsの発表とライブデモです。
講演者であるZeashan Pappa氏は、Unity Catalog Metricsと呼ばれる新機能を紹介しています。これは、カタログに格納された生データとユーザーが持つビジネス上の質問のギャップを埋めるデータ管理ツールであるようです。
Unity Catalog Metricsの主なポイントは以下の通りです。
ユーザーはUnity Catalog内で指標を定義し、他のすべての資産と並行して管理することができます。
指標はガバナンス、検索、監査、および系統関係を持つことができます。
メトリクスをダウンストリームツールで自由に使用できるように、オープンなアプローチが採用されています。
複数のBIツールに対応し、最初からAIに優しい設計になっています。
ユーザーはSQLとテーブル関数を使用して利用することができます。
外部メトリクスプロバイダーとのパートナーシップを構築し、メトリクスの導入と管理を容易にする。
全体として、この動画の紹介は、Unity Catalog Metricsがビジネスユーザーの質問力、データ理解、意思決定の改善に役立つことを示唆しています。
Announcing Databricks Clean Rooms with Live Demo. Presented by Matei Zaharia and Darshana Sivakumar
https://www.youtube.com/watch?v=iLVK2CyWwzY&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=20
この動画は、Databricks Clean Roomsという、企業がプライバシーを保護しながらデータとAIを共同で利用できる環境について説明しています。
動画では、まずDatabricks Clean Roomsの概要を紹介しています。Databricks Clean Roomsを使用すると、企業は独自のデータとAIモデルを持ち込み、機密情報を共有することなく計算を共同で行うことができます。
次に、動画ではより詳細な説明とユースケースを紹介しています。ある大手小売業者のメディアチームは、サプライヤーと協力して共同広告キャンペーンを実施しています。どちらも顧客データを持っていますが、プライバシー上の懸念から直接共有することはできません。Databricks Clean Roomsを使用すると、彼らはデータを安全な環境に持ち込み、機械学習を使用してオーディエンスのセグメント化を共同で行い、基盤となるデータを明らかにすることなく結果を得ることができます。
動画で紹介されているDatabricks Clean Roomsの主な機能は以下の通りです。
プライバシー保護: 企業は、機密情報を共有することなくデータとAIを共同で利用できます。
クロスプラットフォーム: Databricks Clean Roomsは、さまざまなクラウドとデータプラットフォームで動作します。
さまざまなデータタイプのサポート: 企業は、構造化データだけでなく、非構造化データやAIモデルも持ち込むことができます。
機械学習のためのPythonサポート: Databricks Clean Roomsでは、ユーザーは機械学習タスクにPythonを使用できます。
Lakehouse Federation: Databricks Clean Roomsは、Lakehouse Federationテーブルに直接接続できるため、カスタムETLパイプラインの必要性がなくなります。
動画の最後では、Databricks Clean Roomsの利点を強調し、視聴者をオープンなエコシステムに参加するよう呼びかけています。
Data Sharing and Cross-Organization Collaboration. Presented by Matei Zaharia at Data + AI Summit
https://www.youtube.com/watch?v=AZkIxl4YuKs&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=21
この動画は、Data + AI Summitで行われたMatei Zaharia氏による「データ共有と組織間コラボレーション」という講演です。
講演者であるMatei Zaharia氏は、現代のデータ空間における企業間のデータ共有とコラボレーションの重要性について語ります。彼は、データ共有がプロバイダーとサプライヤーのより良い調整、ビジネスプロセスの合理化、さらには新薬の発売の迅速化にも役立つと述べています。
次に、彼はDatabricksのデータ共有とコラボレーションへのアプローチについて説明します。これは、オープンな標準に基づいたオープンなコラボレーションエコシステムに基づいています。このエコシステムの中核は、ユーザーがクラウドやデータプラットフォーム間でテーブルを安全に共有できるDelta Lakeの機能であるDelta Sharingです。ユーザーがデータとモデルを見つけて共有できるDatabricks Marketplaceは、Delta Sharingの上に構築されたもう1つのビルディングブロックです。
講演者は、Delta Sharingの成功を強調します。Databricksは、Delta Sharingを通じて16,000人以上の受信者にデータを配信しており、そのうち40%はDatabricksを利用していないため、プラットフォーム間のコラボレーションが示されています。講演者はまた、データウェアハウスやデータベースから任意のアプリとDelta共有プロトコルを理解する任意のアプリでデータを共有できるようになるエキサイティングな新機能についても言及しています。
Databricks Marketplaceは、もう1つの成功事例です。2,000以上のリストに成長し、クラウドで最大級のデータマーケットプレイスの1つと見なされています。講演者はまた、プライベートエクスチェンジ、非データ資産の共有、非データベースクライアントのサポートなどの新機能についても言及しています。最後に、講演者は、Axiom、Amperity、Atlassianなどの業界リーダーを含むデータ共有とマーケットプレイスのエコシステムに新しいパートナーを歓迎することについて語っています。
The Evolution of Apache Spark™ with Reynold Xin at Data + AI Summit 2024
https://www.youtube.com/watch?v=7_d3nUkMCJE&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=22
How Data Intelligence is Delivering Big Wins at Texas Rangers. Alexander Booth at Data + AI Summit
https://www.youtube.com/watch?v=LAxBP9TKuSI&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=23
この動画は、テキサス・レンジャーズの野球チームがデータインテリジェンスを使用して競争優位性を獲得する方法について説明しています。テキサス・レンジャーズで働くスピーカーの Alexander Booth 氏は、新しいデータシステムを導入する前に直面した課題と、導入後に見られた利点について説明します。
新しいデータシステムを導入する前に、テキサス・レンジャーズはいくつかの課題に直面していました。オンプレミスのデータスタックは、収集していたデータ量に対応できず、維持費が高額でした。さらに、データチームがサイロ化されていたため、情報共有やコラボレーションが困難でした。これにより、処理が遅くなり、断続的になったため、レポートが選手やコーチに翌日まで届かないことがよくありました。
テキサス・レンジャーズは、Databricks Lakehouse に新しいデータと AI スタックを導入しました。これにより、データサイロを統一し、ガバナンスと権限を強化することができました。また、このデータに基づいて数百の ML および AI モデルを構築しました。その結果、AI 向けのデータの取り込み量を 4 倍に増やし、同じコストで数百人のユーザーにデータと ML KPI への安全でガバナンスされたアクセスを提供し、選手に 10 倍速くデータインサイトを提供できるようになりました。スピーカーは、これをテキサス・レンジャーズが初めてワールドシリーズに勝利した理由の一部と考えています。
テキサス・レンジャーズがデータインテリジェンスを使用する 1 つの例は、バイオメトリクスの洞察です。彼らはデータと AI を使用して、プレーヤーの動きがボールの投げ方にどのように影響するかについての予測モデルを構築します。これにより、AI によってガイドされた設計されたピッチが生まれ、各ピッチャーに合わせてパーソナライズされます。バットを振るときの選手の動きをよりよく理解することで、特定の種類のヒットを最適化するための生物医学的推奨事項を提供できます。
テキサス・レンジャーズがデータインテリジェンスを使用するもう 1 つの例は、プレーヤーの追跡です。彼らは、メジャーリーグのすべての試合で、30 秒間に 1 回、すべてのプレーヤーの位置を継続的に追跡します。これにより、傾向、反応時間、野手が動く方法を理解することで、守備能力を測定する前例のない方法が提供されます。彼らは AI を使用して守備位置を最適化し、選手がアウトになる可能性を最大化します。
スピーカーは、生成 AI の使用方法についても説明しています。彼らは、この新しい分野でイノベーションを見つけるために時間と労力を費やしており、Databricks AI BI Genie を使用して、データへの自然言語インターフェースを提供しています。たとえば、Genie を使用して、サンフランシスコ ジャイアンツに将来のトレード価値がある可能性のあるプレーヤーがいるかどうかを確認できます。
Code-First Data Science with Tareef Kawaf, President, Posit Sofware, PBC
Databricks LakeFlow: A Unified, Intelligent Solution for Data Engineering. Presented by Bilal Aslam
https://www.youtube.com/watch?v=6rzQ6xjkYko&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=25
この動画は、Databricksの新しい製品であるData Lakeflowについて説明しています。Data Lakeflowは、データエンジニアリングのための統合されたインテリジェントなソリューションです。
講演者であるBilal Aslam氏は、従来のデータエンジニアリングでは、データの取り込み、変換、オーケストレーションのためにさまざまなツールを組み合わせる必要があったと述べています。これは複雑で、費用がかかり、非効率な場合があります。Databricks Lakeflowは、これらのすべてのタスクを単一のプラットフォームで提供することで、この問題を解決することを目指しています。
Databricks Lakeflowの主なコンポーネントは次のとおりです。
LakeFlow Connect: このコンポーネントを使用すると、Salesforce、SQL Server、エンタープライズアプリケーションなど、さまざまなソースからデータを簡単に取り込むことができます。
LakeFlow Pipelines: このコンポーネントを使用すると、SQLを使用してデータを変換できます。データ変換を簡素化するために、自動スキーマ進化やマテリアライズドビューなどの機能が含まれています。
LakeFlow Jobs: このコンポーネントを使用すると、データパイプラインとワークフローをオーケストレーションできます。ワークフローを構築するためのビジュアルキャンバスと組み込みのスケジューラが含まれています。
Databricks Lakeflowは、Delta LakeやUnity Catalogなどの他のDatabricks製品とも統合されています。これにより、データの来歴とセキュリティなどの機能を利用できます。
全体として、Databricks Lakeflowは、データエンジニアリングタスクを簡素化し、自動化する新しい製品です。現在プレビュー版ですが、Databricksはユーザーにサインアップしてフィードバックを提供することを奨励しています。
Preview of Apache Spark 4.0 and GA of Spark Connect with Reynold Xin at Data + AI Summit 2024
https://www.youtube.com/watch?v=v0_jdaOMuQQ&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=26
Recap of Announcements at Data + AI Summit 2024 with Ali Ghodsi, Co-Founder and CEO, Databricks
https://www.youtube.com/watch?v=FOuU9asaXE4&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=27
この動画は、Data + AI Summit 2024におけるDatabricksの共同創設者兼CEOであるAli Ghodsi氏による発表を要約したものです。
動画では、前日の発表には触れず、本日行われた以下の発表内容が紹介されています。
データエンジニアリング
Unity Catalogのオープンソース化
メトリクス(認定KPI)
Delta Lake 4.0
Project Uniformの一般公開
Announcing DuckDB Support for Delta Lake and a DuckDB Extension to Unity Catalog - Hannes Mühleisen
https://www.youtube.com/watch?v=wuP6iEYH11E&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=28
Open Sourcing Unity Catalog Live Onstage with Matei Zaharia at Data + AI Summit 2024
https://www.youtube.com/watch?v=EKlxztQZYrw&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=29
この動画は、DatabricksのプロジェクトであるUnity Catalogをオープンソース化するものです。
動画では、Data + AI Summit 2024で講演を行うMatei Zaharia氏が、Unity CatalogプロジェクトをGitHubで公開する手順を説明しています。
Zaharia氏はまず、GitHubの設定画面に移動し、プロジェクトを公開するオプションを見つけるまでスクロールします。プロジェクトを公開することの影響を理解していることを確認した後、公開ボタンをクリックして公開します。最後に、Unity Catalogプロジェクトはgithub.com/Unity-catalogでGitHubで見つけることができるようになったことを聴衆に伝えます。
Announcing Delta Lake 4.0 with Liquid Clustering. Presented by Shant Hovsepian at Data + AI Summit
https://www.youtube.com/watch?v=joy4jdYJg3c&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=30
この動画は、Delta Lake 4.0について説明しています。Delta Lake 4.0は、Liquid ClusteringとOpen Variantデータ型など、いくつかの新機能を導入した新しいバージョンのDelta Lakeです。
講演者であるShant Hovsepian氏は、動画の冒頭でDelta Lake 4.0とその新機能の重要性を強調しています。その後、彼は2つの重要な機能であるLiquid ClusteringとOpen Variantデータ型について詳しく説明します。
Liquid Clusteringは、さまざまなデータセットを操作しやすくするために設計された新しいデータレイアウト戦略です。手動パーティショニングの必要性を排除し、複雑でエラーが発生しやすい可能性があります。Liquid Clusteringは、書き込み速度が最大7倍、読み取り速度が最大12倍高速であると主張されています。
Open Variantデータ型は、半構造化データを格納するために設計された新しいデータ型です。半構造化データは、固定スキーマを持たないデータです。Open Variantデータ型を使用すると、柔軟性とパフォーマンスを備えたDelta Lakeに半構造化データを格納できます。Jsonデータを生の文字列として格納するよりも8倍速いと言われています。
全体として、Delta Lake 4.0は、Delta Lakeでのデータ操作を容易にするいくつかの新機能を導入した重要なリリースです。
The Evolution of Delta Lake from Data + AI Summit 2024
https://www.youtube.com/watch?v=zpx90QH0g0U&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=31
この動画は、DatabricksのShan氏による、人気のオープンソースLakehouse形式であるDelta Lakeの進化について説明しています。
動画では、Delta Lake 4.0で導入された新しい機能と機能について説明されています。主な内容は次のとおりです。
Delta Uniform: これはDelta Lake 4.0の新機能で、Delta、Iceberg、Hoodieなどの異なるLakehouse形式のデータを単一のAPIを使用して読み書きできるようになります。これにより、異なる形式間でデータを変換する必要がなくなり、時間と労力を節約できます。
Liquid Clustering: これはDelta Lake 4.0のもう1つの新機能で、データパーティショニングを簡素化します。従来、データパーティショニングは、パフォーマンス上の問題を回避するために慎重な検討が必要な複雑なタスクでした。Liquid Clusteringは、読み取りと書き込みのパフォーマンスを最適化するようにデータを自動的にパーティショニングすることで、この複雑さを解消します。
Open Variant Data Type: この新機能は、JSONなどの半構造化データをより効率的に格納して操作するように設計されています。柔軟性とパフォーマンスのバランスをとり、ユーザーはデータを元の形式で格納しながら、効率的にクエリできるようにします。
講演者はまた、Delta Lakeの成長と採用についても強調しています。Delta Lakeは現在、Fortune 500企業を含む多くの企業で使用されており、9エクサバイトを超えるデータを処理しています。講演者はまた、500人以上の貢献者とDelta Lakeをサポートするツールエコシステムの成長を伴う、Delta Lake周辺の活気あるコミュニティにも言及しています。
全体として、この動画は、Delta Lakeの最新機能と進歩について詳しく知りたい人にとって優れたリソースです。
What's Next for Apache Spark™ Including the Upcoming Release of Apache Spark 4.0
https://www.youtube.com/watch?v=S1B0J-uzSDE&list=PLTPXxbhUt-YXh57uL3QUQiKLwTf39IoT1&index=32
この動画は、Apache SparkとApache Spark 4.0の今後のリリースについて説明しています。
講演者は、3年前のApache Sparkの最大の課題は次のとおりであったと述べています。
PythonユーザーにとってSparkの使用が難しい
Sparkアプリケーションの依存関係管理とバージョンアップグレード
この講演では、Apache Sparkがこれらの課題にどのように対処してきたか、およびSpark 4.0の新機能について説明します。
Python on Sparkに関する重要なポイント:
SparkはScalaで書かれていますが、Pythonは現在第一級言語です。
Scalaでは利用できない多くのPython機能があります。
PyPI Statsによると、PypSparkは200以上の国と地域でダウンロードされています。
Databricksの顧客は、毎日50億件以上のPypSparkクエリを実行しています。
Spark 4.0に関する重要なポイント:
Spark Connectは、さまざまな言語がSparkに接続できるようにする主要なアーキテクチャ変更です。
Spark Connectにより、バージョンアップグレード、依存関係管理、非JVM言語バインディングの構築が容易になります。
Spark Connectは、sparklyRなどのフレームワークを可能にします。
Spark 4.0は今年後半に正式にリリースされる予定です。
Spark ConnectとNC SQLは、Spark 4.0の標準になります。