Databricksマーケットプレイスの紹介 〜 データソリューションのためのオープンマーケットプレイス
こちらのブログの翻訳です。6.28.2022
急ぎ翻訳したので修正する可能性があります。
データセット、ノートブック、ダッシュボード、機械学習モデルなどのデータプロダクトを交換するためのオープンマーケットプレイス、Databricks Marketplaceを発表します。データ利用者は、洞察(インサイト)を加速させるために、サードパーティベンダーからこれまで以上に多くのデータ製品を発見、評価、アクセスできるようになります。プロバイダーは、データ上で付加価値の高いサービスを提供することで、新しいサービスを商品化し、販売サイクルを短縮することができます。Databricks MarketplaceはDelta Sharingによって運営されており、消費者はDatabricksプラットフォームでなくともデータ製品にアクセスすることができます。このオープンなアプローチにより、データプロバイダーは消費者にベンダーロックインを強いることなく、アドレス可能な市場を拡大することができます。
このブログでは、既存のデータマーケットプレイスの主な制限と、Databricks Lakehouseプラットフォーム上のオープンマーケットプレイスに対する私たちのビジョンについて説明します。
既存のデータマーケットプレイスは、データプロバイダとデータ消費者のビジネス価値を最大化できていない
データ駆動型イノベーションを実現するためのサードパーティデータの需要はかつてないほど高まっており、データマーケットプレイスはデータプロバイダーとデータ消費者の橋渡し役として、データセットの発見と配信を促進する役割を担っています。しかし、企業がより多くのサードパーティデータを活用するにつれ、これらのプラットフォームが提供する価値は、プロバイダーと消費者の両方のニーズに追いついていないのが現状です。
データ利用者の課題
データ消費者は、データマーケットプレイスから簡単にデータを発見し、摩擦なくデータを評価できることに価値を見出します。
しかし、データセットのみを提供する既存のデータマーケットプレイスでは、データ利用者にとって重要な考慮点の1つである、データ周辺のコンテキストが欠落しています。現在のデータマーケットプレイスのほとんどは、データセットの簡単な概要と、いくつかのサンプルクエリを提供するのみです。このため、利用者はデータモデルを理解するのに時間を費やし、データ提供者のサポートチームとやり取りをしながら、自分たちの分析ニーズに合っているかどうかを判断しなければならず、フラストレーションがたまることがよくあります。
さらに、現在のほとんどのマーケットプレイスは、壁に囲まれた庭のような環境で機能しています。データ交換は自社のクローズドなプラットフォーム上でしか行えず、場合によっては自社独自のデータフォーマットでしか行えません。サードパーティのツールやプラットフォームからデータにシームレスにアクセスできる選択肢は限られており、データ利用者はそのプラットフォームを利用せざるを得ないため、ロックインが発生してしまうのです。
データ提供者の課題
データプロバイダーにとって成功の重要な指標は、売上の増加と運用コストの削減です。しかし、ほとんどのデータマーケットプレイスは、この2つの指標に欠けています。
既存のデータマーケットプレイスでは、データプロバイダーはデータセットをパッケージ化して配布することしかできません。また、ほとんどのマーケットプレイスでは、データセット製品のプロフィールを補強するために、プロバイダーは簡単な説明文やコンテキストに基づかないクエリの例しか提供できない。データ利用者は、これらのデータセットを評価するために多大な労力とコストを費やすことになります。その結果、面倒なオンボーディングや不必要に長い販売サイクルが発生し、最終的には収益の機会損失となります。
さらに、多くのデータマーケットプレイスでは、データプロバイダーに対して、データを自社独自のフォーマットにロードし、自社の計算能力を活用し、顧客が運用するさまざまなクラウドや地域にデータを複製するよう求めています。このため、クラウドプロバイダーや地域間の公平性を保つためにシステムに可動部品が増え、計算コストと運用負荷が急速に増加しています。データセットの数と量が増えるにつれ、データプロバイダーはこれらのコストとトレードオフの判断を考慮しなければなりません。データプロバイダーによっては、商品化するためのコストが増大するため、潜在的に価値のあるデータセットの優先順位を下げるという決断を迫られるかもしれません。
Databricks Marketplaceでビジネスバリューを引き出そう
Databricks Marketplaceの背後にあるビジョンは、これらの問題に対処し、データ消費者とデータプロバイダーがビジネス目標を達成するのを支援することです。
データ利用者のメリット
インサイトを得るまでの時間を短縮
Databricks Marketplaceでは、データ利用者はデータセットだけでなく、ダッシュボード、ノートブック、MLモデルなどのデータ資産にアクセスすることができます。これにより、データ利用者は簡単にデータを評価することができ、洞察を得るまでの時間を短縮することができます。例えば、データ利用者はスターターノートブックを活用して探索的なデータ分析を行ったり、機械学習モデルを活用してデータセットの将来のランキングを予測したりすることができます。データへのアクセスを要求する前に、Databricksがホストするダッシュボードによって、お客様は追加費用なしでデータをライブで探索することができます。これらにより、評価、取得、分析のサイクルが短縮され、データからより多くの価値を得ることができます。
オープンマーケットプレイス
Databricks MarketplaceはDelta Sharingを採用しており、データ利用者はDatabricksプラットフォームでなくてもデータ製品にシームレスにアクセスすることができます。ロックインはなく、消費者が選択したツールからデータの価値を最大化するための選択肢を提供します。
データプロバイダーにとってのメリット
多様なデータ製品の配布と収益化
Databricks Marketplaceでは、データセットだけでなく、ノートブック、ダッシュボード、モデルなど、データセットの価値を最大限に引き出すために必要なデータプロダクトを販売・配布することができます。
例えば、あるプロバイダーがESG(Environmental Social and Governance)データを販売しているとしよう。プロバイダは、データがどのようにNLP分析に利用できるかを示すノートブック、最悪の汚染企業を視覚化するダッシュボード、共有されたESGデータが企業のESGランキングがいつ変化するかを推奨するモデルをデータとともにパッケージ化することができるのです。既存のデータマーケットプレイスでは、プロバイダがこれらの非常に価値の高い資産をすべて共有することは容易ではありません。
データプロダクトのリーチを広げる
Databricks Marketplaceを利用することで、データプロバイダーはDatabricksプラットフォームを利用している消費者以外にもアドレス可能な市場を拡大することができます。これにより、データプロバイダーは自社のデータ製品の潜在的な収益を高めることができます。
データプロダクトの複製は不要
Databricks Marketplaceでは、データプロバイダーはデータ製品をクラウドストレージから移動したり複製したりすることなく共有することができます。これにより、プロバイダはデータ製品を他のクラウド、ツール、プラットフォームに単一のソースから配信することができます。プロバイダーは、必要に応じてデータ製品の複製を選択することができますが、複製を強制されて追加コストが発生するのと異なり、選択するオプションがあります。