🧱Databricksの生成AI機能をまとめてみた
前回の記事では、Snowflake視点での生成AI機能のまとめを書いたので、今回はDatabricks視点での生成AI機能をまとめていきたいと思います☺
👣Databricksの歩み
Databricksは2013年に設立されました。Apache Sparkの開発に携わったカリフォルニア大学バークレー校のプロジェクトから生まれたこともあり、共同創業者はなんと7人(!)もいます。
その中でも、対外的な発信で良く見かける(と個人的に思う)のは
CEO - Ali Ghodsi と Chief Architect - Reynold Xin のお二人です。
Aliはイランの裕福な家庭の出身で、彼が子供の頃からイラン・イラク戦争の後に続いた革命に巻き込まれ、富裕層だったAliの家族は迫害の対象となってしまったそうです。
そこで一家揃ってスウェーデンに移住し(亡命という言い方のほうが正しいかもしれません)博士課程までをスウェーデンで過ごします。エンジニアとして非常に優秀だった彼はカリフォルニア大学バークレー校に招聘され、2009年からベイエリアを拠点としています。
そこで共にSparkを開発する仲間と出会います。当初はオープンソースプログラムとして多くの企業に素晴らしい効果を実感してもらいたいという純粋な気持ちで配布し始めたそうですが、皮肉なことに無料では逆に利用してもらえず、スタートアップとして再出発し収益化をはかることにしたそうです。
興味深いのは、2013年のDatabricks設立から数年の間に、AWSやClouderaなどの大企業がSparkの革新性に気づき、Databricksを介してではなく(オープンソースプログラムとして提供していたため)自社製品にSparkを取り入れてしまってたことです。
優秀なエンジニアたちのピュアな思いから無料で配布されたプログラムが、産みの親である開発者たちよりも早く大手の収益化に使われていたと思うと、なんだかやるせないですね…
しかし、創業者たちと同じく優秀で先見の明のあった投資家たちのサポートにより、Databricksの技術資産を保守・成長させつつビジネスとしても進化させるための取り組みが多く行われてきたようです。
また、AWSの競合であるMicrosoftがDatabricksの将来性に目を付け、いち早くパートナシップを結んだこともDatabrickにとっては追い風となりました。
その結果、Databricksはデータレイクハウス × AI × MLの領域で確固たる地位を築いています。
DatabricksはもうすぐIPOするというの噂が絶えませんが、そんな中2023年9月にシリーズIとなる5億ドルの資金調達を行いました。スタートアップでシリーズIラウンドの調達というのはかなり稀な話だなあと思いました。もうIPOも秒読みなのではないでしょうか。
さて、正直7人も共同創業者がいると、内部の諍いが起こったりしないのかなあと不要な心配をしてしまいます。だって、プライベートで7人も全然違うバックグラウンドの友達がいたとして、11年間もずっと仲良くできますか?(私はきっと無理ですw)
そんな頼まれてもいない余計なお世話を考えていたところ、その問に答えるタイムリーな動画がスタンフォード大学よりアップされていました。
Aliいわく、共同創業者の関係においては「信頼」が何よりも重要だと言っていました。きっと7人とも優れた人間性をお持ちなのですね。純粋にすごいと思います。
🤖Databricksと生成AI
さて、前置きがめちゃくちゃ長くなってしまいましたが、本題に入りましょう。
Databricksはデータエンジニアリング・データサイエンスのユースケースから始まった会社だけあって、AIを語る上で避けては通れない機械学習(ML)領域はそもそもDatabricksの十八番です。
例えば、機械学習の開発で必要になってくる実行環境やモデルや運用などの管理ができる有名なライブラリ、ML FlowはDatabricksが開発しました。オープンソースプラットフォームとして誰もが使えるようになっていますが、一番最初にエンタープライズ機能群に取り入れたのはもちろんDatabricksです。
そんなDatabricksの近年の生成AIの取り組みを2点取り上げたいと思います。
1) MosaicMLを13億ドルで買収
買収は2023年6月に行われました。MosaicMLは独自のLLMであるMPTを提供しているほか、企業がLLMを開発できるプラットフォームを提供しています。
これにより、セキュリティ等様々な考慮事項のあるエンタープライズ企業では自社のデータをOpenAI等の外部に流出させることなく、自社環境内でLLMを開発できるようになります。
ちなみに13億ドルでの買収金額についてですが、Databricksは前述のシリーズI投資の一つ前のラウンド、2021年シリーズHでは16億ドルの投資を受けています。
ちょっと計算すると、あれ、ほぼ受けた投資の全額でMosaicMLを買っている!ということになりますね。巨額のM&Aです。
それだけ大金を積んででも買いたかったMosaicMLの可能性…やはり"エンタープライズAI"は昨今のトレンドを語る上で外せないキーワードですね。
ちなみに、DatabricksはMosaicMLを買収する直前に、独自のLLMであるDollyをリリースしています。こちらもオープンソースとなっており、Databricksの開発者精神が伺えます。
すでに自社LLMを持ちつつもMosaicMLを買収した背景には、LLMを提供するだけではなく、各企業がカスタムLLMや生成AIアプリを作成することを支援するというゴールがあるようです。
この記事の面白かった部分の引用です。
2) RAGアプリケーションツール群のリリース
2023年12月のプレスリリースにて、Databricksユーザーがエンタープライズデータを利用して高品質なLLMアプリを構築するためのツール群がリリースされたことが発表されました。
このツール群には以下のものが含まれます。
レイクハウスの既存のテーブルをセマンティック検索するためのベクトル検索サービス
RAGアプリが構造化されたコンテキストを利用できるようにするOnline feature と function serving
トークン・ベースのLLMを提供するフルマネージド・ファウンデーション・モデル
RAGアプリの本番環境でのパフォーマンスを監視するための柔軟な品質監視インターフェース
様々なLLMを比較・評価するためのLLM開発ツール一式
この発表により、Databricks利用企業がより自社データを活かしてAIの取り組みを推進することができるようになります。
💥Databricksの競合は?
機械学習ユースケースに始まり、今ではデータガバナンスやデータ分析領域にも対応範囲を広げていて前途洋々なDatabricksですが、どのような競合企業がいるのでしょうか。
火を見るよりも明らかなのは、Snowflakeです。Snowflakeはデータウェアハウスユースケースから始まった会社で、設立は2012年とDatabricksとほぼ同時期に創業しました。
Databricks側から視点での対Snowflakeに関しては
🔥公式の競合ページがあったり
🔥Snowflakeのベンチマークテスト結果に対してさらに対抗するブログ記事が発表されたり
🔥2023年度は両社の年次カンファレンスが全く同じ時期に開催されたり
などなど…両社の闘いは日に日に熱さを増しています。
他にはMicrosoft Fabricも今後要注意になってくるのではと個人的には考えています。前述の通り、MicrosoftはDatabricksの将来性を見越して早いうちにパートナシップを組んでおり、DatabricksのワークロードはAzure上でシームレスに実行することができています。
しかし相手はMicrosoft、パソコンやOffice365がエンタープライズ企業の多くで導入されているだけあって、そこを踏み台にFabricをどんどん売っていきたいという動きが透けて見えます。
Microsoftからすると、今Azure上で実行されているDatabricksのワークロードをAzure MLに置き換えたりAzureのDatabaseに移行することでもっと価格を抑えることができますよという戦略を取ることができるのではないかと思います。
パートナーだと信頼していた企業に手のひらを返されるのは辛いですね…(というまた余計な心配)
ただMicrosoft Fabricはまだ日の浅いソリューションなので、昨今のDataricksにおける幅広いユースケース増強の様子を見ると、あまり心配するほどでもないのかもしれません。
これからのDatabricks × AI の動向に目が離せません!🎉
最後までお読みいただきありがとうございました!
スキ・フォローよろしくお願いします☺