3倍の価格性能と6.7倍のスピードを実現 (*1) 〜 Databricks Lakehouseプラットフォームと最新のインテル第3世代Xeonスケーラブル・プロセッサーで意思決定までの時間を短縮
Databricks レイクハウスプラットフォームは、データレイクのオープン性、拡張性、柔軟性と、データウェアハウスの信頼性、ガバナンス、パフォーマンスの良さを統合したプラットフォームです。このブログでは、ベクトル化クエリ処理の最新技術を採用したDatabricks Photon(注;フォートンと読みます)と、Intel Advanced Vector Extensions 512 (Intel® AVX-512) を搭載した最新のIntel第3世代Xeonスケーラブルプロセッサーを用いてパフォーマンス面を見ていきたいと思います。
数字や価格・性能の向上に踏み込む前に、なぜこのような価格性能向上が重要なのかを考えてみましょう。データ量が増大し、迅速な洞察と意思決定が競争上の優位性として重要になるにつれ、データを迅速に処理する必要性はさらに高まっています。クエリやコードの最適化やリファクタリングは作業負荷の軽減につながるかもしれませんが、アナリストはクエリの最適化よりも、機能的な意図やビジネス上の疑問に注目すべきです。時間の経過とともに結果が改善されるようにするにはどうしたらよいでしょうか?
Databricks Lakehouse Platformを選択するということは、当社のパートナーとともに、お客様に最高の価値を提供するために、常に改善を推し進め、それを実現するプラットフォームを選択するということになります。
これらの利点を実際に検証するために、私たちは業界標準のTPC-DSパワーテスト(*2) から派生したテストを実行しました。Photonを有効にし、最新の第3世代Intel Xeon Scalableプロセッサに変更する前と後の結果(*3) を検証しました。
Photonは、Databricksのネイティブなベクトル化クエリーエンジンで、Apache Spark APIと直接互換性があるように書かれているため、既存のコードと連動します。Photonを有効にすると、既存のコードとクエリは、CPUのデータおよび命令レベルの並列性を活用したベクトル化クエリ処理の最新技術を利用することができます。これにより、ETLや対話型クエリのTCO削減とSLA短縮を実現します。
インテル® 第3世代Xeonスケーラブル・プロセッサは、インテルの最新世代の単一命令複数データ(SIMD)命令セットであるインテル® AVX-512を搭載し、データ分析や機械学習など、最も要求の厳しい計算タスクのパフォーマンスとスループットを向上させることができます。
ベースラインの確立
ベースライン(測定の基準データ)には、Intel 第1世代Xeon Scalableプロセッサーを搭載したAzureのE8ds_v3仮想マシンと、Photonを有効にしないDatabricksランタイム(DBR)10.3を使用しています。2022年3月中に、20ワーカークラスタサイズで1TBと10TBの両方のスケールでTPC-DSベンチマークを実行しました。
Photonの効果
次に、Photonを有効にした同じマシンで、コードを変更せずに同じワークロードを実行しました。
その結果、ベースライン比で1.9倍の価格性能向上と3.4倍の性能高速化を実現しました。
PhotonとIntel第3世代Xeonスケーラブル・プロセッサーによるポテンシャルの最大化
同じワークロードで、コードを変更せずに、AzureのE8_ds_v5仮想マシンとIntel第3世代Xeon Scalableプロセッサーを使用し、Photonを有効にした場合の例です。
ベースラインと比較して、価格性能は3倍、性能は6.7倍も向上しています。
グラフで比較する
まとめ
Databricks Photonを有効にし、インテルの第3世代Xeon Scalableプロセッサを使用することで、コードを変更することなく、10TBのTPC-DSベンチマークの2/3のコスト削減と6.7倍の速度での実行を実現することができました。これは、コスト削減だけでなく、インサイトを見つけるまでの時間短縮にもつながっています。
詳しくは以下ををご覧ください。
databricks.com/jp/lakehouse
databricks.com/jp/photon
インテル® Xeon® スケーラブル・プロセッサー・ファミリー
インテル® アドバンスト・ベクトル・エクステンション 512
脚注
(*1) 3倍の価格性能比と6.7倍のスピードアップ - DBR 10.3搭載インテル第1世代Xeonプロセッサーを使用し、Photonを有効にしなかった場合の同じTPC-DS 10TBベンチマークと比較
(*2) 99のTPC-DSクエリを1つのストリーム内で順次実行するパワーテストから算出。
(*3) 表示された結果は、監査済みの公式TPCベンチマークと比較することはできません。