見出し画像

Apache Dorisを使うとストレージ容量、呼び出しレイテンシ、書き込みスループット、リソース資源の面で効率化したぞ!

NetEaseという企業でElasticsearchとInfluxDBをそれぞれApach Dorisに置き換えた結果、タイトルのようになったという話

監視プラットフォーム: Elasticsearch -> Apache Doris

背景

ElasticsearchとLogstashを使用してログを収集・分析していたが、データセットの増大に伴いクエリの遅延と高コストが問題となっていた

効果

  • 100TBのデータが30TBに減少

  • クエリ速度が11倍向上

時系列データプラットフォーム: InfluxDB -> Apache Doris

背景

  • PaaSサービス用のデータプラットフォームはInfluxDBを使用していたが、データの増加に伴いOOMエラーや高コストが発生していた

効果

  • 書き込みスループットを平均500MB/s、ピーク時は1GB/sに

  • 22台のサーバーを性能をそのままに11台に減少

  • 150TBのデータが50TBに減少

  • より高速かつ安定したクエリ応答時間

Apache Dorisを使うときのベストプラクティス

  • テーブル設計

    • 最新ログの取得にはDATETIME型の時刻フィールドを主キーとして使用

    • 時間フィールドに基づく範囲分割と動的パーティションを使用

    • 頻繁に検索されるフィールドにインデックスを作成

    • ZSTD圧縮を有効にしてデータ圧縮率を向上

  • クラスター設定

    • 高データインジェスト性能のためのフロントエンドおよびバックエンド設定の最適化

    • Stream Loadの最適化によりデータ消費速度が2倍、データ遅延が75%減少、Stream Loadの応答が70%高速化

結論

正しく使えばApache Dorisはすごいぞ!

参考

Apache Doris for log and time series data analysis in NetEase, why not Elasticsearch and InfluxDB?

いいなと思ったら応援しよう!

Puuuii | 伝える技術と心理学で戦うデータエンジニア
よろしければサポートお願いします! いただいたサポートはクリエイターとしての活動費に使わせていただきます!