Apache Dorisを使うとストレージ容量、呼び出しレイテンシ、書き込みスループット、リソース資源の面で効率化したぞ!
NetEaseという企業でElasticsearchとInfluxDBをそれぞれApach Dorisに置き換えた結果、タイトルのようになったという話
監視プラットフォーム: Elasticsearch -> Apache Doris
背景
ElasticsearchとLogstashを使用してログを収集・分析していたが、データセットの増大に伴いクエリの遅延と高コストが問題となっていた
効果
100TBのデータが30TBに減少
クエリ速度が11倍向上
時系列データプラットフォーム: InfluxDB -> Apache Doris
背景
PaaSサービス用のデータプラットフォームはInfluxDBを使用していたが、データの増加に伴いOOMエラーや高コストが発生していた
効果
書き込みスループットを平均500MB/s、ピーク時は1GB/sに
22台のサーバーを性能をそのままに11台に減少
150TBのデータが50TBに減少
より高速かつ安定したクエリ応答時間
Apache Dorisを使うときのベストプラクティス
テーブル設計
最新ログの取得にはDATETIME型の時刻フィールドを主キーとして使用
時間フィールドに基づく範囲分割と動的パーティションを使用
頻繁に検索されるフィールドにインデックスを作成
ZSTD圧縮を有効にしてデータ圧縮率を向上
クラスター設定
高データインジェスト性能のためのフロントエンドおよびバックエンド設定の最適化
Stream Loadの最適化によりデータ消費速度が2倍、データ遅延が75%減少、Stream Loadの応答が70%高速化
結論
正しく使えばApache Dorisはすごいぞ!
参考
Apache Doris for log and time series data analysis in NetEase, why not Elasticsearch and InfluxDB?
いいなと思ったら応援しよう!
よろしければサポートお願いします! いただいたサポートはクリエイターとしての活動費に使わせていただきます!