ETLツールとは?Embulkとは?
おはこんばんにちは。imomusiと申します。
今回はETLツールについて初心者なりに、調べた内容をまとめてみようと思います!
ETLとは?
ETLツールは、デジタル化されたデータが加工・共有されるデータフローの全体像のなかで、中間的な位置を担うツールです。
Extract(抽出)
Transform(変換)
Load(格納)
の略で、データ統合時に発生する各プロセスの頭文字をとったものです。
上記がデータフロー全体像におけるETLの位置であります。
ざっくり説明すると、
「複数システムのデータの構文を解析、抽出し、一定の規則や関数に従って変換を行い、変換したそのデータをターゲットデータベースに書き出して格納する」
ということです。
ETLのメリットは?
①開発の工数削減
上記の図のように複数のデータソースがあるため、それぞれに対してプログラムを開発しなければなりません。それにより開発工数が膨らみ、またそのETLプロセス作業を行う高度な人材が必要になるため、作業が停滞してしまいます。
それらの事態を迅速に処理し、次に進むためにETLツールがとても有効であります。
②データの品質向上
ETLツールでの変換処理により、次の工程での作業がスムーズに行うことができます。欠損値やデータの重複などの問題を解消することにより、次の工程で正しいデータで適切な作業が行えることがメリットであります。
以上がETLツールの簡単な説明でございます。
これからはETLツールの1つである Embulk についてまとめたいと思います!
Embulkとは
Embulkは先ほど説明したETLツールの1つであります。
Embulkの特徴は
プラグイン(便利機能)が多数&自分で実装可能
分散処理環境を使い、大規模データを高速に処理することが可能
guess機能により設定ファイルの推測と提案が可能
オープンソース
失敗したタスクだけを後からやり直すリジューム機能
上記の画像がEmbulkのざっくりな構成です。
以上がETLツールとEmbulkの簡単な説明でした。
ありがとうございました!