見出し画像

ETLツールとは?Embulkとは?

おはこんばんにちは。imomusiと申します。

今回はETLツールについて初心者なりに、調べた内容をまとめてみようと思います!


ETLとは?

ETLツールは、デジタル化されたデータが加工・共有されるデータフローの全体像のなかで、中間的な位置を担うツールです。

  • Extract(抽出)

  • Transform(変換)

  • Load(格納)

の略で、データ統合時に発生する各プロセスの頭文字をとったものです。

上記がデータフロー全体像におけるETLの位置であります。
ざっくり説明すると、
「複数システムのデータの構文を解析、抽出し、一定の規則や関数に従って変換を行い、変換したそのデータをターゲットデータベースに書き出して格納する」
ということです。

ETLのメリットは?

①開発の工数削減
上記の図のように複数のデータソースがあるため、それぞれに対してプログラムを開発しなければなりません。それにより開発工数が膨らみ、またそのETLプロセス作業を行う高度な人材が必要になるため、作業が停滞してしまいます。
それらの事態を迅速に処理し、次に進むためにETLツールがとても有効であります。

②データの品質向上
ETLツールでの変換処理により、次の工程での作業がスムーズに行うことができます。欠損値やデータの重複などの問題を解消することにより、次の工程で正しいデータで適切な作業が行えることがメリットであります。

以上がETLツールの簡単な説明でございます。
これからはETLツールの1つである Embulk についてまとめたいと思います!

Embulkとは

Embulkは先ほど説明したETLツールの1つであります。
Embulkの特徴は

  • プラグイン(便利機能)が多数&自分で実装可能

  • 分散処理環境を使い、大規模データを高速に処理することが可能

  • guess機能により設定ファイルの推測と提案が可能

  • オープンソース

  • 失敗したタスクだけを後からやり直すリジューム機能

上記の画像がEmbulkのざっくりな構成です。

以上がETLツールとEmbulkの簡単な説明でした。
ありがとうございました!

いいなと思ったら応援しよう!