【データマッピング】Talendによるデータ処理
はじめに
こんにちは、前回はデータマッピングツールであるtalnedを使ってデータを変換する練習をしました。 私はバックエンドエンジニアですが、できれば将来的にはデータを扱うデータエンジニアとして徐々にキャリアをアップグレードしたいと思っていますが、ETL(Extract, Transform, Load)ツールとして有名なtalendに触れる機会があり、とても嬉しく思っています。
今回はtalendを使ってデータを読んで、書いて、繰り返す実習をしてみます。
データ読み込み
メタデータ項目で「File delimited」の「Create file delimited」をクリックします。
ファイル名を入力します。
Browseボタンを押してファイルを読み込みます。
ファイルの値がカンマで区切られているのが見えます。
フィールドセパレータを「カンマ」に設定すると、プレビュー欄にデータが適切に区切られます。
各フィールドのデータパターンとサイズを設定します。
販売csvファイルを読み込むことをログコンポーネントに接続して実行してみると、値が読み込まれたことが確認できます。
データ書き込み
今回はデータを書き込む実習をしてみましょう。まず、ジェネレータとExcel出力コンポーネントを作成します。 その後、ジェネレータコンポーネントのスキーマにid, firstName, lastName, birthDate, countryフィールドを作成します。タイプと、関数も下記のように設定します。
この時、「...」と表示された部分を押すと、値をカスタマイズすることができます。ここでは国名をカスタマイズしました。
拡張子をxlsxに変えて、'Include header'、'Define all columns auto size'ボタンをチェックします。参考までに'Write excel2007 file format(xlsx)'もチェックします。
実行させてみると、各フィールドの値が生成されたエクセルファイルが作成されたことが確認できます。
ファイルIterate
今回は複数のファイルリストを繰り返し読み込んでログに表示してみます。まず、FileList、FixedFlowInput、LogRowコンポーネントを生成します。 そしてFileListコンポーネントを右クリックしてIterateをクリックしてFixedFlowInputコンポーネントに接続します。
今回はFixedFlowInputコンポーネントでスキーマを修正します。
カラムにファイル名フィールドを作成します。
フィールドが作成されたら、値をどのように取得するか関数を設定します。ここでは '((String)globalMap.get("tFileList_1_CURRENT_FILE"))' に設定しました。
最後にログコンポーネントで実行してみると、csvファイルがリストに入ったことが確認できます。
最後に
今までtalendを使ってデータの読み書き、ファイルリストの入力まで実習してみました。 最も基本的な操作なので、十分に理解してデータマッピング全般に応用できるようにしなければなりません。
エンジニアファーストの会社 株式会社CRE-CO
ソンさん
【参考】
[Udemy] Data Integration & ETL with Talend Open Studio Zero to Hero