非エンジニアがアメリカで使われているデータクレンジングツールを使ってみた ~前編~
皆さん、こんにちは。
高速検索の会社、フォルシア株式会社でデータクレンジングを担当しています。秋山と申します。
今回は、日本ではあまり馴染みのないデータクレンジングツールですが、ソフトウェア先進国のアメリカだとどのようなツールが使われていて、実際にどのように活用されているのか気になったので、そちらを記事にしてみたいと思います。そして、実際にそのツールを使ってみての感想も書いてみたいと思います。
アメリカでのデータクレンジングの意味について
まず、データクレンジングというワードですが、英語だとData Cleaning と言うそうで、日本語読みするとデータクリーニングですが、同じ意味だそうです。
また、英語版WikipediaにもData Cleaningの説明がありましたので、一通り読んでみました。(英語なので、読むのに一苦労しました。。)ニュアンスとしては、日本で使われているデータクレンジングとほぼ同じ意味合いでした。
アメリカで使われているデータクレンジングツールについて
Googleで「アメリカ データクレンジングツール」と日本語で調べても、ツール紹介の記事は出ませんでしたので、英語で「Data Cleaning tools」と調べると、一番上に以下のサイトがヒットし、10個のデータクレンジングツールが紹介されていました。
この中で無料期間で使えるサービスでソフトウェアのインストールが不要そうなサービスが「TRIFACTA」でしたので、こちらを登録して実際に触ってみました。
TRIFACTAとは
TRIFACTAをGoogleで調べると日本語で説明されている記事がありましたので、そちらを参考にすると、2018年9月時点で126か国1万以上の企業が利用しており、アクティブユーザーは10万人以上と記載されていました。
また、データサイエンティストが分析ができる状態までデータをクリーニングすることに大半の労力を割いているそうで、この問題を解決するためにこのサービスを立ち上げたそうです。
実際に作業時間を90%以上削減できた事例もあるそうでした。
以下は実際のHPの切り抜きですが、様々なサービスとサービスをつなげるETLツールとデータクレンジングが行えるツールのようでした。クラウドサービス以外にもオンプレミスのツールやローカルにあるCSVファイルも対応しているようです。
実際の顧客の紹介もありました。アメリカの企業がほとんどなので、聞き慣れない企業がほとんどですが、バンクオブアメリカ、ペプシコ、ロッシュなどは聞いたことがあります。
他にも非登録ユーザーにもドキュメントを公開していたり、ユーザー同士を繋ぐコミュニティも有しており、オープンなサービスを志しているように感じました。
TRIFACTAを使ってみた
それでは、実際に登録して、TRIFACTAを使ってみたいと思います。
まず、前提として、私はエンジニアではなく、マーケティング職種のため、コードは触れませんが、前職でSQLで分析を行う上で触っていたので、データベースの基礎知識はあります。それだけでも、何とか触ることはできましたので、あまり高い専門性はなくても使うことはできそうです。(日本語バージョンはないので、むしろ言語の壁の方が高いように感じました。)
それでは、早速、登録を行っていきます。
登録に関しては、名前とメールアドレス、国名を入れるだけで登録ができました。クレジットカードの入力は不要なので、気軽に登録することができました。
登録が完了すると、ホーム画面は以下のようなイメージです。※個人情報の記載は消しております。
「Example Flow」として、サンプルファイルに触れるのは親切なように感じました。そして、その実際のサンプルを開くと以下のようなページに遷移します。
少し見にくいですが、マイクロソフトのAccessのようなGUIでした。矢印に沿ってデータの整備フローが組めるようです。また、Recipeといって、実際のデータ整備内容を編集できます。必要のないデータを削除したり、データの変換ができたりします。編集操作に関しては少し慣れる必要がありそうでしたので、後編に向けて慣らしていきたいと思います。
すごく親切だなと感じたのは、「//~」とコメントがあるように、メモとしてコメントを差し込めるのはいいなぁと感じました。フローを組んでいる人以外にも理解しやすい工夫がされています。
また、この画面でインポートとしたCSVとBigQueryのようなクラウドのデータウェアハウスを統合できるようです。統合作業もGUI上で行うので、ノンコーディングで簡単にできました。
後編に向けて
さて、少し長くなってしまいましたので、前編として一旦こちらで区切らせていただきます。後編はもう少しこちらのツールを触ってみて、実際にできることなどを纏めてみたいと思います。
ご一読いただき、ありがとうございました。 秋山