見出し画像

非エンジニアがアメリカで使われているデータクレンジングツールを使ってみた ~前編~

皆さん、こんにちは。
高速検索の会社、フォルシア株式会社でデータクレンジングを担当しています。秋山と申します。

今回は、日本ではあまり馴染みのないデータクレンジングツールですが、ソフトウェア先進国のアメリカだとどのようなツールが使われていて、実際にどのように活用されているのか気になったので、そちらを記事にしてみたいと思います。そして、実際にそのツールを使ってみての感想も書いてみたいと思います。

アメリカでのデータクレンジングの意味について

まず、データクレンジングというワードですが、英語だとData Cleaning と言うそうで、日本語読みするとデータクリーニングですが、同じ意味だそうです。

また、英語版WikipediaにもData Cleaningの説明がありましたので、一通り読んでみました。(英語なので、読むのに一苦労しました。。)ニュアンスとしては、日本で使われているデータクレンジングとほぼ同じ意味合いでした。

アメリカで使われているデータクレンジングツールについて

Googleで「アメリカ データクレンジングツール」と日本語で調べても、ツール紹介の記事は出ませんでしたので、英語で「Data Cleaning tools」と調べると、一番上に以下のサイトがヒットし、10個のデータクレンジングツールが紹介されていました。

この中で無料期間で使えるサービスでソフトウェアのインストールが不要そうなサービスが「TRIFACTA」でしたので、こちらを登録して実際に触ってみました。

TRIFACTAとは

TRIFACTAをGoogleで調べると日本語で説明されている記事がありましたので、そちらを参考にすると、2018年9月時点で126か国1万以上の企業が利用しており、アクティブユーザーは10万人以上と記載されていました。

また、データサイエンティストが分析ができる状態までデータをクリーニングすることに大半の労力を割いているそうで、この問題を解決するためにこのサービスを立ち上げたそうです。

実際に作業時間を90%以上削減できた事例もあるそうでした。

以下は実際のHPの切り抜きですが、様々なサービスとサービスをつなげるETLツールとデータクレンジングが行えるツールのようでした。クラウドサービス以外にもオンプレミスのツールやローカルにあるCSVファイルも対応しているようです。

実際の顧客の紹介もありました。アメリカの企業がほとんどなので、聞き慣れない企業がほとんどですが、バンクオブアメリカ、ペプシコ、ロッシュなどは聞いたことがあります。

他にも非登録ユーザーにもドキュメントを公開していたり、ユーザー同士を繋ぐコミュニティも有しており、オープンなサービスを志しているように感じました。

TRIFACTAを使ってみた

それでは、実際に登録して、TRIFACTAを使ってみたいと思います。

まず、前提として、私はエンジニアではなく、マーケティング職種のため、コードは触れませんが、前職でSQLで分析を行う上で触っていたので、データベースの基礎知識はあります。それだけでも、何とか触ることはできましたので、あまり高い専門性はなくても使うことはできそうです。(日本語バージョンはないので、むしろ言語の壁の方が高いように感じました。)

それでは、早速、登録を行っていきます。

登録に関しては、名前とメールアドレス、国名を入れるだけで登録ができました。クレジットカードの入力は不要なので、気軽に登録することができました。

登録が完了すると、ホーム画面は以下のようなイメージです。※個人情報の記載は消しております。

「Example Flow」として、サンプルファイルに触れるのは親切なように感じました。そして、その実際のサンプルを開くと以下のようなページに遷移します。

少し見にくいですが、マイクロソフトのAccessのようなGUIでした。矢印に沿ってデータの整備フローが組めるようです。また、Recipeといって、実際のデータ整備内容を編集できます。必要のないデータを削除したり、データの変換ができたりします。編集操作に関しては少し慣れる必要がありそうでしたので、後編に向けて慣らしていきたいと思います。

すごく親切だなと感じたのは、「//~」とコメントがあるように、メモとしてコメントを差し込めるのはいいなぁと感じました。フローを組んでいる人以外にも理解しやすい工夫がされています。

また、この画面でインポートとしたCSVとBigQueryのようなクラウドのデータウェアハウスを統合できるようです。統合作業もGUI上で行うので、ノンコーディングで簡単にできました。

後編に向けて

さて、少し長くなってしまいましたので、前編として一旦こちらで区切らせていただきます。後編はもう少しこちらのツールを触ってみて、実際にできることなどを纏めてみたいと思います。

私達がご提供している製品「Masstery(マスタリー)」は、 多くの人手が必要だったデータ整備を自動化する画期的なデータクレンジングツールです。フォーマットの統一、カテゴリーの自動分類、独自の変換、差分情報の取得等、データ整備に必要なあらゆる機能をご提供しています。
Masstery 公式サイト:https://mstr.forcia.com/(データクレンジング) 
フォルシア株式会社 企業サイト:https://www.forcia.com/ (高速検索)

ご一読いただき、ありがとうございました。 秋山

いいなと思ったら応援しよう!

この記事が参加している募集