見出し画像

データ整備に欠かせない差分比較って?

はじめに

はじめまして!
Massteryチームでプロダクトの企画や営業をしている小倉といいます。

今回はMassteryに備わっている「差分比較機能」についてお話いたします。
一見地味な機能に見えますが、「自動で」「AIや機械学習で」データの変換を行うツールには必要な考え方が盛り込まれている点が今回ご紹介させていただく理由です。
最後までお付き合いのほどよろしくお願いいたします!

Massteryの使い方

まずはMassteryの操作手順を基本的なステップに分けてお話します。
Massteryは大きく分けて以下の3ステップで変換(データクレンジング)作業を行います。
①スクリプトを簡易にした関数を使って変換ルールを設定

変換ルール登録_Moment_border-1-1024x347

②対象のデータを取り込む
大容量、フォーマットがバラバラでも問題ございません。
ファイル形式Excel、CSV、TSV形式に対応しています。

インポート__1_border-1024x372

③変換完了
指定のファイル形式(Excel、CSV、TSV形式)で出力いたします。
他システムとの連携も可能です。

エクスポート_border-1024x371

スクリプトを簡易にした関数というのがポイントで、Massteryの関数を使えばスクリプト記述の省略ができたり、変換ルールが増えた際に変換方法がブラックボックス化しにくくなるというメリットがあります。
今後はこれらの関数についても随時ご紹介していきます。

差分比較機能とは

差分比較機能は変換で追加・更新・削除されたデータを図のように一目でわかるようにした機能です。
更新した箇所だけを基幹に取り込みたいというユーザ様にはご好評いただいております。

差分比較機能

わたしが考える差分比較機能の価値

さて本題ですが、差分比較機能は差分を抽出したいというユーザ様の要望から生まれた機能です。
それに加えて、わたしは「機械が行った整備作業を人間が把握できる状態にすること」もこの機能の重要な役割として捉えています。
機械学習を用いたRPAや複雑な変換ルールを設定できるMassteryのように人が手作業でデータ整備していた作業を代替するツールは、自動で作業をしてくれるという点で便利ではあるものの、最終的にその整備結果は人の目を介して確認される必要があります。※
※何が正しいのか?をある程度は設定や機械学習でカバーできるものの、もともと手作業で整備されていたものの場合、正解がないケースは往々にあり得るためです。
そのため、差分という明確な基準で人が確認するべき箇所を絞ってくれる点がユーザ様に寄り添った機能だと考え、今回「差分比較機能」をご紹介させていただきました。

さいごに

データクレンジングの精度を上げていくことはMassteryの命題ですが、変換ミスの定義の仕方やその検知方法のバリエーションを増やしていくことも安心して使っていただけるために必須の機能だと考えています。
これからも「Masstery」やMasstery部のことをnoteで発信していくので、少しでもご興味を持っていただけた方はスキやフォローをよろしくお願いいたします!

私達がご提供している製品「Masstery(マスタリー)」は、多くの人手が必要だったデータ整備を自動化する画期的なデータクレンジングツールです。フォーマットの統一、カテゴリーの自動分類、独自の変換、差分情報の取得等、データ整備に必要なあらゆる機能をご提供しています。
Masstery 製品サイト:https://mstr.forcia.com/
フォルシア株式会社 企業サイト:https://www.forcia.com/

こちらの記事も、どうぞご覧ください。


いいなと思ったら応援しよう!

この記事が参加している募集