見出し画像

クレンジングが肝!ぐちゃぐちゃ顧客データの名寄せのコツ<TIS共著コラム2-2>


前回の目次

<第一回>
1.データ登録の現状
2.データクレンジング・名寄せの進め方
 2-①.クレンジングと名寄せの位置付け



前回の第一回は、顧客データの置かれている状況と改善の方向性に触れました。今回、第二回はデータクレンジング・名寄せの進め方について整理してみます。

2-②.推進ステップ

上記にて述べたような、不統一と入力誤り・漏れに溢れた顧客データのクレンジングと名寄せは、一朝一夕には達成できず、複雑かつ時間を要する取組みです。しかし、適切な投資と方法論、技術活用によって推進することは可能です。まずは基本的な推進ステップを見てみたいと思います。
顧客データの品質向上に向けた名寄せ・クレンジングは、以下の6つのステップに沿って進めるのが良いでしょう。

【図2:推進ステップ】
  1. 顧客データの把握
    社内のクレンジング、名寄せの対象となる顧客データの洗い出し、選定を行います。特に複数のデータベースやローカルファイルにある顧客データを統合する場合は、統合実施後に新たなクレンジング、名寄せ対象となる顧客データが発見されることを防ぐためにも大事な作業です。

  2. プロファイリング
    現状のデータ品質の課題を可視化するために、対象の顧客データの不統一や入力誤り・漏れはどのようなパターンが何種類あるかを把握します。これにより、対応方法のパターンも把握することができ、今後の計画の見積もりを立てることができます。
    まず実際のデータを一部サンプリング抽出し、クレンジング、名寄せのトライアル実施を行います。サンプリング実施とすることで、短い時間で傾向を掴むことができます。これにより、ツールで対応できるデータの割合、人の確認、判断が必要なデータの割合が把握できます。またこの段階で空白入力や入力省略の不正値(電話番号で9999999999など)の割合が多い場合は、本人確認をするまたは値を除去するなどの対応方針を決定していきます。 

  3. クレンジング・名寄せ計画の立案
    プロファイリングの結果に基づいて、具体的な目標を設定し、計画を立案します。例えば、「何ヶ月以内に顧客データの重複率を5%以下に削減する」といった明確な目標を定量的に設定することが望ましいです。この目標を達成するために、必要なリソースの割り当てや関係部門への調整なども考慮したうえで、推進スケジュールへの落とし込みが必要です。
    また、クレンジング・名寄せソリューションの稼働環境を自社で設ける場合、スペックなどをすり合わせてサーバ設置などの環境整備も進める必要があります。 

  4. データクレンジング実施
    ここではプロファイリングで導出した不統一、入力誤り・漏れパターンについて、全データを対象に洗い出します。その後、洗い出されたデータの全件を人の目で確認し手動で修正をする、または一部はツールによる自動実行として曖昧なもののみ人の目で確認し手動で修正するかを、立案した計画に合わせて対応します。
    作業内容については次章にて説明します。

  5. 名寄せ処理の実行
    クレンジングされたデータに対して、名寄せ処理を行います。クレンジングと同じく重複データを全てリストアップし、人の目で確認し手作業で統合する、または一部はツールにより統合を自動実行し、曖昧なもののみを人の確認をもって統合を行うかを、立案した計画に合わせて対応していきます。
    作業内容については次章にて説明します。

  6. データクレンジング後の運用
    一度のクレンジングと名寄せだけでは、遠からずデータ品質は再度悪化します。また、クレンジング・名寄せ対応後に入力されるデータについても、不一致を回避する対応を継続しなければ、データ品質を保つことが難しくなります。データの管理されている環境や活用する目的といった特徴に合わせて、データ登録時の重複チェックの強度やメンテナンス時の対応方針を定め、個別の運用計画を用意することがデータ品質を保つために必要となります。データ入力ルートごとの、データ登録時、データメンテナンス時の対応例について、【図3:データ入力ルート別対応例】にまとめています。

【図3:データ入力ルート別対応例】

2-③.ソリューション構成要素

上記のようなステップを実際に取り組もうとした際に、自社だけで対応するには限界があるでしょう。特に、推進ステップにおける3.、4.にあるクレンジングと名寄せを効果的・効率的に実施するためには、他社と協力することが現実的なケースであることがほとんどです。クレンジング、名寄せツールは少なからず提供されており、情報を収集された方の中でも、どのような判断基準があるのか悩まれているかと思います。基本的に、できることに大きな差はないと考えられますが、以下のようなポイントで各社独自性を発揮しています。(費用は除外)

  • クレンジング・名寄せの精度向上・利便性:
    汎用的なデータ種の取り扱い、企業情報・住所情報などの独自の辞書データベース、項目別の類似度の定量化など判断支援、人によるマッチング作業支援機能、など

  • 他システム連携:
    MA、SFA、CRMなどのツールとの相互連携が容易

  • 大規模データの管理・分析:
    膨大な量のデータ処理、データ統合基盤(ETLツール)としても活用、など
    ※多くの場合、処理件数の限界はないものの、例えば1,000万件を超えるとパフォーマンスが出ないので作業効率が急激に落ちることは発生し得ます

  • 付随するサービス:
    データ構造の整理・検討、各種クレンジング・名寄せ作業の支援、データ分析・ガバナンスやクレンジング運用の構築、など

自社におけるクレンジング・名寄せの目的(目的については次稿にて言及)や課題を踏まえて、何を重視するか優先度を設定しつつ、比較・検討していきます。
次に、多くのソリューションで共通的に留意すべき事項、実施する事項について言及しておきます。

1.データ管理環境

前提として、複数のシステム・ツールに分散している顧客データを一元管理できているでしょうか、あるいはクレンジング・名寄せを通して一元管理することもあわせて検討されているでしょうか。
一元管理に向けたデータ統合プラットフォーム(CDP:Customer Data Platform など)を導入することで、名寄せ・クレンジングの効率が向上し、継続的なデータの整合性維持が容易になります。(前稿も参照) 

2.クレンジング・名寄せ

少量のデータであれば、表計算ソフト上で人間の目で確認し、修正・統一することも可能ですが、ミスが発生する可能性は高く、データ量が増加するほど多くの工数がかかってしまい、現実的ではありません。そこで、クレンジング・名寄せのツールを利用することになりますが、どのような処理・対応を行うか具体的には想像しづらいかと思いますので、ここで主要な手順について簡単に触れておきたいと思います。(各手順の呼称はソリューション・サービスによって様々です)

  • クレンジング:
    主に以下のような対応を実施
    ※このタイミングで各ソリューションの独自データベースの強みが発揮される

    • データ標準化:異なる形式のデータを統一形式に変換、任意項目の複数項目への切り分け(例:”社名”と”株式会社”の分割)

    • 重複除去:同一顧客の単純な重複レコードを特定し統合

    • 欠落データの補完:必要に応じて外部データソースの活用や本人確認の実施

    • 誤謬データの修正:住所など最新の正しい情報に修正

  • 名寄せ:
    自動と手動の方法を組み合わせつつ、適宜見直しながら推進

    • マッチングルールの設定:
      名寄せ対象のシステム間で、どの項目をどの程度一致させるかを定義

    • 自動・手動名寄せのレベルごとの対応方針設定:
      ツールによる自動名寄せと、人的な対応による名寄せを行う対応方針を検討
      (例えば、複数項目のマッチング率をもとに、完全一致以外は名寄せ候補リストを出力し、目視確認による名寄せ実施。または、完全一致ではない場合に、どの程度の一致率があれば自動名寄せを実施するかなどのレベルごと対応方針を設定)

    • 他システム連携:
      各種業務システムとの連携に向けたAPI・コネクタの設計・開発・設定

ITソリューションのツールについて言及しましたが、ツールを活用する前段階での整理・分析を踏まえたクレンジングルールの設定と検証は人が対応するため、絶対的に正しい方法論があるわけではありません。
加えて、クレンジング・名寄せは継続的に対応する必要があり、同時にデータ入力時のルールの明確化と徹底が必要です。この点において、リアルタイムデータ検証が可能なソリューションも生まれています。これは、ユーザによるデータ入力時にリアルタイムでエラーや重複の確認・通知を行います。例えば、新規顧客登録時に既存データとの重複チェックを自動的に行い、重複の可能性がある場合には、ユーザに警告が出されるといった流れです。
いずれにしろ、データ品質の維持について一度対応すれば終わりではなく、データクレンジング・名寄せのツールと人の運用サイクルは恒久的に必要となります。

アットストリームコンサルティングならびにTISビジネスイノベーション事業部では、TISインテックグループのアグレックスの「Precisely Trillium(トリリアム)」を活用し、顧客データ統合のコンサルティングから顧客データクレンジング、名寄せのサービスを提供しています。これらの内容について詳しく聞きたい、対応を依頼したい等ありましたら、是非お気軽に一度弊社までご相談ください。

3.今後の技術的潮流

一方で、技術的発展は目覚ましく、AI(機械学習、生成AI)の活用についても各所で検討が重ねられています。ただ、2025年1月時点では、ソリューションとして一定以上の精度が担保されたサービスは見当たらず、早期のリリースが待たれている状況です。現状では、例えばMicrosoft365のCopilotなどの活用によって、データの一部項目の統一化(全角を半角に修正など)は可能ですが、便利機能を自然言語で活用できるようになってきた、という段階に留まるでしょう。

例えば、ChatGPTに従来の方法論と今後の(生成)AIを活用した方法論の違いを尋ねると、以下のような回答が返ってきます。(出力内容の一部をそのまま転記)

  • 従来のITツールや人手によるクレンジング/名寄せ

    • メリット:ルールの透明性、堅牢な実績、人間による正確な最終確認

    • デメリット:手間やコスト、柔軟性の限界、更新作業の煩雑さ

    • 進め方:主にルールベース+人手チェック

  • 生成AIを中心としたAI技術の活用

    • メリット:大規模データでも高速・高精度に処理、学習による精度向上、柔軟性・拡張性

    • デメリット:ブラックボックス性、誤りが発生した際のリスク、データプライバシーや導入コストの課題

    • 進め方:AIモデルによる自動マッチング+ヒューマン・イン・ザ・ループ、外部データ連携、継続的学習

この方向性を踏まえると、以下のような変化点が想定されるでしょう。

  1. ルールベースからAIファーストへの移行

    • 従来のクレンジング・名寄せの主軸だったルールベースの変換や正規化処理が、AIでの類似パターン検出・過去データ学習に置換

    • AIによる、単なる文字列比較に留まらず、文脈やデータ内容に沿ったより精度の高いクレンジング・名寄せが実現

    • 加えて、複数項目の組み合わせによる、要約項目の自動生成(重回帰的な判断項目の設定など)も実現

  2. ヒトの役割の変化

    • クレンジングの大半はAIが自動処理し、人間は例外処理や重要顧客データなどの「AIでは判断しきれない・間違いが許されないケース」のみを対応

    • 従来のデータ管理担当者の役割は、AIの結果をレビューし、AIをチューニングする、あるいはAIを使った新たなデータ活用(分析やマーケティング施策実行)に変化

  3.  外部データ・サービスとの統合

    • 各種企業情報を扱うデータベンダーや外部API、AIサービスのAPIなど、さまざまな外部リソースの連携・統合が加速

    • 顧客データのクレンジング・名寄せを踏まえた、データ分析や新規顧客獲得の施策の検討・実行など、データ活用全般の幅が拡大し、各種サービスのコモディティ化

  4. データガバナンスと品質管理の高度化

    • AIの導入により、データ品質管理のプロセスが変わり、ガバナンスやコンプライアンス面のルールや監査体制の見直し・強化

    • AIによる誤りや過程のブラックボックス性に対する技術観点(XAIの適用)、運用観点(ヒトのコミュニケーション強化)での対応

    • データの収集・利活用に対するコスト低下・精度向上によって、BtoCの場合は個人情報を、BtoBの場合でも顧客の機密情報を扱うため、情報セキュリティ対策とプライバシー保護の重要性が拡大

遠くない未来には、機械学習アルゴリズムと生成AIによる意味検索の組合せなどによって、機会の拡大や獲得、そのための攻めと守りの投資、このトレードオフとなるニ要素について、バランスを取りながら推進していくマインドとスキル、体制が必要になるものと思われます。

第ニ回は、データクレンジング・名寄せの進め方について整理してみました。次回、第三回はデータクレンジング・名寄せの効果を測定するための指標の考え方について整理し、事例も確認してみたいと思います。
(次回以降の目次は以下の通りです)


次回の目次

<第三回>
 2-④.効果を測定する指標
 2-⑤.事例
3.最後に


投稿者:
TIS株式会社 
ビジネスイノベーション事業部 
ファンクション&プロセスコンサルティング部 
シニアマネージャー 柿沼 信孝

システム開発会社、コンサルティングファーム、マーケティング支援会社を経て、2023年よりTISに。コンサルティングとシステム開発の経験から主にシステム企画構想に従事。TISでは、デジタルマーケティング、人的資本経営や営業改革のテーマも担当。


アットストリームコンサルティング株式会社
シニアマネジャー
鷲野 真人

株式会社ワコールを経て、アットストリームコンサルティング株式会社へ参画。サプライチェーンマネジメントに関する業務改革やKPIマネジメント導入・定着支援に関するコンサルティングサービスを提供。


アットストリームコンサルティング株式会社
マネジャー
兵頭 卓

複数のコンサルティングファーム、DX/AIコンサルティングのベンチャーファームでのコンサルティングサービス事業部長、独立系ファームでの関西拠点責任者などを経て、アットストリームへ参画。顧客接点強化やAI活用などを中心としたコンサルティングサービスを提供。


#マーケティング #データ運用 #データ活用 #データ分析 #データサイエンス #データクレンジング #名寄せ #DX