
Excelとデータクレンジング
こんにちは! 特許調査の仕事をしてます、酒井と申します。今日は「Excelとデータクレンジング」について書きます。
1つ前の記事(下記)で「月に1回の割合でファイルの整頓をする」と書いたのですが、たまには「しまった!使うの忘れてたー!」というファイルも発掘されます。今月もそれでして・・・
以前(2018年夏-2023年1月頃まで)
総務省のサイトに「ICTスキル総合習得教材」というPDFがありました。
Excelによるデータクレンジングの基礎が載っており、個人的にも重宝していたので「いつかnoteで紹介しよう」とは思っていたのですが・・・
改めて探したところ
「ご利用のページが見つかりません」

気が付いたときには、総務庁のサイトから消えてましたー!
「いいな!」と思ったら、すぐ記事にしないとダメですねぇ。
日本のWebアーカイブ(WARP)
ご存知の方も多いかと思いますが、
日本国内のWebサイト上に「過去あったはず」の情報は
国立国会図書館の「インターネット資料収集保存事業」で探せます。
(特許庁の過去資料などもこちらで探せますよ!)

世界のWebアーカイブ
Webアーカイブは、先行資料調査で利用するケースもありますね。
WaybackMachineが最も有名ですが、他にも著名なものがあります。
WARP内のリンク集をどうぞ
・・・それでは、データクレンジングの話題に戻ります。
教材:データクレンジング(アーカイブ版)
以前総務省にあった教材はWARP詳細検索画面で
下記URLを入力すると探せます。
http:// www.soumu.go.jp/ict_skill/pdf/

表示されたリスト中で
「3-2:データのクレンジングと可視化」が今回ご紹介したいPDFです。

なお、他には下記のようなコンテンツがあります。
ご興味のある方は併せてWARPを覗いてみてはいかがでしょうか。

データクレンジングと「名寄せ」
データ分析、クレンジング・・・と聞くと
「自分には関係ない」と思ってしまう方もいらっしゃるかも・・・?
では「出願人の名寄せ」だったらどうでしょう?
名寄せは特許情報分析に欠かせない作業ですよね。
出願人の名寄せは、典型的な「データクレンジング」です。
こちらの「文字列の表記揺れのチェック」をご覧ください。

例題は「はさみ」と「ハサミ」の混在、文字の始めに入った空白の検出などですが・・・同じ方法は「出願人の表記揺れ」の検出にもすぐ応用できるものです。
この記事の冒頭で
Excelによるデータクレンジングの基礎が載っており、
個人的にも重宝していた
と書きましたが、特に参考にしていたのが
・この教材における「考え方」と
・実際に使用する関数の例 です。
記録・過程を残すデータクレンジング(教材における考え方)
教材の冒頭スライドには次のように書かれています。
この講座では、作業記録が残りやすいExcel関数を使ったデータクレンジングを説明します。

単純に説明すると、
たとえば「出願人の表記揺れ」を名寄せした場合、
表記揺れBを正規表現Aに「検索置換」でも名寄せは可能です。
ただ、検索置換してしまうと記録が残りませんし、
「置換前のオリジナルデータは何て書いてあったっけ?」と思っても、
普通に検索置換したのでは後から確認できなくなってしまいます。
以前私は「検索置換」ばかり使っておりまして(苦笑)
ですが、グループ企業を名寄せする場合はオリジナルデータも見たいので
「オリジナル行」と「名寄せ用の行」に分けて置換・・・とかしていました

うっすら「多分・・・これがベストな手順じゃないんだよねぇ」とは思っていたところ、テキストにしっかり書かれていて「ぐはっ!」となりました。
置換内容を可視化したい場合はSUBSTITUTE関数を使うといいんですね!
Excelの「検索と置換」から置換機能を使うことでも、表記揺れの統一作業は可能ですが、Excel関数を使う場合に比べて、作業手順や置換内容が分かりにくくなります。

こちらの資料、データクレンジングに役立つ関数&使い方が
いろいろ紹介されています。
Excelで特許情報の集計・分析をしているけれど、関数はそこまで使っていない・・・という方におすすめしたいです。色々ヒントになりそうです。