出願人・権利者の名寄せ・名義統制作業(データクリーニング)の重要性と効用
特許情報分析でも重要ですが、それ以外のビッグデータ分析の際に欠かせないのがデータのクリーニング。
一般的なデータ分析の流れとしては(出所:あんちべ、「データ解析の実務プロセス」)、
1. 目的設定
2. 分析計画
3. データ設計
4. データ収集・保存
5. データの前処理
6. 分析手法選択と適用
7. 分析結果の解釈
8. 施策の提案
9. 実施と検証
となります(ちなみに私は2、3および6をまとめて分析デザインとか分析設計と呼んでいます)。
データクリーニングは上記フローでは5「データの前処理」にあたります。
特許情報は書誌的事項のフォーマットが決まっているので、かなり構造的なデータですが、出願人・権利者(簡単にいえば企業名や研究機関名)については、揺らぎや合併・社名変更などがすべて反映されているわけではないので、名寄せ(名義統制)を行う必要があります。
特許データだけではなく、論文の執筆機関の場合もあります。
データベースベンダーによっては、独自に名寄せを行っているところもありますが、私の場合は商用データベースで形成した母集団について毎回名寄せを行っています。
よく、名寄せの際に何か特殊なツールを使っていますか?といわれますが、名寄せサポートマクロのようなものを作成したので、そちらを使うこともあります。が、そちらのツールに統一しようしようと思いつつ、日々の忙しさにかまけて、まだ統一できていません・・・・
さて、この名寄せ(名義統制)。
実に面倒くさいのと、時間が結構取られます。
ただ、名寄せをしっかり行っておかないと分析結果の質に影響を与えます。
パナソニックと松下電器産業を名寄せしていなかったら、また新日本製鐵と住友金属工業を名寄せしていなかったら、などなど例を挙げればキリがありません。
重要なのは理解しているのだか、できれば避けたい・・・という気持ちもあるのですが、実は私は分析プロジェクトを行う際に、この名寄せ作業が(多少苦痛ではあるのですが)最終的な分析レポートを仕上げるために結構重要なポイントを占めています。
分析に着手する際に、分析デザイン・分析設計を行い、ある業界や技術分野において主要プレイヤーや注目されるベンチャー・スタートアップなどを一般情報から把握しますが、事前にすべて把握できるかというとそうではありません。
名寄せ作業を行っているときに、「あぁ、やっぱりこの企業は出願多いな」とか、「あれ、こんな会社がこの技術分野にも出願しているんだ」、「?、この会社はなんだろう」(といって、ちょっとGoogleで調べてみる)などなど、最終レポートをまとめるためのネタ集めを行っています。
特許出願の動向と市場・マーケットの動向は必ずしも同じではありません。
特許出願がメチャクチャ多いのに、マーケットシェアはあまり大きくない、その逆も然り。
私にとっては、分析着手時の初期仮説を補強したり、また軌道修正したりする良い機会が「名寄せ・名義統制作業」になっています。