特許のネットワーク分析(1).R

要約

・特許分析でのネットワーク分析は、主に共願人や発明者の解析
・テキストの共起の解析もあるけど後回し

特許のネットワーク分析

 要素間がどのように繋がっているのかを分析するのが、ネットワーク分析だ。と言い切ってしまったが、学問的にはよく知らない()
 それはさておき、特許を分析するときに、要素間のつながりを分析したいということはたまにある。
 例えば、特許文献のテキストデータから、単語(=要素)同士のつながりを分析する、いわゆる共起関係の分析のもネットワーク分析の1つだ。これは計量テキスト分析(テキストマイニング)の手法のひとつでもあって、特許に限らずテキストになっているものは何でも対象になる。
 例えば素童さんという方はとある分析で有名になった方で、タモリ倶楽部なんかにお呼ばれしたりもしている。ちなみに、自分がテキストマイニングに興味を持ったのは本当に素童さんのこれだったりする。

 テキストマイニングのことはさておいて、それ以外に特許特有でネットワーク分析をしたいものとなると、出願人同士・発明者同士の関係、また特許分類(FI)同士、つまりよく一緒になる分類が何なのかというのもある。
 簡易的には、例えば出願人Aの集合を作っておいて、その中をさらに出願人で分析してもよい。すると、出願人Aと一緒に出願をしている他の出願人(共願人)が誰か、つまり誰と誰が組んで事業を進めているのかが推測できたりする。
 ちなみに出願人や発明者も、今まで鬼の仇のように散々やってきたFIと同様に、マルチアンサーとして格納されていることが多い。
 マルチアンサー、またお前なのか。

ネットワーク分析をするための準備

 今回はとりあえず出願人を例にとってやってみる。出願人ができれば発明者でもできるし、前回までの方法を使えばFIだって当然できる(はず)。

 その1。要素間のつながりを分析をするということは、まず出願人を要素ごとに分ける必要がありそうだ。出願人はマルチアンサーとして出願人列に格納されていることが多い。要素をセパレータでつないで一つの要素であるかのようにしたのがマルチアンサーだから、真の要素ごとに分けてあげる必要がある。
 なお、データソースによっては、出願人(n)のような形で列が複数用意されていることもあるし、公報列と順番列と出願人列とがあって、公報1の3番目の出願人はCさんであるとなっていることもある。その時はその時で処理を変える必要があるが、基本は同じで、要素にわけておいて、線をつなぐ、だ。

 その2。要素に分けたら、次は要素間の関係性を表してあげる必要がある。イメージ的には、要素を点だとしたら、点と点を線で結ぶということだ。ネットワーク分析では、この点をノード、線をエッジと言ったりするとのことだ。

 では、ノード間にエッジがあることをどう表現するか、やり方はおよそ2つあるらしい。

 まずは隣接行列。これは、n行n列のマトリクス(n次正方行列)だ。
 p行q列の数字が1であれば、ノードpとノードqの間にエッジがあると考え、0であればエッジがないと考える。
 別の見方をすれば、p列だけを取り出すと、ノードpとの間にエッジがあるノードを示す列には1が入っていて、そうでなければ0になっている列ベクトルが、n行分だけくっついてマトリクスになっているとも言える。

 もう一つの方法は、どこからどこへつながっているのか、エッジの接続元と接続先のノードを2列で表す方法がある。この辺りで察しはつくのだけれど、つまりどこからどこへつながっていくのか、エッジの向きを示すこともできるということだ。

 上記の2つの方法で、同じものを表現するとこうなる。

     [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    0    1    0    0    0    1
[2,]    1    0    1    1    1    0
[3,]    0    1    0    0    0    1
[4,]    0    1    0    0    0    1
[5,]    0    1    0    0    0    1
[6,]    1    0    1    1    1    0

元 先
1   2
1   6
2   1
2   3
2   4
2   5
3   2
3   6
(以下省略)

 Rなので、ほぼ間違いなく誰かがすでにこの状態からネットワークを描画するためのパッケージを作っているので、とにかくこの状態にすることをまずは目指したい。

参考

補足

 特許の場合、ほとんどの場合でネットワークの向きを考える必要はない。たまに筆頭発明者や筆頭出願人に特別な何かを見出して向きを考えてしまう人はいるのだけれど、実務上、特別な意味はそこにないのだ。特許は科学論文ではないのでfirst authorもlast authorもない。出願人だって力関係や寄与の大小を示すとは限らない(権利持分が多い方が結果的に先に書かれることもあるけれど)。まあ、クソ転職コンサルが色々吹いているようだけれど、そのために順番を変えろとねじ込むクソ発明者が現れる原因になっているので、実務者としてはついでに主張しておく。

以上。


いいなと思ったら応援しよう!