Pythonで特許マップを作成してみる#6

2020年8月30日 10:01

前回は出願人の処理を行いましたので、今回はFIの処理を行いたいと思います。

やり方は、出願人と同じなのですが、問題もあります。FIは、セルに以下のような感じで入力されています。

G01K7/00,341@Z,G01K1/02@E,A61F7/00,300,A61F7/00,310@F,A61B5/01,250,A63B69/00@Z

前回のように、カンマで分割した場合には、

G01K7/00,
341@Z,
G01K1/02@E,
A61F7/00,
300,
A61F7/00,
310@F,
A61B5/01,
250,
A63B69/00@Z

となってしまいます。

理想的な分割としては

G01K7/00,341@Z,
G01K1/02@E,
A61F7/00,300,
A61F7/00,310@F,
A61B5/01,250,
A63B69/00@Z

となります。

対応としましては、いろいろあると思いますが、ここでは数字間のカンマを、replaceメソッドをつかって、他の語（"-"など）に置き換えることで対処します。

df_data['FI']=df_data['FI'].str.replace(pat='0,3',repl='0-3')

置き換えて分割すると以下のような感じとなります。FIの筆頭を無事抽出できております。

ということで、データの前処理は終わりましたので、次回はピボットテーブルを作りたいと思います。

いいなと思ったら応援しよう！