Pythonで特許マップを作成してみる#6
前回は出願人の処理を行いましたので、今回はFIの処理を行いたいと思います。
やり方は、出願人と同じなのですが、問題もあります。FIは、セルに以下のような感じで入力されています。
G01K7/00,341@Z,G01K1/02@E,A61F7/00,300,A61F7/00,310@F,A61B5/01,250,A63B69/00@Z
前回のように、カンマで分割した場合には、
G01K7/00,
341@Z,
G01K1/02@E,
A61F7/00,
300,
A61F7/00,
310@F,
A61B5/01,
250,
A63B69/00@Z
となってしまいます。
理想的な分割としては
G01K7/00,341@Z,
G01K1/02@E,
A61F7/00,300,
A61F7/00,310@F,
A61B5/01,250,
A63B69/00@Z
となります。
対応としましては、いろいろあると思いますが、ここでは数字間のカンマを、replaceメソッドをつかって、他の語("-"など)に置き換えることで対処します。
df_data['FI']=df_data['FI'].str.replace(pat='0,3',repl='0-3')
置き換えて分割すると以下のような感じとなります。FIの筆頭を無事抽出できております。
ということで、データの前処理は終わりましたので、次回はピボットテーブルを作りたいと思います。