Pythonで特許マップを作成してみる#5
前回は出願人の名称から株式会社を除去する修正を行いましたが、今回は出願人/権利者から出願人(筆頭)を抽出したいと思います。
J-platpatからダウンロードしたCSVの出願人/権利者の列には、複数の出願人が以下のような感じで存在します。
出願人(筆頭), 出願人(共同1), 出願人(共同2), ・・・
出願人同士はカンマで区切られておりますので、これを利用して出願人(筆頭)の切り出しを試みます。
あんちょこをみますと、文字列の分割メソッド(split メソッド)があるようですので、これを使用します。
df_data['出願人(筆頭)']=df_data['出願人/権利者'].str.split(',',expand=True)
これを実行しますと以下のように、出願人(筆頭)が分離した列が生成されました。
共同出願人をどうするのか、という意見もあると思いますが、これは以後の課題として今回は削除してしまいます。
次回はFIの加工を行いたいと思います。