Pythonで特許マップを作成してみる#3
今回はデータの前処理を行いたいと思います。
データの前処理とは、特許情報分析に適合するような形式にデータを修正すること、のような意味となります。
データの前処理に関しては、使い慣れたエクセルで処理してしまうのが早いですが、それでは勉強になりませんので、ここではPython縛りで処理したいと思います。
といっても知識がありませんので、以下の参考図書を買ってきました。
現場で使える!pandasデータ前処理入門(株式会社翔泳社)
この本がベストなのかわかりませんが、とにかく発行日が最近の本を選びました。
素のデータが以下のようになります。
まず、出願日を修正したいと思います。
特許出願件数は年単位で集計したいと思いますので、出願日の「月日」の部分が余計となります。
そこで西暦の部分だけ取り出すにはどうすればよいのかと、上記の本を読みましたところ465ページに文字列の抽出メソッドがありましたので使ってみました。
df_data['year']=df_data['出願日'].str.extract('(d/d/d/d)',expand=True)
出願日から数字4つの塊をyearへ抜き出すという処理になります。実行しますと以下のようになりました。
右端に西暦のみの列が追加されましたので、うまくいったことが分かります。初心者にはこれだけでも感動です。
次回は、出願人の処理を行いたいと思います。