見出し画像

Pythonで特許マップを作成してみる#3

今回はデータの前処理を行いたいと思います。

データの前処理とは、特許情報分析に適合するような形式にデータを修正すること、のような意味となります。

データの前処理に関しては、使い慣れたエクセルで処理してしまうのが早いですが、それでは勉強になりませんので、ここではPython縛りで処理したいと思います。

といっても知識がありませんので、以下の参考図書を買ってきました。

現場で使える!pandasデータ前処理入門(株式会社翔泳社)

この本がベストなのかわかりませんが、とにかく発行日が最近の本を選びました。

素のデータが以下のようになります。

画像1

まず、出願日を修正したいと思います。

特許出願件数は年単位で集計したいと思いますので、出願日の「月日」の部分が余計となります。

そこで西暦の部分だけ取り出すにはどうすればよいのかと、上記の本を読みましたところ465ページに文字列の抽出メソッドがありましたので使ってみました。

df_data['year']=df_data['出願日'].str.extract('(d/d/d/d)',expand=True)

出願日から数字4つの塊をyearへ抜き出すという処理になります。実行しますと以下のようになりました。

画像2

右端に西暦のみの列が追加されましたので、うまくいったことが分かります。初心者にはこれだけでも感動です。

次回は、出願人の処理を行いたいと思います。

いいなと思ったら応援しよう!