特許文書の解析

概要

部員の熊谷素生と田中颯、加藤竜一、高山悠太が、岡山大学大学院社会文化科学学域の姜佳明先生の研究補助を行いました。国際的な観点から最先端技術の動向を把握することを目標とし、大量の特許文書データについてクラスタリング等の解析を行いました。また、開発した解析ツールを姜先生の手元のPCで実行しやすいように実装しました。

はじめに

姜先生の研究は、国際的な技術動向に関する情報を大量の特許文書から抽出する手法の確立を目指すものです。具体的なテーマのひとつが、大量テキストデータと正解データの収集・加工および多言語データベースの構築であり、このうちテキストデータ解析について基本的な既存手法を実装し、今回の研究課題への応用の観点から解析手法の選定を行う必要がありました。

手法

文書のクラスタリングを行い、その過程で得られるフレーズの出現情報の可視化を行いました。具体的に、「グリーンイノベーション」に関する英語・日本語の特許文書を関連キーワードにより抽出し、解析を行いました。まず、日本語の特許文書については文書の分かち書きを行い、LDAを含めた複数の手法でクラスタリングを行いました。また、フレーズの出現数のヒストグラムと、共起ネットワークの出力を行いました。また、作成した一連のプログラムを容易に実行できるよう実装することで、試行錯誤による解析手法選定ができるようにしました。

結果

文書データを解析し、いくつかの可視化処理を行いました。さらに、これらのプログラムをノートパソコン上で実装し、適用する文書データを変更しながら同様の操作を繰り返し行えるようにしました。

考察

今回プログラム開発はUbuntu上で行いましたが、姜先生が使用するノートパソコンでは、可視化やエラーチェックが容易にできるように、Windows上でJupyter Notebookを使用しました。また、分かち書きにMeCabを用いましたが、他の構文解析モジュールや独自の学習用データによって全体の解析結果への影響がありそうだということがわかりました。

おわりに

特許文書データのクラスタリングや頻出フレーズ抽出等の解析を行い、解析用のプログラムを容易に使えるように実装することで、研究補助を行いました。今後は、解析用プログラムを実際に使用していく上で出てくる問題点に応じてプログラムを更新していく予定です。

備考

LDA: 潜在的ディリクレ配分法(Latent Dirichlet Allocation)。トピックモデルのひとつであり、文書クラスタリングに用いられる
Ubuntu: Linux系OSのひとつ
Jupyter Notebook: ブラウザによる統合開発環境。プログラム言語Python等用に使われる
MeCab: 日本語形態素解析エンジン

謝辞

この活動は、協力教員の馬場謙介先生の業務の補助として行いました。

著者

熊谷素生
田中颯
加藤竜一
高山悠太

いいなと思ったら応援しよう!