
初心者向け!KHcoderで特許マップを描いてみよう(2) 「前処理がポイント」編
こんにちは!この記事は「知財系もっとアドベントカレンダー2021」の参加記事です。メリークリスマス!
また、この記事は前回記事の続編でもあります。こちらでは具体的な処理のコツとして
「①KHcoderで特許マップを描く時には、前処理で禁止語/強制抽出語を使うと良いですよ。②「外部見出し」を作っておくのもおすすめ。③特許マップだったら、利用語数をデフォルトより多めに設定すると見やすいかも?」という話を書きます。
ふふふ。ポイントは全部トップに書いたので、気楽に書かせて頂きます🎄
1.前処理で禁止語/強制抽出語を使うのがポイント
「KHcoderって何?」「前処理って何・・・」という方。
恐れ入りますが前の記事でご確認ください。
さて・・・
前回記事を見て事前練習してくださった方、いらっしゃるでしょうか?
中にはこんな感じに・・・

・公報中によく出てくる「本発明」「記載」「方法」などが
グルーピングされたり
・テイストが 「テイ」「スト」 と分かれてしまったりで
(こんなはずでは・・・)
という気持ちになった方も、おられたかもしれません。
KHcoderに特許データを読ませる時は、使用しない語/強制抽出語をうまく使うのがポイントです。
特許の文章に頻出する下記のような単語は、技術の特徴を表しているわけではないので、全部「使用しない語」に入れちゃいます。
本発明者ら 特許文献 上記問題点 上記課題 前記課題
上記従来技術 従来技術 発明 本明細書 少なくとも 好ましくは
要約 文献 技術 背景 課題 提供 目的 報告 知る 作用
使用しない語は「語の取捨選択」から入って

こちら、右の欄に「特許特有の表現」を入れておきます。
私はテキストファイルに「使用しない語セット」を作って保存し、いつも使い回しています。

それから「テイスト→テイ、スト」みたいなのは
上記の左側「強制抽出する語」に入れると、ちゃんと抽出してくれます。
それではここから・・・
「クリスマスについて書かれた特許の集合」を対象に、テキスト処理をしてみます。特許の件数は800件強です。
強制抽出する語を決める方法には
・分析結果を見て、目視で「こういう語で抽出したいな」という語を拾う
・あらかじめ複合語の候補を見繕っておく
という、2つの方法があります。
後者の場合は、テキストチェック、前処理が終わったファイルを対象に
「前処理→複合語の抽出」をします。

複合語リストが出たら「全複合語のリスト」を押します。
するとExcel形式でリスト出力されるので・・・

単語の要/不要で記号をつけて、ソートしたら
「強制抽出する語」「使用しない語」に簡単に貼り付けられますよね!

ということで、「強制抽出する語」「使用しない語」を設定し
「クリスマスについて書かれた特許の集合」で共起ネットワークを書きました。電球にケーキにメッセージカードなどが特徴語のようです。

2.「外部見出し」準備もおすすめ
上記のマップだけでも「そうだね、クリスマスらしいよね。」という感じではあるのですが、これだけでは「ふーん」で終わってしまいそう・・・。
そこで、技術の流れ、流行の変化などを知る事はできないか?と
「外部見出し」を使ったマップがこちらです。

マップ上、赤い四角形の中に数字が入っているのが「出願年の外部見出し」です。私が注目したのは、マップ上に現れる「光源の種類」です。
1990-1995年頃は「電球」や「ソケット」ですが
2000-2005年頃は「光源」と「光ファイバー」が登場。
そして2005-2015の近くには「LED」が見えます。
昭和から平成初期といえば、
クリスマスツリーに飾るのは豆電球が定番でしたけど・・・

青色発光ダイオードが普及して、今はこうですものね。

照明技術の革新は、
クリスマスを彩る灯りにもしっかり応用されているのだな、と
改めて認識しました。
さて、こちらの「外部見出し」ですが、
読み込ませるCSVファイル側に「出願年」「名寄せ出願人」など、見出しに利用したい項目を準備しておきます。
そして共起ネットワークを作成する際に
右側から「共起関係の種類」で語-外部見出しを選択し、
CSVファイル上の項目を選択、でOKです。

3.「利用語数」を調整して更なる発見を
さて・・・KHcoderの「共起ネットワーク」
最初はたぶん、使用する語数を少なめに提示してきます。
「語数の違いとは?」
これは・・・同じデータで語数を変えたものを見比べると
イメージしやすいかと思います。
60語

80語

そして100語です。

少なすぎると”すかすか”になるし、表示されない特徴語も多い。
一方多すぎると”ぎっちり”して見づらくなる。
という感じで、
こればっかりは色々試して調整するしかないのですが・・・
「色々試して調整する」はい、ここです。
共起ネットワークのオプション設定画面で・・・

まず「実行時にこの画面を閉じない」にチェックします。
ここをチェックしておくと、気軽にたくさん試行錯誤できます。
そして、語数に関しては
「最少出現数を小さくすると、使える語数そのものが増える」
「描画する共起関係の数を増やすと、語と語の間の”線の数”が増えて、
結果的に語数が増える」 ということみたいです。
最初のうちはこの2箇所だけ変更するのが簡単かな、と思います。
国語の時間が得意だった人は、品詞の取捨選択も使いこなせそうですね。
ということで・・・
2回に分けてKHcoderの初歩的な使い方を書いてみました。
KHcoderのサイトには詳しいマニュアルもありますし
解説書も色々出ています。
「他の機能も、もっと使いこなすぞ!」という方は
サイトや書籍などをご活用ください。
特許情報活用、特許分析が注目を集める中
「それっぽい分析をやってみたいけど、ツールがない」方や
「ツールもあるけど、自分でデータの中身を確認したい」方に向けて
この入門記事がクリスマスプレゼントになったら嬉しいです。
この記事は「知財系 もっと アドベントカレンダー2021」
12/18の参加記事です。
下記のカレンダーから参加者の皆さんの素敵な記事に飛べます。
「もっと」ということは、他のカレンダーもあります。
オリジナルカレンダーと・・・
今年は大大大盛況!「もっともっとカレンダー」です。
仕事が年末進行で、なかなか読み切れない、追い切れない方は
年末年始の読み物にいかがでしょうか?
(私も年末年始に読む勢です)
それでは!
ちょっと早いですがメリークリスマス!🎄