見出し画像

KH Coder でテキストマイニングをやってみた kintone

kintoneの全体検索やアプリ内検索は便利でよく利用するのですが、「どのようなキーワードがどのような関係でいくつ使われているのか」というような分析をするのは難しいなと思っていました。

それをするためにはまずキーワードを分解するために形態素解析をする必要があるのですが、せっかくですのでついでにテキストマイニング(データマイニングのひとつ)にトライしてみようと思いつきました。元データはkintoneですが、テキストマイニング自体はとくにkintoneでなくても利用できます。

テキストマイニングとは何かについては、以下Wikipediaを参照してください。

テキストマイニング: text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である

KH Coder

テキストマイニングのツールは「KH Coder」を使ってみました。

KH Coderとは、計量テキスト分析またはテキストマイニングのためのフリーソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。

樋口耕一教授が開発されたフリーソフトウェアで、学会発表や論文など、KH Coder を用いた研究事例は 5,000件を数えているそうです。素晴らしいソフトをありがとうございます。書籍も購入しました。

まずはインストールからですが、以下一連の統計ER様の動画をひととおり視聴したらとくに私が追記するものはありません。統計ER様、貴重な情報をありがとうございます。

https://www.youtube.com/watch?v=w8lDTIqvYtg&list=PL_GLvL1SrOewbwCm7Ujt3m9A1OAeNtVO4&index=1

以上です。でおわっちゃうので。。。

kintoneのデータをテキストマイニングで分析してみよう!

実際のkintoneのデータを分析する手順を紹介します。
kintoneアプリストアからサンプル用にアプリを読み込みます。今回は顧客サポートパックを利用しました。

サンプルデータですので、テキストマイニングの対象とするには少し物足りないデータ量ですが、そのかわり動作テストはやり易いです。

アプリが3つ作成されますが、その中の「問合せ管理(顧客サポートパック)」を分析してみましょう。

文字列(複数行)フィールドの「詳細」フィールドが、テキストマイニングの対象になりそうですね。対応一覧をCSV出力します。

以上ここまで。テキストマイニングのサンプルデータをkintoneから取得しました。

KH Coder を使ってみよう!

では本題、さっそくKH Coderを使ってみます。今回は単に動かしてみるだけで分析方法については私がまだよくわかってないので触れてません。

ショートカットからkh_coder.exeを起動

テキストマイニングのサンプルデータから新規プロジェクトを作成します。
プロジェクト
新規

テキストマイニングのサンプルデータを指定してください。
分析対象とする列:詳細
言語:形態素解析ツール、MeCabChaSenかは好みですが、私はMeCabで

次に、入力データに問題がないか事前チェックします。
前処理
テキストのチェック

今回は問題ありませんでした。

続いて、実際の前処理を実行します。
前処理
前処理の実行

前処理が完了しました。

KWICコンコーダンス

では、どんな抽出がされたかみてみましょう。
ツール
抽出語
抽出語リスト

おおっ!詳細の内容が単語として集計されてる。

そして抽出語、例えば「ゲスト」をクリックしてみると、抽出語の前後の文章が表示されます。KWIC(クウィック)と言います。

さらにそれぞれの行をクリックすると、その行の詳細情報が表示されます。


そして、抽出語リストの左下の[Excel出力]をおすと

抽出語をExcelやCSVで出力することが可能です。単に文章の単語(キーワード)の出現数を調べたい場合には有効ですね(まずはコレをしたかったのがきっかけです)。

共起ネットワーク

そしてこれが面白い!!
ツール
抽出語
共起ネットワーク

それぞれの抽出語の関係性を図にしてくれます。
これhtmlにすることもできるんです。

実際のサイトはこちら
マウス操作でうにょうにょうごきます。

面白いですねー。今回note記事にした理由としてこれを見てほしかったというのが大きいです。

対応分析

もうひとつ紹介します。
ツール
抽出語
対応分析

これも面白い!
外部変数、例では問い合わせ種別との関係性をグラフ化しています。同じく詳細な分析方法ついては私はよくわかってません。

あと他にも「階層的クラスター分析」とか「自己組織化マップ」とかコーディングの機能とか色んな機能があって面白そうなのですが、今の私はこの辺でおなかいっぱい。ちゃんとやるならもっと腰を据えてやらないといけませんね。

とはいえ、こういうのはちょこっとでも手を出しておくのが大事だとおもうし、自分がわからなくってもアウトプットしておいたら誰かの何かのヒントになるかもしれないと思ってnote記事にしてみました。

ぜひぜひ、皆さんもデータサイエンティスト気分を味わってみてください!

いいなと思ったら応援しよう!