KH CoderとTableauでワードクラウドを作成する方法
Tableau でワードクラウドを作成しようとするとキーワードの集計をどうやって実施するかという問題が発生します。PythonやRを利用して集計することが可能ですが、コードを書けない場合どうすればよいのでしょうか?
テキストマイニングツールのKH Coderを利用することで、コードが書けなくても比較的簡易に出現キーワードの集計が可能になります。
今回はKH CoderとTableauを利用してコーディングできない人でもワードクラウドを作成する方法を紹介していきたいと思います。
KH Coderは、テキストマイニングのためのフリーソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事などさまざまなテキストの分析に利用が可能です。
KH Coderのインストール
以下リンクからパッケージをダウンロードしてKH Coderをインストールします。
KH Coder 3 ダウンロード(3.Beta.07e - 2023 07/24)
インストールに関する詳細の手順はこちらに記載があります。
KH Coderの使い方
今回は「君たちはどう生きるか」に関するツイートを分析対象としてKH Coderの設定方法を説明していきます。
調査するテキストデータの読み込み
KH Coderを起動しプロジェクトから新規を選択
新規プロジェクトのウインドウが表示されたら「分析対象ファイル」「分析対象とする列」「言語」について以下設定をしていきます。
分析対象ファイル:参照をクリック。調査対象のファイルを選択。
分析対象とする列:分析対象ファイルの中で分析対象のTextが記載されている列名を選択。
言語:日本語ではChaSenとMeCabが選択可能です。今回はChaSenを選択。
前処理の実施
分析対象のファイル読み込みが完了したら次は前処理の実施に進みます。前処理から「前処理の実行」をクリックします。
前処理が終了したら、キーワードの出現頻度の確認に進みます。
ツールから抽出語→抽出語リストをクリック。
抽出語リストの画面に、出現頻度が多い順にキーワードがリストアップされています。品詞/活用ではキーワードが分類された品詞も確認することができます。
抽出語リスト画面の左下「Excel出力」より抽出語リストのデータを取得します。
キーワードの出現回数の集計結果を得ることができました。
Tableauでワードクラウドの設定
キーワードの出現回数が集計できたのでTableauにてデータビジュアライゼーションの作業にはいっていきます。
ディメンションから「抽出語」をマークカードの「テキスト」にドラッグ。
メジャーから「出現回数」をマークカードの「サイズ」にドラッグ。
Vizが「テキスト」以外になっている場合、マークタイプを「テキスト」に変更します。
キーワードが多すぎて重要なキーワードの把握が難しいため、フィルターで出現回数が150回以上のキーワードのみに絞り込み。また、「君たちはどう生きるか」は映画の話題を把握したい場合、重要では無いと考え非表示設定としています。だいぶ見やすくなりました。
キーワードの重要性を識別しやすくするため、キーワードの出現頻度に応じて色を追加したいため、ディメンション「出現回数」をマークカードの「色」にドラッグ。
凡例は不要なので、非表示に設定します。
ワードクラウドが完成しました。慣れると非常に簡単に作成できるのではないでしょうか。
「パンフレット」に関する話題が意外に多いのが面白いなと思いました。品詞別にみたりすると新たな気づきがあるかもしれません。
ワードクラウドを作成したいと思っていたがキーワードの出現回数カウントができず諦めていた人がいたらKH Coderを利用してみてはいかがでしょうか?簡単に集計ができると思います。