テキストマイニングの基礎知識|3つの手法から活用例までわかりやすく解説
こちらの記事は2021年3月30日にRetrieva OFFICIAL BLOGにて掲載された記事を再掲載したものとなります。
テキストマイニングとは、テキストデータを活用し、情報を抽出することを指します。社内のデータを活用して、テキストマイニングを行いたいと考えている担当者も多いでしょう。この記事では、テキストマイニングとは何なのか、目的や種類、代表的な手法などについて詳しく解説します。導入を検討している場合は、ぜひ参考にしてください。
テキストマイニングとは?
テキストデータから情報を抽出することを「テキストマイニング」といいます。「自然言語処理」という解析手法を用いていることが特徴で、構造化されていないテキストデータから有益な情報を抽出できます。
テキストマイニングは、構造化されたデータから情報抽出を行う「データマイニング」から派生した手法です。データ分析で活用されていたアプローチや技術などを応用して発展してきました。
日本語のテキストマイニングは英語より解析が難解
日本語のテキストマイニングは、英語のテキストマイニングに比べて難易度が高いとされています。英語は、単語ごとにスペースで区切られていて単語の終わりが判別しやすくなっていますが、日本語ではそのような区切りがありません。また、日本語特有の敬語や漢字、方言、同じ意味を表す言葉が多数あるなど、解析の難易度は高くなっています。
テキストマイニングの目的
テキストマイニングは、さまざまな目的で活用されます。例えば、問い合わせやアンケートなどを解析してマーケティング観点で活用する、商品やサービスの改善点の把握などに活用できます。また、ビッグデータを解析することによって市場動向予測などが可能になるため、将来予測に役立てることも目的のひとつです。
テキストマイニングの種類
テキストマイニングは「探索的データ解析」と「文書分類」の2つに分けられます。
探索的データ解析
一般的に「テキストマイニング」といった場合、探索的データ解析のみを指しているケースもあります。しかし実際には、テキストマイニングの一種にすぎません。探索的データ解析では、テキストを単語や文節で区切る形態素解析を用います。単語などに分解・解析し、新しい情報を抽出します。
文書分類
文書分類とは、テキストデータを1種類以上に分類することです。文書分類は「教師あり文書分類」と「教師なし文書分類」の2種類に分けられます。以下で、それぞれの特徴を解説します。
教師あり文書分類
教師あり文書分類とは、外部の情報を参照する方法のことで、分類器を用いて分類します。分類器とは、あらかじめテキストと振り分け先であるクラスの関係性を学習させたもののことです。分類器を用いる場合には、学習と分類という2フェーズがあり、多くの学習をさせることによって分類精度が向上します。
教師なし文書分類
教師なし文書分類とは、外部の情報を参照しない方法のことで、クラスタリングによって分類されます。クラスタリングとは、テキストを類似する特徴ごとに分類する方法です。クラスタリングでは、あらかじめ学習が必要になる分類器とは異なり事前準備が必要ありません。テキストデータのみで、指定した数に分類できることが特徴です。
テキストマイニングの代表的な手法
テキストマイニングではどのような手法が使われるのでしょうか。ここでは、代表的な手法を3つ紹介します。
センチメント分析
センチメント分析とは、商品やサービスなどに対する顧客の感情を分析する手法です。「ポジティブ」「ネガティブ」「中立」の3パターンで評価します。消費者が商品・サービスに対してどのような感情を持っているかをランキング化できるため、商品の評価把握が可能です。SNSやレビューなどを解析し、消費者の嘘のない意見を抽出するのに向いています。
対応(コレスポンデンス)分析
対応(コレスポンデンス)分析は、編集や編集を行う前の「ローデータ」や、表に書かれているクロス集計などのデータ結果を散布図で表現する解析方法です。これにより、項目間の関係などを可視化できます。対象データを比較しやすくなるため、結果が把握しにくいデータに活用されます。例えば、ブランドイメージ分析などに用いられることが多いです。
主成分分析
主成分分析は、ビッグデータなどの膨大な量のデータを分析する際に用いられる手法です。データ量が膨大になればそのぶんデータ項目が多くなるため、分析しにくくなります。主成分分析では、大量のデータ項目を少数に変換することで分析しやすくします。ただし、一部の情報を切り捨てることになるため、慎重な判断が必要です。
テキストマイニングでできること|活用例で紹介
テキストマイニングでは、どのようなことができるのでしょうか。活用例を3つ紹介します。
顧客からのフィードバックを分析
テキストマイニングでは、顧客からの声を分析できます。例えば、コンタクトセンターやSNS、商品アンケートなどで寄せられた顧客の意見や要望を分析することで、商品やサービスの改善・開発などに活用可能です。アンケートや問い合わせなどのフィードバックから改善点を分析したり、競合他社と比較・分析したりする際に役立ちます。
社内業務の改善策へ活用
テキストマイニングによって、社内業務の課題や問題点などを洗い出しが可能になります。情報が共有されずに属人化してしまっている業務を洗い出すことにより、ノウハウの標準化が保たれます。また、成果を上げている優れた社員のナレッジを分析・抽出することで、業務改善や人材育成にもつながります。
市場動向や需要の予測を立てる
テキストマイニングでは、膨大な量のデータ解析が可能です。そのため、解析結果から市場動向や今後のニーズといった将来予測も立てやすくなります。例えば、SNSなどに投稿される膨大な量のコメントを分析することで市場動向を予測し、自社商品やサービスの今後の需要などを検討できます。
テキストマイニングを活用する際の注意ポイント
漠然とした目的では情報を抽出しても活用が難しいため、目標設定を明確にしましょう。チーム内や社内で共有・活用しやすくするために、データの可視化も必要です。担当者以外でもわかりやすいように分析結果を可視化しましょう。データの関係性などを把握することも重要になるため、網羅的な分析も必要です。
テキストマイニングをExcelで行う方法
Excelでテキストマイニングを行う場合には、文書分類ができないため、集計前に形態素分析が必要です。つまり、必然的に探索的データ解析を行うことになります。
手順
テキストを単語に分解する
Excelではテキストをそのまま分析できないため、下準備が必要です。はじめに、形態要素分析を用いてテキストを単語レベルに分解します。単語を分解していく方法として「MeCab」や「Janome」などを代表とする、形態素解析エンジンを活用することが一般的です。
単語の集計を行う
テキストを単語レベルに分解した後は、単語の集計を行います。単語がどのくらい登場しているのかを関数を使って集計します。この際、単語の表記ゆれの修正を行うことが重要です。表記ゆれとは「サーバー」や「サーバ」などのように、人や内容によって単語の表記方法が異なっていることを指し、これを修正することで正確な集計が可能になります。
ワードクラウドを作成する
集計が終わったら、ワードクラウドの作成を行います。ワードクラウドとは分析結果を視覚化したもので、テキスト内で対象となる単語がどのくらい出てくるかを文字の色や大きさなどに反映させた図表です。ワードクラウドの作成は、フリーのソフトかアドイン、もしくはプログラミングによって作成します。
使用できる主な関数
SUM関数
SUM関数とは、セルの範囲内に含まれている数値の合計を求めるための関数です。テキストマイニングにおいては、特定の範囲内の単語が何個あるのかを集計するときに使用します。基本的には、後述するCOUNTIF関数とあわせて使用することが多いです。
INDEX関数
INDEX関数はExcelではよく使われる関数で、指定したセルの値を調べるために用いるものです。テキストマイニングにおいては、SUM関数とあわせて利用することで、指定したセルからINDEX関数で指定した範囲までの合計値を求められるようになります。
COUNTIF関数
COUNTIF関数は、指定した条件に合致したデータを検索し、データに一致するセルが何個あるかを求めるための関数です。テキストマイニングにおいては、「単語の集計」の際に活用されます。COUNTIF関数を用いることで、指定した単語を含むセルがいくつあるのかを数えられるようになります。指定した単語を数えるだけで、複雑なデータには対応できません。
Excel以外でテキストマイニングを行うには?|おすすめのツールを紹介
Excelでは難しいデータでテキストマイニングを行う際には、その他のツールを活用しましょう。体験するには無料ツールでも十分ですが、データの共有やより正確なデータを分析するには有料ツールをおすすめします。ここでは、おすすめツールを紹介します。
YOSHINA
「YOSHINA」はクラスタリング(クラスター分析)を活用したツールです。クラスタリングとは、大きな集団の中から類似したもの同士を集めてグループに分ける統計的な分析手法を指します。クラスタリングした後に、独自のロジックでキーワードを抽出することが特徴です。データとアップロードするだけで簡単に分析が可能で、教師あり文書分類も搭載しています。
Predictor
「Predictor」は、分類器に該当するツールで、テキストデータの教師あり文書分類が行えます。テキストデータをAIエンジンで自動分類でき、適切な区分判定が可能です。
Talk Summarizer
「Talk Summarizer」は、形態素に分けてスコア付けをして、その中から重要だと思われる文章を抽出して要約するためのツールです。業務に必要な情報を自動抽出し、対話の要約文としてまとめられます。
まとめ
テキストマイニングはマーケティングや将来予測などに活用することを目的として行われます。Excelでも分析可能ですが、ツールを利用することでよりスムーズで正確な分析が可能になります。ぜひ検討してみましょう。
株式会社レトリバでは、AIソリューションのプロフェッショナルが自然言語処理AIを誰にでも使いやすい形で、課題解決に直結するプロダクトを提供しています。顧客の声などテキストデータの分析を支援する製品や、コールセンターにまつわるソリューションをトータルで提供するなど、さまざまなプロダクト展開をしています。テキストマイニングの活用を検討しているなら、ぜひ一度問い合わせてみてください。