テキスト分析
使いどころ
・テキスト分析を属人化させたくないとき(再現性が欲しいとき)
・分析対象のテキストが大量にあるとき(少なければ人間が確認したほうがよい)
基本的にテキスト分析とは効率化の手段で、可能なら人間(分析観点をきちんと持てている)が見るに越したことはない
具体的な分析対象
・アンケート
・大規模文章
・SNS
用語
・テキストマイニング:定性データ(平均などを計算して比較したりできない)であるテキストデータを分析すること。ルールベースで分析する手法もあるし、機械学習を使う手法もある。
・自然言語処理(NLP):テキストマイニングの手法のひとつ。高度・専門的な文脈で使う。長文要約AI(イライザダイジェスト)など。
ツール
データ分析ツールの機能を分析ワークフローごとに区分すると、
①データ読み込み:他アプリとのコネクタがあるか、OCRできるか、文字起こしできるか、など
②前処理:大量データを扱えるか、探索的データ分析用の可視化(可視化しながら試行錯誤できる)があるか、など
③モデル構築:ノンコードな直感的なGUIを提供しているか、など
④モデル組み込み:Webアプリなどに簡単に埋め込めるか、など
あとは、チームで使えるか(SaaSか)も結構だいじ
・汎用ツール:Excel
・生成AI:ChatGPT
※再現性がないので注意
・テキストマイニングアプリ:KH Coder(https://khcoder.net/、内部で形態素解析エンジンを使っている)
・形態素解析エンジン(日本語用):MeCab、ChaSen
データ形式
・定量データ
・数値データ(量的変数):数値で表現できる
・財務情報:金額で表現できる
・非財務情報:金額で表現できない(個数、人数など)
・カテゴリカルデータ(質的変数):数値で表現できない(性別、優/良/可など)
・定性データ:定量化できない
・構造化データ:RDBに格納されている
・非構造化データ:生テキスト(文章)、画像、動画、音声
・時系列データ
・クロスセクションデータ
・パネルデータ:クロスセクションデータ✕時系列データ
分析手法
・頻度分析
・ポジネガ分析
・形態素解析
自然言語解析は次の手順で文章を処理する。
1. 形態素解析(テキストを単語に切り分ける)
2. 構文解析(単語同士の関係性から文の構造をいくつか推測する)
3. 意味解析(推測された構文のうち正しい構文を1つに絞る)
4. 文脈解析(複数の文にまたがって、1~3を実施する)
1~4に行くにしたがって、コンピュータの意味理解の精度は落ちる。これは冒頭に説明したとおり、自然言語は人工言語と異なって解釈の余地が大きいためだ。
時系列分析
LSTM
可視化手法
・共起ネットワークグラフ
・ワードクラウド
コレスポンデンス分析(対応分析)
動画
文章の類似度を測る
・tf-idf(Term Frequency * Inverse Document Frequency):ある文章における単語の特徴
・cos類似度:単語ベクトルがどれくらい同じ方向を向いているか