【計量テキスト分析】#1 概要
こんにちは、ぽむぽむです。このシリーズでは LSE で履修したモジュールの中で1番印象に残っている Quantitative Text Analysis(計量テキスト分析)について記録していきます。
計量テキスト分析とは、テキストデータを量的なデータ(数値やベクトルなど)に変換して分析するものです。
例えば、こちらのトランプ氏のツイート。
こちらのツイート(document)は18単語からなりますが、"to" が2回出てきているので、出てくる単語の種類は17個ということになります。そして、その単語一つ一つをベクトルの要素としてみることで、ツイートの分析がベクトルの分析へと変わり、計量的な分析が可能となります。
ちなみに、このような政治家のツイートは思想を分析する際によく用いられます。
基本用語
corpus:分析対象となるテキストデータの集まり。
document:corpusを構成する1データ。ツイートの場合は1ツイート。
types:被りなしの単語。先ほどの例で言う17種類の単語たち。
tokens:単語
stems:単語から接尾辞を除いたもの。例えば "winning" は "win" になる。
lemmas:その単語の元となる単語。例えば "winner" は "win" になる。(stem の場合は "winner" のまま)
stop words:分析の対象から外される単語。"a" や "the"、"of" などは多くの document で頻出する単語だが、分析において意味を持たず、除外されることが多い。
feature:要素。先ほどの例で言う、ベクトルの一要素にあたるもの。
document-feature matrix(DFM):documentsを行、featuresを列にとった行列
基本的なアプローチ(Bag of words)
Corpus と document を定義
テキストの下準備(stemming や stop words の除外を施し、単語の被りを無くす など)
Features を定義
DFM を作成
行列を用いて計量的なあるいは統計的な分析を行う
分析結果を解釈
これは直感的には非常に分かりやすいアプローチなのですが、語句に慣れていないと分かりづらいと思いますので、例を用いて説明します。
例えば、以下のような二つのテキストがあったとします。
Text 1:A corpus is a set of documents.
Text 2:This is the second document in the corpus.
Text 1 を stem すると a, corpus, is, set, of, document の 6種類の単語の集まりになります。ここから stop words の a, is, of を除くと「corpus, set, document」が Text 1 の features になります。Text 2 を stem すると this, is, the, second, document, in, corpus の 7種類の単語の集まりになります。ここから stop words の this, is, the, in を除くと「second, document, corpus 」が Text 1 の features になります。
次に、DFM を作成します。行が document、列が feature ですので、
$$
\begin{array}{lcccc} \hline
document & corpus & set & document & second \\ \hline
text 1 & 1 & 1 & 1 & 0 \\
text2 & 1 & 0 & 1 & 1 \\ \hline
\end{array}
$$
となります。こう見ると、定量的な分析を用いずとも、text 1 と text 2 の違いが明瞭となり、特に text 2 が2番目(second)であると言う意味合いがより強調されたことが分かると思います。
実際には document や feature の数が膨大なテキストデータを分析していくことになるので、計量的・統計的な分析が必要になってきます。様々な手法がありますので、ぼちぼち記録していきたいと思います。
この記事が気に入ったらサポートをしてみませんか?