[ 備忘録 ] Rでテキスト分析(データ分析編その1)
前回の記事の続きです。
まずは、分解された形態素の出現回数を数えてみる。
dat_count <- dat %>% filter(class == "名詞") %>% group_by(term, sentences) %>% mutate(wordCount = n()) %>% distinct()
head(dat_count)
実行すると、以下のようになる。
次に、結果を表示するためのマトリックスを作ってみる。
dat_BoW <- dat_count %>% select(- class) %>% pivot_wider(names_from = term, values_from = wordCount, values_fill = list(wordCount = 0))
head(dat_BoW)
実行すると、次のような結果が表示される。
単語出現回数マトリックスを作成することができた。
今度は、よく見るワードクラウドを作ってみる。
library(wordcloud)
dat %>% filter(class == "名詞") %>% select(term) %>% table() %>% wordcloud(words = names(.), freq = ., min.freq = 3)
実行すると・・・
たくさんのお豆腐!!!
フォントを指定して再度実行すると・・・
par(family = "HiraKakuProN-W3")
dat %>% filter(class == "名詞") %>% select(term) %>% table() %>% wordcloud(words = names(.), freq = ., min.freq = 3)
うまくできました!