[ 備忘録 ] Rでテキスト分析(データ準備編)
前回の記事の続きです。
今回は、使用するデータの準備をしていきます。
まず青空文庫から、走れメロスのテキストデータをダウンロード
ダウンロードしたテキストから、物語以外の不要な部分を予め除いておいたファイルを読み込みます。(このとき、文字コードの指定を忘れずに!)
dat_text <- "/Users/shimabuku/Downloads/hashire_merosu.txt" %>%
read.table(stringsAsFactors = FALSE, header = FALSE, fileEncoding = "shift-jis")
上手く読み込めたかを確認するために、オブジェクト(dat_text)の内容を表示する次のコマンドを実行してみる。
dat_text %>% head() %>% as_tibble()
上手く読み込めたので、さっそく、MeCabを使って形態素解析を行います。
mecab_results <- dat_text %>% RMeCabDF()
mecab_results を実行すると、結果を見ることができます。
※head(mecab__results) のほうがいいかもしれない。
解析に扱いやすい形にするために、purrr::imap_ dfr() を通します。
また、CSVファイルとしても書き出しておきます。
dat <- mecab_results %>% imap_dfr(~ data.frame(term = ., class = names(.), sentences = .y, stringsAsFactors = F))
dat %>% write.csv("./data/mecab_results.csv", row.names = FALSE)
これでデータの準備が完了しました!