[ 備忘録 ] Rでテキスト分析(準備編)

お勉強も兼ねて、以下を見ながらやってみた。というお話です。(ほとんど、自分用のメモ。)

RとRStudioは導入済みなので、まずは、Rで以下の5つのコマンドを実行し、パッケージをインストール。

install.packages("tidyverse",dependencies = T)
install.packages("wordcloud",dependencies = T)
install.packages("igraph",dependencies = T)
install.packages("topicmodels",dependencies = T)
install.packages("tidytext",dependencies = T)


次にMeCabの準備をします。

http://taku910.github.io/mecab/#download から、MeCab本体とIPA辞書をダウンロードし、インストール。インストールは、次のコマンドを実行していったのですが…

tar zxfv mecab-0.996.tar.gz
cd mecab-0.996
./configure --with-charset=utf8
make

make コマンドを実行すると、次のようなエラーが!

xcrun: error: invalid active developer path (/Library/Developer/CommandLineTools), missing xcrun at: /Library/Developer/CommandLineTools/usr/bin/xcrun

調べてみると、Xcode Command Line Toolのインストールをしていなかった(?)ようなので、次のコマンドを実行。

xcode-select --install

ポップアップが出てくるので、流れにそって進みしばらく待つ。

インストールが終わったら、もう一度./configure からやり直してmakeコマンドを実行。

./configure --with-charset=utf8 
make
make check
su
make install

辞書も同じようにインストール。

tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801
./configure  --with-charset=utf8
make
su
make install


無事、完了。
MeCabのインストールが終わったら、Rに戻ってRMeCabのパッケージをインストール。

install.packages("RMeCab", repos = "http://rmecab.jp/R")

さあ、どうだ!

library("RMeCab")
RMeCabC("すもももももももものうち")

実行すると・・・

[[1]]
名詞
"すもも"
[[2]]
助詞
"も"
[[3]]
名詞
"もも"
[[4]]
助詞
"も"
[[5]]
名詞
"もも"
[[6]]
助詞
"の"
[[7]]
名詞
"うち"

できました!本日はここまで。
(はじめ、MeCabインストール時に文字コードの設定を忘れていて、文字化けしてしまい、解決に少し時間がかかったのは秘密。)

(参考URL)
MeCabのインストール
https://kscscr.com/archives/m1-mac-mecab-and-rmecab-install.html
一度インストールしたMeCabのアンインストール方法
https://www.nooozui.com/entry/20191229/1577558670
Xcode Command Line Toolのインストール
https://blog1.mammb.com/entry/2019/12/03/225607


この記事が気に入ったらサポートをしてみませんか?