Word2Vec(MeCab) を使ってみる
はじめに
ここでは、Word2Vecのインストールを補足程度に記しておく。
詳しい内容は、引用素のサイトを見て欲しい。
環境
・MacBook Pro 15 (2017)
・Python 3.7.6
コーパスの用意
・データのダウンロード
ここでは、最も入手が簡単なWikipediaのデータを使用する。
注:ファイルサイズ 3.25GB(2020/12/8)
$ curl https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 -o jawiki-latest-pages-articles.xml.bz2
・WikiExtractorのインストール
gitから WikiExtractorをインストールする。
失敗する場合、インストール方法が変わっている可能性があるので、ページを見て確認してほしい。
$ git clone https://github.com/attardi/wikiextractor.git #ダウンロード
$ cd wikiextractor
$ python setup.py install #インストール
$ python -m wikiextractor.WikiExtractor jawiki-latest-pages-articles.xml.bz2 #XMLファイルをパースして記事本文だけを取り出します
処理には、かなり時間がかかる。
ディレクトリtext/ 以下に結果が格納される。
この結果をまとめる。
$ find text/ | grep wiki | awk '{system("cat "$0" >> wiki.txt")}'
wiki.txtというコーパスが完成する。
参考記事では、3つ目のコマンドが実行できなかったが、こちらでは修正してある。