Word2Vec(MeCab) を使ってみる

はじめに

ここでは、Word2Vecのインストールを補足程度に記しておく。
詳しい内容は、引用素のサイトを見て欲しい。

環境

・MacBook Pro 15 (2017)

・Python 3.7.6 

コーパスの用意

・データのダウンロード
ここでは、最も入手が簡単なWikipediaのデータを使用する。
注:ファイルサイズ 3.25GB(2020/12/8)

$ curl https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 -o jawiki-latest-pages-articles.xml.bz2

WikiExtractorのインストール
gitから WikiExtractorをインストールする。
失敗する場合、インストール方法が変わっている可能性があるので、ページを見て確認してほしい。

$ git clone https://github.com/attardi/wikiextractor.git #ダウンロード
$ cd wikiextractor
$ python setup.py install #インストール
$ python -m wikiextractor.WikiExtractor jawiki-latest-pages-articles.xml.bz2 #XMLファイルをパースして記事本文だけを取り出します

処理には、かなり時間がかかる。
ディレクトリtext/ 以下に結果が格納される。
この結果をまとめる。

$ find text/ | grep wiki | awk '{system("cat "$0" >> wiki.txt")}'

wiki.txtというコーパスが完成する。

参考記事では、3つ目のコマンドが実行できなかったが、こちらでは修正してある。



参考ページ:


いいなと思ったら応援しよう!