MATLABによる日本語のセンチメント分析

参考にしたサイト

MATLABを利用してセンチメント分析をするために以下のサイトを参考にした。

問題発生 辞書情報が文字化けしている。

参考までに、当方のPC構成は
・win10
・MATLAB 2019b

で以下の二つのファイルをダウンロードし、内容の確認を行った。

1.wago.121808.pn

小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一. 意見抽出のための評価表現の収集. 自然言語処理,Vol.12, No.3, pp.203-222, 2005. / Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto, Kenji Tateishi. Collecting Evaluative Expressions for Opinion Extraction, Journal of Natural Language Processing 12(3), 203-222, 2005.
2.pn.csv.m3.120408.trim

東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, 言語処理学会第14回年次大会論文集, pp.584-587, 2008. / Masahiko Higashiyama, Kentaro Inui, Yuji Matsumoto. Learning Sentiment of Nouns from Selectional Preferences of Verbs and Adjectives, Proceedings of the 14th Annual Meeting of the Association for Natural Language Processing, pp.584-587, 2008.

著者はそれぞれのダウンロードファイルの下に記載した。

ここからが問題、とりあえずダウンロードしてファイルを開いて中身を確認しようとしたが、データが文字化けして読むことが出来ない。

そこで、wago.以下略に関しては、メモ帳でいったん開いて保存時にエンコードをUTF-8からANSIに変更して保存しMATLABで読み込めるかを確認する。

読み込めた。同様にpn.以下略ファイルもメモ帳でUTF-8からANSIに変更し保存する。

この状態で、まずwagoのファイルをimport_posneg.mで読み込めるかを確認する。(xlsreadで確認すればいいんだけどね)

もう眠いので詳細は以下のサイトに記載したので気になる方はご一読を。


いいなと思ったら応援しよう!