テキスト分析の大通り#21: Janomeでの形態素解析
補記その2。Janomeでの処理。ユーザー辞書の利用方法がカジュアルで良いなと思う反面、Sudachi同様複数の文書を扱う際にループをしなければならないのは面倒。Mecabのようにデータフレームそのまま複数文書を突っ込めるとありがたいのですが、できないため(もしくは単にやり方を知らないため)、データフレームの格子を外し、for文を書いて処理をしてます。以下にスクリプトを。
ユーザー辞書は以下2つの方式に対応しており、それぞれに以下のような感じで単語登録し、UTF8のcsvで作業ディレクトリに置いておきます。スクリプト側では関数をmwakati, swakatiに変えて処理を行っています。ぼる塾、山里亮太がまとまっているのがお分かりいただけるかと。
MeCab IPADICフォーマットjanomedic1.csvへの記載
ぼる塾,-1,-1,1000,名詞,固有名詞,一般,,,*,ぼる塾,ぼる塾,ぼる塾
簡略辞書フォーマットjanomedic2.csvへの記載
山里亮太,カスタム名詞,ヤマサトリョウタ
(TeradataやPython、およびPythonライブラリのインストールや環境構築、辞書登録、参考にしたページ等は以下にまとめています)
///
#analytics #pyhon #janome #形態素解析 #text #nlp #データ #分析 #teradata #sql