pytext も便利そうやねぇ
次の #技術書典 のネタ、文書分類かニュース要約か迷う。どっちかなー、文書分類もどれくらいできるのかは公開しておいた方が良い気はするんよなー。
問題設定から取り組めるというのは裁量権が多くて、気が楽でいいなぁ
つい文書のトークナイズしたあとに表層形のまま、学習データを作ってしまうというミスをした。場合によるけども、データが少ない時は基本形に変換して、語彙数を抑えた方が精度が上がることを確認した。