短単位自動解析用辞書を作る(3)
連接表を圧縮する(その2)
前回書いた圧縮法で、『UniDic』の matrix.def は、
21,202x18,859 (5.9GB) → 18,157x15,572 (4.2GB)
と、約70%のサイズに圧縮できました。
ただ、これでもまだサイズが大きいので、さらに小さくしてきます。
前回の圧縮方法は、
まず matrix.def の行を成す right-id に着目し、列を成す left-id をインデックスとした連接コストのベクトルとみたとき、同一のベクトルを