Teruaki Oka

NLPの後顧学者。

Teruaki Oka

NLPの後顧学者。

最近の記事

Newsela コーパスの文アライメントツールを使う

今回は簡単に n-gram ベースの『CATS』使う方法。 [1] CATS: A Tool for Customized Alignment of Text Simplification Corpora [2] Sentence Alignment Methods for Improving Text Simplification Systems まずはなんとかして『Newselaコーパス(以下、単にNewsela)』を手に入れる。 リクエストしても、返事はなかなか来な

    • 英語 Wikipedia と Simple English Wikipedia の対応関係を観る(2)

      前回は、Simple Einglish Wikipedia (以下、SimpleWiki) と English Wikipedia (以下、EnWiki) を比較して同一記事タイトルが約20万件あるとわかりました。 ここからはその記事の本文テキストを見ていく準備をします。 前回の最後に同一の記事タイトル数を数えた時に 2つの dump データを 1つの json ファイルにまとめました。 共通記事タイトルをキーとして、共通記事タイトル(title)、EnWikiでの記事ID

      • PenLP の定数部分がわからなかったという話。

        https://aclanthology.org/2020.tacl-1.20.pdf の p.302 Table 2 の PenLP の式で 5 とか 1 という定数が出てきて、これはナンジャラホイ? という話になったのでメモ。 もともとの出どころは、下記の Wu et al. (2016) で、 Section 7 Decorder に出てくる (14)式  Length normalization (参考)ということまではたどり着いたけれど、そこにも定数の意味が書い

        • クラスタリングツール bayon インストール

          管理者権限なし。ローカルインストール。sparsehash インストールして動かす方法メモ。 $ git clone https://github.com/sparsehash/sparsehash$ cd sparsehash$ ./configure --prefix=/work/oka/lib/sparsehash/$ make$ make install$ git clone https://github.com/fujimizu/bayon$ cd bayon$

          英語 Wikipedia と Simple English Wikipedia の対応関係を観る(1)

          Simple English Wikipedia は名前の通り、Simple な英単語と文法を使って書かれた英語版 Wikipedia です。 この Simple な英語で書かれた Wikipedia 記事と通常の英語版 Wikipedia 記事の間の差異や一致を見ていきます。 まずはデータの取得から。クロールせずとも dump が公開されているので、今回は両方 2023/07/01 の dump を使いました。 英語版 Wikipedia(enwiki-2023070

          英語 Wikipedia と Simple English Wikipedia の対応関係を観る(1)

          短単位自動解析用辞書を作る(5)

          設定ファイルの準備 いよいよ解析用辞書の学習フェーズです。『MeCab』用の辞書の学習にはseed として以下の設定ファイルが必要です。 今回の目的は最新版『UniDic』の軽量化と設定ファイルの不備の修正なので、『unidic-csj-202302_full』のものを修正して使いました。 dicrc は、ほぼ別モノに差し替えていますが、主な変更点は下記の通り。 eval-size が 12 になっていたので 10 に修正 基本10素性で一意識別できますし、逆にでき

          短単位自動解析用辞書を作る(5)

          短単位自動解析用辞書を作る(4)

          学習用コーパスを用意する 『UniDic』の学習には最低限、『現代日本語書き言葉均衡コーパス(BCCWJ)』や『日本語話し言葉コーパス(CSJ)』が必要です。 しかしこれらのコーパスはお高く、アカデミックでない一般(非営利)ですと、 BCCWJ: 20万円 CSJ: 25万円 となっています。(2023/7月現在) しかも最新版の『UniDic』(ver. 202302) は明示されていませんがおそらく上記以外の国語研内部で開発しているコーパスも学習に使っています。これは

          短単位自動解析用辞書を作る(4)

          短単位自動解析用辞書を作る(3)

          連接表を圧縮する(その2) 前回書いた圧縮法で、『UniDic』の matrix.def は、 21,202x18,859 (5.9GB) → 18,157x15,572 (4.2GB) と、約70%のサイズに圧縮できました。 ただ、これでもまだサイズが大きいので、さらに小さくしてきます。 前回の圧縮方法は、 まず matrix.def の行を成す right-id に着目し、列を成す left-id をインデックスとした連接コストのベクトルとみたとき、同一のベクトルを

          短単位自動解析用辞書を作る(3)

          短単位自動解析用辞書を作る(2)

          連接表を圧縮する(その1) 前回書いたモチベーションの1つ目は『UniDic』の単語連接表 matrix.def が大き過ぎるというものでした。 これを最終的に 1/100 の大きさまで圧縮できたのですが、順を追って書いていきます。 /unidic-cwj-202302_full$ head matrix.def21202 188590 0 00 1 -18140 2 -18140 3 -18140 4 -18140 5 -18140 6 -18140 7 -18140

          短単位自動解析用辞書を作る(2)

          短単位自動解析用辞書を作る(1)

          モチベーション問題意識、問題提起もしくは Issue とも言いますが、スタートとなったモチベーションはこの2つ。 短単位自動解析用、すなわち『MeCab』の辞書としての『解析用UniDic』(以降、単に『UniDic』)の現状の最新版は、2023年03月24日公開の -202302。(2023年7月現在) 以下の4つです。 (https://clrd.ninjal.ac.jp/unidic/back_number.html) unidic-cwj-202302.zip (

          短単位自動解析用辞書を作る(1)