見出し画像

Google Colab での JapaneseEmbeddingEval による 日本語Embeddingの評価手順

「Google Colab」での「JapaneseEmbeddingEval」による日本語Embeddingの評価手順をまとめました。


1. JapaneseEmbeddingEval

「JapaneseEmbeddingEval」は、oshizo さんが作成されてる、日本語 Embedding の評価コードです。

2. 評価データセット

「JSTS valid-v1.1」(1457ペア)と「JSICK test」(4,927ペア)の2つのデータセットで評価しています。

・JSTS valid-v1.1

・JSICK test

3. Colabでの実行

Colabでの実行手順は、次のとおりです。

(1) 「11_intfloat_multilingual-e5-large.ipynb」をGoogleドライブに配置して開く。
今回は、「multilingual-e5-large」の評価を実行するコードを使います。

(2) Colabのメニュー「編集→ノートブックの設定」でGPUを選択。
CPUでも動くと思いますが、処理速度アップを期待して設定してます。

(3) 1行目に以下のコードを追加して実行。

!pip install sentence_transformers

(4) 残りのコードを実行。
spearmanr()でデータセットのスコアとEmbedding距離の相関を計算しています。

・JSTS valid-v1.1

・JSICK test

【おまけ】 「query: 」なしで評価

multilingual-e5-large」は入力テキストにquery: 」を付加しないと精度が落ちるらしいので試しに、「query: 」なしで実行してみます。

・JSTS valid-v1.1

・JSICK test

「query: 」なしだと精度が落ちることが確認できました。

関連



いいなと思ったら応援しよう!