Google Colab での JapaneseEmbeddingEval による 日本語Embeddingの評価手順
「Google Colab」での「JapaneseEmbeddingEval」による日本語Embeddingの評価手順をまとめました。
1. JapaneseEmbeddingEval
「JapaneseEmbeddingEval」は、oshizo さんが作成されてる、日本語 Embedding の評価コードです。
2. 評価データセット
「JSTS valid-v1.1」(1457ペア)と「JSICK test」(4,927ペア)の2つのデータセットで評価しています。
・JSTS valid-v1.1
・JSICK test
3. Colabでの実行
Colabでの実行手順は、次のとおりです。
(1) 「11_intfloat_multilingual-e5-large.ipynb」をGoogleドライブに配置して開く。
今回は、「multilingual-e5-large」の評価を実行するコードを使います。
(2) Colabのメニュー「編集→ノートブックの設定」でGPUを選択。
CPUでも動くと思いますが、処理速度アップを期待して設定してます。
(3) 1行目に以下のコードを追加して実行。
!pip install sentence_transformers
(4) 残りのコードを実行。
spearmanr()でデータセットのスコアとEmbedding距離の相関を計算しています。
・JSTS valid-v1.1
・JSICK test
【おまけ】 「query: 」なしで評価
「multilingual-e5-large」は入力テキストに「query: 」を付加しないと精度が落ちるらしいので試しに、「query: 」なしで実行してみます。
・JSTS valid-v1.1
・JSICK test
「query: 」なしだと精度が落ちることが確認できました。