
Photo by
golchiki
Sentence BERT 日本語モデルの学習 メモ
BERTは自然言語処理タスクに強力に応用できるモデルである。
しかし、文章単位の特徴量をうまく取得できない。
[CLS] に文の特徴量が現れるという主張もあるが、 それほどタスクに対して有益な情報は含まれていないとこの論文は主張する。
文単位の特徴量を取得できるようにBERTを拡張するモデルがSentence BERTである。
以下はSentence BERT を日本語で作成する際の手順になる。
環境構築
Google colabでのモデル学習方法を行う。
!pip install -U sentence-transformers
!apt-get install mecab mecab-ipadic-utf8 python-mecab libmecab-dev
!pip install mecab-python3 fugashi ipadic
日本語版BERTを使うのでそれに伴ってmecabなどのインストールが必要
ここから先は
2,216字
¥ 500
私にカフェオレを飲ませるためにサポートしてみませんか?