BPEの概要
形態素解析で低頻度語への対応方法を提案
機械翻訳の評価指標で性能の向上を確認
形態素解析の手法
日本語だとmecabといった辞書ベースの手法が主に用いられる
サブワード
トークンをさらに文字ベースで分割したあとに頻度でペアを見つけることを繰り返す。
サブワード正則化
様々なトークンの分割を用いて学習することによって、色々なサブワードについて学習でき、低頻度語に対しても学習が進むと考えている。
SentencePeace は内部でEMアルゴリズムを用いている。
SentencePeace のデメリット
直観的なアルゴリズムではない。
BPE
ランダムにサブワードのChunk化をスキップすることに様々なサブワードを学習する。
BPE のメリット
アルゴリズムが直観的。
低頻度語の学習が進む。
機械翻訳で性能アップ。
デメリット
計算負荷が高い。
今後の課題
計算量の改善
いいなと思ったら応援しよう!
私にカフェオレを飲ませるためにサポートしてみませんか?