見出し画像

Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除

0. はじめに

こんにちは、株式会社D2Cデータサイエンティストの董です。

D2Cでは、広告配信を効率よく効果よく行うために様々な機械学習モデルを活用しています。
今回の記事では、大規模テキストコーパスを用いた言語モデルの学習にあたり、学習データにある準重複文書の除外テクニックについてご紹介します。

…この続きは、エンジニアのための情報共有コミュニティ「Zenn」に投稿しています。是非ご覧ください!