- 運営しているクリエイター
#dataset
日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習
はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。
(ルールベースで真面目に清掃するスクリプトも存在します)
2/21追記 いくらか関連するコードをgithubにuploadしました。
データセットのダウンロードと内訳チェックhuggingfaceのda