- 運営しているクリエイター
2023年12月の記事一覧
LLMの事前学習で利用されるmC4のデータを確認
はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました!
ダウンロード方法から一部データの確認までします。
mC4とは?mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの