見出し画像

フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット

ウチダマサトシ

2024年2月19日 03:44

主だったところで

LLM-jp-13B
weblab-10b
PLaMo-13B
Stockmark-13b
Japanese StabeleLM Alpha

の5種類で使われているデータセットについて、まとめました。
とりあえず、mc4とwikipediaはだいたい使われてるようですね。

疑問点

wikipediaの日本語データつかってるという記述が、ちょいちょい見られがHugging Faceのwikipediaデータセットには日本語がないっぽい。
wikipediaの日本語dumpから取ってる？

データセットのほうよりdumpsのほうが最新情報なので使えるならdumpsのほうが良いような気がする。

参考

https://scrapbox.io/miyamonz/huggingface%2Fdatasets%E3%81%A7%E6%97%A5%E6%9C%AC%E8%AA%9E%E7%AD%89%E3%81%AEwikipedia%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89%E3%81%99%E3%82%8B

いいなと思ったら応援しよう！