フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット
主だったところで
LLM-jp-13B
weblab-10b
PLaMo-13B
Stockmark-13b
Japanese StabeleLM Alpha
の5種類で使われているデータセットについて、まとめました。
とりあえず、mc4とwikipediaはだいたい使われてるようですね。
疑問点
wikipediaの日本語データつかってるという記述が、ちょいちょい見られがHugging Faceのwikipediaデータセットには日本語がないっぽい。
wikipediaの日本語dumpから取ってる?
データセットのほうよりdumpsのほうが最新情報なので使えるならdumpsのほうが良いような気がする。