見出し画像

フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット

主だったところで

  • LLM-jp-13B

  • weblab-10b

  • PLaMo-13B

  • Stockmark-13b

  • Japanese StabeleLM Alpha

の5種類で使われているデータセットについて、まとめました。
とりあえず、mc4とwikipediaはだいたい使われてるようですね。

疑問点

wikipediaの日本語データつかってるという記述が、ちょいちょい見られがHugging Faceのwikipediaデータセットには日本語がないっぽい。
wikipediaの日本語dumpから取ってる?

データセットのほうよりdumpsのほうが最新情報なので使えるならdumpsのほうが良いような気がする。

参考

https://scrapbox.io/miyamonz/huggingface%2Fdatasets%E3%81%A7%E6%97%A5%E6%9C%AC%E8%AA%9E%E7%AD%89%E3%81%AEwikipedia%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89%E3%81%99%E3%82%8B


いいなと思ったら応援しよう!