科学系の基盤モデルのテキストとなりうるオープンな文献・データリストのメモ(適宜更新)

大規模言語モデルの事前学習に使えそうなデータセットを整理中です。
(24/1/22時点、本当にメモ書きです)


まとめサイト

英語と中国語のデータセットまとめ

日本語

データセット全般



教科書

諸々

BookCorpus
Project Gutenberg
CommonCrawl
ウィキペディア


国内

各大学の図書館関連のレポジトリ

国立国会図書館(NDL)のインターネット資料保存事業(WARP)

J-STAGE
KAKENデータベース

オープンアクセス論文

stam, nature系, frontiers
mdpi
PlosONE
PubMedCentral

コーパス関連

エルゼビアのオープンアクセス論文のコーパス (40k)

ライフサイエンス系のオープンアクセス論文のコーパス(600万件くらい?)

検索サイトなど

Patent Public Search : パテントなどの検索


化学系

zinc database: 大量の市販化合物のデータセット(not textデータベース)
有機反応データベース (名称を忘れてしまいました)

学会系

予稿集など。
過去のものは公開している学会が多いが、国会図書館に行かないと見られないケースなども有り。


いいなと思ったら応援しよう!