科学系の基盤モデルのテキストとなりうるオープンな文献・データリストのメモ(適宜更新)
大規模言語モデルの事前学習に使えそうなデータセットを整理中です。
(24/1/22時点、本当にメモ書きです)
まとめサイト
英語と中国語のデータセットまとめ
日本語
データセット全般
教科書
諸々
BookCorpus
Project Gutenberg
CommonCrawl
ウィキペディア
国内
各大学の図書館関連のレポジトリ
国立国会図書館(NDL)のインターネット資料保存事業(WARP)
J-STAGE
KAKENデータベース
オープンアクセス論文
stam, nature系, frontiers
mdpi
PlosONE
PubMedCentral
コーパス関連
エルゼビアのオープンアクセス論文のコーパス (40k)
ライフサイエンス系のオープンアクセス論文のコーパス(600万件くらい?)
検索サイトなど
Patent Public Search : パテントなどの検索
化学系
zinc database: 大量の市販化合物のデータセット(not textデータベース)
有機反応データベース (名称を忘れてしまいました)
学会系
予稿集など。
過去のものは公開している学会が多いが、国会図書館に行かないと見られないケースなども有り。