LLM のデータセットまとめ 158 npaka 2023年4月3日 15:37 LLMのデータセットをまとめました。1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja・llm-jp-corpus-v2 (ja) ・llm-jp-corpus-v2・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1・youlery (ja) ・ce-lery/mistral-3b-dataset ・ayousanz/OSCOR-2301-ja-cleaned ・ayousanz/c4-ja-cleaned・Common Crawl (multilingual)・Wikipedia (en)・Wiki Demo (en)・RefinedWeb (en)・RedPajama V2 (en)・Pile (en)・SkyPile (zh)・The Stack 2 (en)・The Stack (en)・StarCoder (en)1-2. Code・The Stack 2 (en)・The Stack (en)・StarCoder (en)2. SFTデータセット2-1. Instruction・swallow-magpie-ultra-v0.1 (ja) ・stokyotech-llm/swallow-magpie-ultra-v0.1・swallow-gemma-magpie-v0.1 (ja) ・tokyotech-llm/swallow-gemma-magpie-v0.1・tokyotech-llm/Swallow-Instruct-v0.1 (ja) ・tokyotech-llm/Swallow-Instruct-v0.1・cl-nagoya/auto-wiki-qa (ja) ・cl-nagoya/auto-wiki-qa・ichikara-instruction (ja) ・ichikara-instruction ・p1atdev/ichikara-instruction・llm-japanese-dataset (ja) ・izumi-lab/llm-japanese-dataset・ultra-orca-boros-en-ja-v1 (ja) ・augmxnt/ultra-orca-boros-en-ja-v1・Stanford Alpaca (ja) ・fujiki/japanese_alpaca_data ・shi3z/alpaca_cleaned_ja_json・Dolly (ja) ・fujiki/databricks-dolly-15k-ja-reformat-v1 ・kunishou/databricks-dolly-15k-ja ・bbz662bbz/databricks-dolly-15k-ja-gozaru (ござる)・OASST1 (ja) ・fujiki/oasst1-89k-ja-reformat-v1 ・kunishou/oasst1-89k-ja・OASST2 (ja) ・kunishou/oasst2-135k-ja・Guanaco Dataset (ja) ・fujiki/guanaco_ja・OpenOrca (ja) ・shumpei2525/OpenOrca-train-ja・CoTangent (ja) ・sudy-super/CoTangent・wikipedia-qa-ja (ja) ・alfredplpl/wikipedia-qa-ja-100k・Cosmopedia (ja) ・aixsatoshi/cosmopedia-japanese-20k・Open Assistant (multilingual)・Guanaco Dataset (multilingual)・Alpaca CoT (multilingual)・Stanford Alpaca (en)・LIMA (en)・OpenPlatypus (en)・CodeAlpaca 20k (en)・OpenOrca (en)・MathInstruct (en)・Nectar (en)・AgentInstruct (en)・Evol Instruct V2 (en)・Cosmopedia (en)2-2. Code Instruction・CodeAlpaca 20k (en)2-3. Chat・JMultiWOZ: Japanese Multi-Domain Wizard-of-Oz Dataset (ja) ・ja conv wikipedia llama2pro8b (ja) ・shi3z/ja_conv_wikipedia_orion14B_100K ・shi3z/ja_conv_wikipedia_llama2pro8b_30k・UltraChat (en)・ShareGPT Hyperfiltered (en)・UltraChat 200k (en)・LMSYS Chat 1M (en)3. Preferenceデータセット・OpenRLHF (ja) ・ryota39/dpo-ja-194k ・ryota39/dpo-ja-45k ・ryota39/boolq-3k-ja ・ryota39/truthy-dpo-ja・chatbot-arena-ja-calm2-7b-chat-experimental (ja) ・cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental・shisa-en-ja-dpo-v1 (ja) ・augmxnt/shisa-en-ja-dpo-v1・HH-RLHF (ja) ・fujiki/japanese_hh-rlhf-49k ・kunishou/hh-rlhf-49k-ja・Open Assistant (multilingual)・HH-RLHF (en)・GPT-4 Generated Data (en&zh)・Nectar (en)4. タスク別データセット4-1. マルチモーダル・LLaVA (ja) ・turing-motors/LLaVA-Instruct-150K-JA ・toshi456/llava-jp-1.3b-v1.0・M2UGen (en) ・M2UGen/MUCaps ・M2UGen/MUImage ・M2UGen/MUVideo ・M2UGen/MUEdit4-2. キャラクター対話・つくよみちゃん会話AI育成計画 (ja) ・会話テキストデータセット配布・日本語オープンコンテンツデータセット プロジェクトページ (ja) ・https://open_contents_datasets.gitlab.io/project_home/・ずんだもんデータセット (ja) ・takaaki-inada/databricks-dolly-15k-ja-zundamon ・alfredplpl/simple-zundamon4-3. AITuber特化型質問応答・aituber question dataset (ja) ・sr2mg/aituber_question_dataset4-4. 対話要約・dialogsum (ja) ・sudy-super/dialogsum-ja4-5. 日本語論文コーパス・J-ResearchCorpus (ja) ・kunishou/J-ResearchCorpus4-6. SteerLM 向けのデータセット・HelpSteer (ja) ・kunishou/HelpSteer-35k-ja・HelpSteer (en) ・nvidia/HelpSteer5. データセット作成ツール・distilabel6. 関連 日本語対話コーパス日本語対話コーパス これは日本語を対象とする対話システムの構築に利用できる言語資源のリストです。本リストは、理化学研究所 吉野 幸一郎さん発案 masahiro-mi.github.io v1.1 チューニング済みモデル・データ公開 目次 llm-jp.nii.ac.jp OpenAI GPT-4V/ChatGPT/GPTs人工知能プログラミング実践入門 www.amazon.co.jp 5,390円 (2024年02月17日 04:23時点 詳しくはこちら) Amazon.co.jpで購入する Google Gemini 1.5/LlamaIndex/LangChain 人工知能プログラミング実践入門 www.amazon.co.jp 4,400円 (2025年01月28日 09:44時点 詳しくはこちら) Amazon.co.jpで購入する ダウンロード copy いいなと思ったら応援しよう! チップで応援する #ChatGPT #OpenAI #LLM #大規模言語モデル #自然言語処理 #GPT3 #alpaca 158