見出し画像

社長(AI)に頼んで2万会話文の商用利用可(llama2)なデータセットを生成してもらった

注意:llama2の派生モデルであるllama2Pro8Bで生成しているので商用利用可能な範囲に制限があります。詳しくはllama2ライセンスを確認してください

https://ai.meta.com/resources/models-and-libraries/llama-downloads/

というわけで2万会話収集できたので共有しておきます。
3倍生成してスクリーニングするの、最初は苦にならなかったけどよく考えるとなかなか生産性低いな

https://huggingface.co/datasets/shi3z/ja_conv_wikipedia_llama2pro8b_20k

追記
30kにも増やした

https://huggingface.co/datasets/shi3z/ja_conv_wikipedia_llama2pro8b_30k



 
そろそろもっと良さげな日本語通ってJSONも得意なLLM出てこないかなー
どうなんでしよう、Elyzaさん


https://huggingface.co/datasets/shi3z/ja_conv_wikipedia_llama2pro8b_20k

※間違ってModelとして登録してあったのでDatasetに修正しました