社長(AI)に頼んで2万会話文の商用利用可(llama2)なデータセットを生成してもらった
注意:llama2の派生モデルであるllama2Pro8Bで生成しているので商用利用可能な範囲に制限があります。詳しくはllama2ライセンスを確認してください
https://ai.meta.com/resources/models-and-libraries/llama-downloads/
というわけで2万会話収集できたので共有しておきます。
3倍生成してスクリーニングするの、最初は苦にならなかったけどよく考えるとなかなか生産性低いな
https://huggingface.co/datasets/shi3z/ja_conv_wikipedia_llama2pro8b_20k
追記
30kにも増やした
https://huggingface.co/datasets/shi3z/ja_conv_wikipedia_llama2pro8b_30k
そろそろもっと良さげな日本語通ってJSONも得意なLLM出てこないかなー
どうなんでしよう、Elyzaさん
https://huggingface.co/datasets/shi3z/ja_conv_wikipedia_llama2pro8b_20k
※間違ってModelとして登録してあったのでDatasetに修正しました