- 運営しているクリエイター
#生成AI
Persona Hubについて
少し前に中国のTencentのチームが発表したPersona Hub(テクニカルレポート)について書いてみたいと思います。
Persona Hubは、ウェブデータを活用して膨大なペルソナ(「〇〇の専門家」みたいな人格・属性を表す短文)を生成したデータセットです。
具体的にどうやって生成しているかは示されていないようですが、ペルソナからさらに別のペルソナを生成することで、ペルソナの多様性を増やし
LLMによる合成データ(Synthetic Data)生成のテクニック
私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べたり試したことをまとめておこうと思います。
個別の論文の詳細については他の方の記事や私の過去記事でまとめたりしてあるので、どちらかというと合成データ生成における方向性にどんなものがあるのかという観点で紹介したいと思います。
概要LLMによる合成データ生成には、その使い道から以下の2つの種類があ
Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す
「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。
1. つくよみちゃん会話AI育成計画(会話テキストデータセット配布)今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。
2. デ