ペルソナ駆動型データ合成：LLMの新たなパラダイム

2024年7月2日 23:38

合成データ生成の進化する分野において、多様性とスケーラビリティの達成は依然として大きな課題です。シアトルのTencent AI Labの研究者たちは、ウェブデータからキュレーションされた10億のペルソナを用いて、新たなペルソナ駆動型のアプローチを導入しました。この革新的なPersona Hubは、大規模言語モデル（LLM）に内包された多様な視点を活用して、前例のない規模で高品質な合成データを生成します。今週末、X上のAI関連のKOL（キーオピニオンリーダー）たちが一斉にこの論文を薦めたことも注目に値します（6月28日～現在7月2日1500ツイト、筆者測定）。

論文概要

2024年6月28日にcs.CLおよびcs.LG分野で発表された論文「Scaling Synthetic Data Creation with 1,000,000,000 Personas」（Xin Chan、Xiaoyang Wang、Dian Yu、Haitao Mi、Dong Yu著）は、ペルソナ駆動型データ合成の新たな手法を提案しています。この手法は、大規模言語モデル（LLM）に内包された様々な視点を活用して、多様で高品質な合成データを生成するものです。この手法をスケールさせるために、ウェブデータから自動的にキュレーションされた10億の多様なペルソナのコレクションであるPersona Hubを紹介しています。この10億のペルソナは、世界の総人口の約13%に相当し、LLMが持つあらゆる視点を活用して、多様なシナリオで合成データを生成することを可能にします。

論文URL:　https://arxiv.org/pdf/2406.20094

Persona Hub：コンセプトと生成方法

テキストからペルソナへのアプローチ
テキストからペルソナへのアプローチは、ウェブのテキストデータからペルソナを生成します。具体的には、特定のテキストをLLMに与え、そのテキストに関連するペルソナを推測します。このプロセスにより、入力テキストの詳細度に応じて、さまざまな粒度のペルソナを作成することが可能です。

ペルソナからペルソナへのアプローチ
このアプローチは、テキストからペルソナへのアプローチで取得しづらい、ウェブ上での露出が少ないペルソナを補完するための方法です。特定のペルソナの対人関係を元に新たなペルソナを導出します。例えば、ある看護師のペルソナから、その看護師がケアする患者のペルソナを導出します。この方法を6回繰り返すことで、ペルソナのコレクションをさらに豊かにします。

重複排除と品質管理
テキストからペルソナおよびペルソナからペルソナの手法を適用した後、MinHashとEmbeddingに基づく重複排除を行います。これにより、1,015,863,523のペルソナが最終的にPersona Hubを構成します。

ペルソナ駆動型合成データ生成

ペルソナ駆動型データ合成アプローチは、データ合成プロンプトの適切な位置にペルソナを統合することによって実現します。このシンプルな方法で、LLMはペルソナの視点を取り入れて合成データを生成します。Persona Hubの10億のペルソナを活用することで、さまざまなシナリオに対応する多様な合成データを簡単に生成できます。

ユースケース

数学問題の合成
数学問題を生成する際にペルソナを追加することで、そのペルソナに関連する数学問題を生成できます。例えば、ペルソナが数学の専門家である場合、生成される問題はより高度で詳細な数学的知識を含むことが多くなります。Qwen2-7Bモデルを1.07百万件の合成された数学問題でファインチューニングした結果、MATHベンチマークで64.9%の正答率を達成しました。これは、7Bスケールでgpt-4-turbo-previewに匹敵する性能です。

論理推論問題の合成
論理推論問題も容易に合成できます。ペルソナ駆動型アプローチを用いることで、要件を満たし、ペルソナに関連する多様な論理推論問題を生成できます。

指示文の合成
LLMの最終ユーザーである人間の多様な要求をシミュレートするために、Persona Hubを使用してさまざまなユーザープロンプトを生成できます。これにより、LLMの指示追従能力と会話能力を向上させるための大量のシミュレートされたユーザー-LLMの対話を生成できます。

知識豊富なテキストの合成
Persona Hubを活用して、特定のペルソナの視点から知識豊富なテキストを生成することも可能です。例えば、あるペルソナが書くであろうQuoraの記事を生成することで、高度な情報を含むテキストを生成できます。

ゲームNPCの生成
ゲームの背景情報をLLMに提供し、Persona Hubのペルソナをゲーム内のキャラクターに投影することで、多様なNPCをスケールアップして生成できます。これにより、ゲームデザインのプロセスにおけるNPCのブレインストーミングの労力を大幅に削減できます。

ツール（機能）の開発
ユーザーの可能な要求を予測するためにPersona Hubを使用し、事前にツールを開発することで、LLMがこれらのツールを直接呼び出して結果を返すことができるようになります。これにより、LLMのサービス提供範囲が大幅に拡大します。

評価と結果

ペルソナ駆動型合成データ生成の効果は、強力な数値結果によって裏付けられています。例えば、1.07百万件の合成された数学問題でファインチューニングされたモデルは、MATHベンチマークで64.9%の正答率を達成しました。このことは、この手法によって生成されたデータの質の高さを示しています。さらに、インディストリビューションおよびアウトオブディストリビューションの両方のテストセットでの評価においても、この手法の堅牢性と多様なデータセットに対する有効性が確認されました。

インプリケーションと将来の展望

実践的なインプリケーション

データ生成パラダイムの転換: ペルソナ駆動型アプローチは、人間中心のデータ生成からLLM駆動の合成へと転換する可能性を示唆しており、広範なペルソナハブを活用して多様で高品質なデータセットを生成します。
トレーニングデータのセキュリティリスク: この手法は、LLMの記憶の大規模な抽出がデータ漏洩につながる可能性があり、プロプライエタリなLLMの地位を脅かす可能性があることを懸念しています。
現実世界の相互作用のシミュレーション: Persona Hubは、多様な現実世界の相互作用をシミュレートすることで、ユーザーの行動や政策の影響、仮想空間における複雑なシステムダイナミクスについて前例のない洞察を提供します。

理論的なインプリケーション

分散キャリアベースの圧縮: ペルソナを知識の分散キャリアとして扱うこのパラダイムは、LLMを理解し扱うための新しい視点を提供し、包括的な合成データ抽出を通じてLLMの全記憶にアクセスする可能性をもたらします。
マルチモーダルコンテキストでのスケーラビリティ: 本論文は主にテキストベースのデータ合成に焦点を当てていますが、提案された手法はマルチモーダルLLMにも拡張可能であり、視覚、音声、インタラクティブな領域での高度な合成データ生成への道を開く可能性があります。

将来の課題

著者たちは、ペルソナの記述をさらに詳細にし、個々のWikipedia記事のような粒度の高いレベルを目指してPersona Hubを改良する予定です。また、マルチモーダルLLMを用いた合成データ生成の研究も進めていく予定です。

結論

この論文は、膨大なペルソナコレクションを用いた合成データ生成のスケーリングに関する詳細かつ体系的なアプローチを提示しています。LLMの能力の大幅な向上を示し、高品質なデータを自律的に生成する未来を指し示しています。この研究は、強力な実証結果を示すとともに、多様な応用分野でLLMを活用するための新たな道を開き、ペルソナ駆動型データ合成の方法論の広範な実践的および理論的なインプリケーションを強調しています。

参考：
X上KOLのツイト例

This is one of the coolest ideas for scaling synthetic data that I've come across.

Proposes 1 billion diverse personas to facilitate the creation of diverse synthetic data for different scenarios.

It's easy to generate synthetic data but hard to scale up its diversity which is… pic.twitter.com/UR998d49hE
— elvis (@omarsar0) July 1, 2024

Massive scale up of synthetic data yields high performance

🧵📖 Read of the day, day 96: Scaling Synthetic Data Creation with 1,000,000,000 personas, by Chan et al from Tencent AI Lab Seattlehttps://t.co/uNBS3Ybgb9

The authors of this paper propose a new approach to generate… pic.twitter.com/A1l2uxqEUn
— Axel Darmouni (@ADarmouni) July 1, 2024

Scaling Synthetic Data Creation with 1,000,000,000 Personas

We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, pic.twitter.com/hvh68GMvlQ
— AK (@_akhaliq) July 1, 2024