ハーバード大学とGoogleによる研究論文ですが、RAGの性能評価を行うためのデータセット生成手法「FRAMES」をデジタルMATSUMOTOで試してみました。
[2409.12941] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation (arxiv.org)
以下のプロンプト(ChatGPTで日本語に翻訳)をデジタルMATSUMOTOに投げると・・・
デジタルMATSUMOTOの質問と回答
以下のように【知識情報】(考察記事をRAGに設定したもの)から質問を生成してくれました。あまりマルチホップ感のない質問が多いようですが、ちゃんと過去の考察データから質問を作成してくれています。
問題を作った本人ですが、一応回答してもらいました。
Q1. RAGの活用に関わる質問
【△】
間違ってはいないのですが、目的に応じてチャンクデータを分散させるという論点を含めて欲しかったですね。元の記事はこちらになります。
Q2. HAC-SECI Model関係の質問
【〇】
これはリアル松本的にも同じ答えです。HAC-SECI Modelの二重ループに沿って説明してくれました。ちなみに元の記事はこちらになります。
Q3. リアル松本の好きな名言
【〇】
リアル松本が強く影響を受けている帝人の大八木会長の言葉を取り上げてくれました。これもリアル松本の回答と相違ないです。
Q4. AIガバナンスの専門家のキソ
【〇】
記事から漏れなくピックアップしてくれました。元の記事はこちらになります。記事内では「実践的な経験」も上がっていますが、これは正確には能力ではないのでOKかと思います。
Q5. AIガバナンスの専門家に求められるコミュニケーション能力
【〇】
Q4と同じ記事から生成してくれた問題ですが、元記事の「コミュニケーション能力」の部分を正確に参照してくれています。
Q6. PoCで終わらせないために
【△】
回答内容に誤りはありませんが、実際の記事には「リスク意識やガバナンスが強すぎる」という論点も含められており、リアル松本的にはこちらの論点を含めて欲しかったなと感じているところです。
Q7. 日本のコンサル需要
【〇】
OKです。記事にはいろいろ書いていますが、根源的には教育に起因していると、リアル松本も感じています。
Q8. AIサービスのカタチ
【〇】
元の記事の記載の通りに回答してくれています。元記事を作成した時には、デジタルMATSUMOTOのドラフトがあまりに違っていたので、詳細に指示出しして修正してもらっていました。
Q9. デジタルMATSUMOTOを使って300日
【〇】
OKです。実はこのQAテスト実験も「リアル松本らしさ」を評価するための実験という狙いがあります。
Q10
【△】
間違ってはいないのですが、どちらかというと文脈の理解というよりも、文系人材の方がプロンプト作成に向いた素養を持っているという論点を上げて欲しかったですね。
まとめ
簡単な実験ではありましたが、以下のような結果になりました。
〇(リアル松本と同じ回答)7問
△(微妙に異なる)3問
✕(全く異なる)0問
質問作成者と回答者のエージェントが同じなので、いわゆる「コピペ的振る舞い」によって正解しているところもあるかと思います。
「リアル松本らしさ」を計測するQAセットの開発も進めていたのですが、このFRAMESのアプローチも取り込んでいこうと考えています。