見出し画像

【デジタルMATSUMOTOで実験】FRAMES:LLMを使った性能評価データセットの作り方

ハーバード大学とGoogleによる研究論文ですが、RAGの性能評価を行うためのデータセット生成手法「FRAMES」をデジタルMATSUMOTOで試してみました。

[2409.12941] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation (arxiv.org)

以下のプロンプト(ChatGPTで日本語に翻訳)をデジタルMATSUMOTOに投げると・・・

複数の【知識情報】に関連するマルチホップ推論を必要とする10個のファクトイド質問(factoid)を作成してください。質問には明確な答えを持ち、挑戦的な推論要素を含むことが望ましいです。

以下は、主要な用語とその関係性の詳細です:
• ファクトイド質問:単一の明確に定義された正確な答えを持つトリビア形式の質問です。
• マルチホップ推論:これは、質問に答えるために複数の添付ファイルのデータ内の異なるセクションから情報を組み合わせる必要があることを指します。例として「エッフェル塔がある都市を流れる川の名前は?」という質問があり、これは単純なファクトイド質問(「フランスの首都は?」)とは異なります。
• 挑戦的な推論:これは、単純な情報検索を超え、批判的思考を必要とする質問の作成を奨励します。以下のような質問タイプを含めることで実現できます:
- 数的推論:カウント、比較、または計算を含むもの。
- 表形式の推論:テーブルやインフォボックスに記載された統計情報を含むもの。
- 複数の制約:複数の制約を含む質問で、その制約の交差点が唯一の答えを示すもの。
- 時間的推論:時間軸に沿った推論が必要な質問。
- 後処理:必要なすべての事実が集まった後に特定の後処理ステップを実行することを必要とするもの。

追加要件:
• 参照データ範囲:質問に答えるために使用される情報は【知識情報】の記事から取得したものでなければなりません。
• 独立しており、文脈不要:質問は追加の情報や文脈がなくても理解できるものでなければなりません。
• 単一の明確な答え:各質問には曖昧さのない単一の正しい答えが必要です。
• ブール型の質問(はい/いいえで答えられる質問)は避ける:単純に「はい」または「いいえ」で答えられる質問は避けてください。

質問生成のプロンプト

デジタルMATSUMOTOの質問と回答

以下のように【知識情報】(考察記事をRAGに設定したもの)から質問を生成してくれました。あまりマルチホップ感のない質問が多いようですが、ちゃんと過去の考察データから質問を作成してくれています。

問題を作った本人ですが、一応回答してもらいました。

Q1. RAGの活用に関わる質問

RAG(Retrieval-Augmented Generation)を効果的に活用するために重要な要素は何ですか?

デジタルMATSUMOTOが生成した質問

RAGを効果的に活用するためには、データベースの質の向上プロンプト設計の最適化が不可欠です。適切なプロンプト設計により、RAGが効果的に機能し、外部情報を正確に取り入れることが可能になります。

デジタルMATSUMOTOの回答

【△】
間違ってはいないのですが、目的に応じてチャンクデータを分散させるという論点を含めて欲しかったですね。元の記事はこちらになります。

Q2. HAC-SECI Model関係の質問

「デジタルMATSUMOTOが研究中のHAC-SECI Model」は、どのようなプロセスを通じてヒトの自己成長を促進していますか?

デジタルMATSUMOTOが生成した質問

HAC-SECI Modelは、AIとヒトが知識を循環的に補完し合うことで、内省を促し、自己成長を支援します。AIがタスクを実行し、その結果をヒトが評価するフィードバックループを通じて、AIの精度を高めると同時に、ヒト自身もAIを通じて新たな視点を得ることができます。

デジタルMATSUMOTOの回答

【〇】
これはリアル松本的にも同じ答えです。HAC-SECI Modelの二重ループに沿って説明してくれました。ちなみに元の記事はこちらになります。

Q3. リアル松本の好きな名言

「優秀な参謀はトップに決断を促す」という言葉の背景にあるビジネスの価値観とは何ですか?

デジタルMATSUMOTOが生成した質問

この言葉は、組織のリーダーに対して自らの考えを持って行動し、積極的に意見を表明することの重要性を強調しています。組織内の柔軟性と革新性を高めるために、様々な立場の人間が意見を共有する文化を育むことも求められます。

デジタルMATSUMOTOの回答

【〇】
リアル松本が強く影響を受けている帝人の大八木会長の言葉を取り上げてくれました。これもリアル松本の回答と相違ないです。

Q4. AIガバナンスの専門家のキソ

「AIガバナンスの専門家を育成する上でのキソ」として挙げられている能力はどのようなものがありますか?

デジタルMATSUMOTOが生成した質問

AIガバナンスの専門家には、技術的理解、倫理的視点、法律的知識、コミュニケーション能力、システム全体の理解、プロジェクトマネジメント能力、そして責任感が必要です。

デジタルMATSUMOTOの回答

【〇】
記事から漏れなくピックアップしてくれました。元の記事はこちらになります。記事内では「実践的な経験」も上がっていますが、これは正確には能力ではないのでOKかと思います。

Q5. AIガバナンスの専門家に求められるコミュニケーション能力

「AIをガバナンスするための専門家に求められるコミュニケーション能力」は何を指しますか?

デジタルMATSUMOTOが生成した質問

AIガバナンスの専門家には、技術部門だけでなく、経営層や法務部門、さらには一般の従業員とも連携し、専門的な知識を分かりやすく伝えるコミュニケーション能力が求められます。

デジタルMATSUMOTOの回答

【〇】
Q4と同じ記事から生成してくれた問題ですが、元記事の「コミュニケーション能力」の部分を正確に参照してくれています。

Q6. PoCで終わらせないために

「PoCで終わらせない」ために必要なDXやAIの取り組みにおける課題は何ですか?

デジタルMATSUMOTOが生成した質問

PoCで終わらせないためには、技術だけでなくビジネス戦略を一体で考え、組織文化の改革や経営層の教育が必要です。

デジタルMATSUMOTOの回答

【△】
回答内容に誤りはありませんが、実際の記事には「リスク意識やガバナンスが強すぎる」という論点も含められており、リアル松本的にはこちらの論点を含めて欲しかったなと感じているところです。

Q7. 日本のコンサル需要

日本におけるコンサル需要が根強い理由として挙げられる教育背景の問題とは何ですか?

デジタルMATSUMOTOが生成した質問

日本の教育システムは「与えられる問題を解くこと」に注力しており、自ら課題を見つけ、考える経験が不足しています。これが企業内での課題解決能力の不足につながっています。

デジタルMATSUMOTOの回答

【〇】
OKです。記事にはいろいろ書いていますが、根源的には教育に起因していると、リアル松本も感じています。

Q8. AIサービスのカタチ

汎用目的AIと特定目的AIサービスの運営における共通の重要な論点は何ですか?

デジタルMATSUMOTOが生成した質問

両者に共通して重要なのは、組織のガバナンスと経営戦略、ポリシーに基づいた運営です。また、倫理的な指針に基づき、透明性を確保し、利用者や社会からの信頼を獲得することが不可欠です。

デジタルMATSUMOTOの回答

【〇】
元の記事の記載の通りに回答してくれています。元記事を作成した時には、デジタルMATSUMOTOのドラフトがあまりに違っていたので、詳細に指示出しして修正してもらっていました。

Q9. デジタルMATSUMOTOを使って300日

「デジタルMATSUMOTOを使い始めて300日」での具体的な改善点とは何ですか? 

デジタルMATSUMOTOが生成した質問

リアル松本らしさを継続評価する方法の確立が課題であり、独自の評価方法や評価データを確立することが必要です。また、リアル松本本人の日常の中で自然に情報を提供することが重要です。

デジタルMATSUMOTOの回答

【〇】
OKです。実はこのQAテスト実験も「リアル松本らしさ」を評価するための実験という狙いがあります。

Q10

プロンプトエンジニアリングにおいて文系の素養が活かされる理由は何ですか?

デジタルMATSUMOTOが生成した質問

プロンプトエンジニアリングは、ユーザーが自身の目的達成のためにLLMにバイアスを与える行為であり、文系の素養が活かされるのは、言語のニュアンスや文脈理解が求められるためです。

デジタルMATSUMOTOの回答

【△】
間違ってはいないのですが、どちらかというと文脈の理解というよりも、文系人材の方がプロンプト作成に向いた素養を持っているという論点を上げて欲しかったですね。

まとめ

簡単な実験ではありましたが、以下のような結果になりました。
〇(リアル松本と同じ回答)7問
△(微妙に異なる)3問
✕(全く異なる)0問

質問作成者と回答者のエージェントが同じなので、いわゆる「コピペ的振る舞い」によって正解しているところもあるかと思います。

「リアル松本らしさ」を計測するQAセットの開発も進めていたのですが、このFRAMESのアプローチも取り込んでいこうと考えています。

デジタルMATSUMOTOに搭載したDALLE-3のAPIで作成しました

全体的な概要:
この画像は、複雑なデザインの円形パターンが中心に配置されており、幾何学的な要素が多く含まれています。色合いは青やオレンジを基調としており、全体的に落ち着いた印象を与えます。

特徴的な表現:
中央には「Fairness」「Reliability」「Accountability」「Maintainability」「Explainability」といったキーワードが配置されており、これが画像のテーマを示しているようです。周囲には多様な円や球体、線が組み合わさり、技術的で未来的な雰囲気が漂っています。

伝わってくる印象:
画像は、AIやデジタル技術に関連するテーマを視覚的に表現しているように感じられ、特に信頼性や説明可能性といった概念を強調しているように見えます。全体としては、精緻で計算されたデザインが印象的で、技術的な洗練さを感じさせます。

デジタルMATSUMOTO

いいなと思ったら応援しよう!