【論文】LLM-as-a-Judgeならぬ、Agent-as-a-Judge 〜エージェントでエージェントの評価を行う〜

2024年12月7日 17:39

こんちには、kagayaです。
「Agent-as-a-Judge: Evaluate Agents with Agents」という論文についてのメモ・感想です。

大規模言語モデル（LLM）を活用したAIエージェント、LLMエージェントは日々進化を続け、より複雑なタスクをこなせるようになる一方で、その評価方法には依然として課題が残されています。

特に重要なのは「AIエージェントをどのように評価すべきか」という問いです。
従来の評価手法では、最終的な出力結果のみを評価対象とすることが多く、エージェントの思考プロセスや判断基準を十分に評価できていませんでした。
この課題に対して、Meta AIとアブドラ王立科学技術大学の研究チームが「Agent-as-a-Judge」というフレームワークを提案しています。

エージェント評価の本質的な課題

現状のエージェントシステム評価においての問題の一つは思考プロセスの評価の困難さです。
エージェントが最終的に正しい結果を導き出したとしても、その過程での判断や思考がどれほど適切であったかを評価することは困難です。
数学の試験で答えは合っているものの、途中の計算過程が誤っているような状況に似ています。

昨今開発が盛んなエージェンティックなシステムは、より定性的な評価を求められるユースケースも多いため、より中間過程の評価は難しくなります。

さらに、既存のベンチマークにも課題が存在すると指摘しており、例えばHumanEvalはアルゴリズムの問題に特化しており、MBPPは単純なプログラミングタスクを扱います。
比較的実践的なSWE-Benchですら、自動修復タスクにフォーカスされています。

そして、これらのベンチマークに対する「過剰な適応」の傾向が顕著に見られることも指摘しています。
実際、SWE-Benchでは単純なLLMだけでもタスクの27%以上を解決できることが明らかになっています。
さらに、グッドハートの法則が示すように、評価指標自体が目標となることで、その指標としての価値が低下するという問題です。

Agent-as-a-Judgeのアーキテクチャと実装

Agent-as-a-Judgeは、複数の専門化されたモジュールで構成されるシステムです。
ざっくり処理は下記のような流れです。

システムの最初の始まりとなるモジュールは、プロジェクト構造を包括的に理解するグラフモジュールです。
このモジュールは、ファイル間の依存関係を分析し、コードを適切な単位に分割する役割を担っています。

また、要件に関連するファイルを特定するロケートモジュールと、33種類ものフォーマットに対応する読み取りモジュールにより、コード、画像、動画、文書など、多様なデータを理解することが可能となっています。

実装を経ての知見として、プランニングモジュールに課題があったことが興味深いです。
このモジュールはアクションに対する計画・意思決定機能を担いますが、そのプロセスには不安定な面が見らたそうです。
また、メモリモジュールにおいても、過去の判断の誤りが現在の判断に影響を及ぼすという問題が発生していたようです。

これはAgentic Design Patternsでもプランニングが比較的発展途上の段階にあると指摘されていたのと同様に、エージェントの自律性を高める機構を構築する難しさを表してると感じました。

DevAIデータセットによる実証実験

Agent-as-a-Judgeの有効性を検証するため、研究チームは実践的なAI開発タスクを網羅的に収集したDevAIデータセットを作成しました。
このデータセットには55の実践的なAI開発タスクが含まれており、365もの階層的に整理された要件が設定されています。
これにより、単なる結果の評価だけでなく、開発プロセス全体を通じた評価が可能となっています。

実験では、MetaGPT、GPT-Pilot、OpenHandsという三つの主要なオープンソースエージェントを評価対象としました。
MetaGPTはコスト効率の高さが特徴的である一方、GPT-Pilotは詳細なタスク分割能力を持ち、OpenHandsはインタラクティブな特徴を活かした評価が可能です。

結果として、Agent-as-a-Judgeは人間の評価との90%という高い一致率を示し、従来のLLM-as-Judge（70%）を大きく上回りました。
さらに、評価にかかる時間とコストをそれぞれ97.72%、97.64%削減することにも成功したとのことです。

実践的応用と今後の展望

コンセプトレベルの話にはなりますが、Agent-as-a-Judgeに感じる可能性は、フライホイール効果の実現です。
エージェントによる評価が、評価対象のエージェントの改善を促し、その改善がさらに評価精度を高めるという好循環を生み出すことが期待されます。
これは、人間の評価者が経験を積むことで評価の質が向上していくのと同様の効果です。

実装面では、プランニングの安定性向上やメモリシステムの改善、検索効率の向上などが主要なポイントです。
同時に大規模プロジェクトへの対応や処理速度の最適化など、スケーラビリティの強化も課題として認識されています。

現場で活用する観点からは、CI/CDパイプラインへの組み込みや自動評価システムの構築などが検討されています。

所感

エージェント評価の本質的な難しさ

Agent-as-Judgeが取り組む課題は、実務上もとても重要なものだと感じます。
印象的なのは、エージェントの「思考プロセス」を評価することの難しさへの着目です。

単に最終的な出力が正しいかどうかだけでなく、そこに至るまでの判断プロセスの妥当性を評価することは、エージェントシステムの信頼性を確保する上で重要で、特にエッジケースや予期せぬ状況での振る舞いを評価する際に顕著になります。

評価システムの実装に関する示唆

プランニングモジュールとメモリモジュールの課題も興味深い点です。
これらの課題は、エージェントシステムにおける自律的な意思決定の難しさを示しています。

実装視点から考えても、人間の監督や介入を適切に組み込んだハイブリッドなアプローチ（Human in the Loop）が、現時点では現実的な選択肢となることを感じました。

DevAIデータセットの実用的価値

DevAIデータセットの設計思想も興味深く、要件や途中経過を判断可能というコンセプトは、私も業務で参考にしてトライしてみたいと感じました。

ただし、DevAIデータセット自体は、55のタスクという規模に留まっており、実際の開発現場の多様性を考えると必ずしも十分とは言えないでしょう。

フライホイール効果への期待と懸念

エージェントによる評価と改善の循環は、理想的には自己改善的なシステムを実現する可能性があります。
AIエージェントを生成するAIエージェントを提案した、Automated Design of Agentic Systemsも同様のコンセプトを抱えています。

一方で、評価システム自体のバイアスが強化される可能性や、特定のタイプの解決策に過度に最適化されてしまう可能性に対処する必要性も感じます。
結局のところ、人間による適切な監督と定期的な評価基準の見直しが必要という「要はバランス」的な感想に着地しました。

Agent-as-Judgeを実際に導入する際は、以下の点を意識して進めることになりそうです。

システムの透明性の確保
1. 評価プロセスの各段階を可視化する仕組み
2. 判断根拠の明確な説明機能
段階的な導入アプローチ
1. まずは人間の評価を補助する形での導入
2. 徐々に自律性を高めていく慎重なアプローチ

おわりに

Agent-as-a-Judgeは、AIエージェント評価におけるAIエージェントの活用について言及しています。
またエージェントシステム全体の改善サイクルまで視野に入れたフレームワークであり、今後このようなコンセプトのシステムは求められるだろうと考えており、何らかに参考になるものがあるかもしれません。

プロジェクトのソースコードはGitHubで公開されており、実装もそれほど大規模ではありません。
興味のある方はぜひご覧になってみてください。私も軽くしか追えてないので、どこかでコードリーディングしてみます。