
AIの記憶力を試す-MultiChallenge:自己一貫性を問う対話の新ベンチマーク
LLMが複数ターンにわたる会話を続けるとき、どこまでブレずに正しく応じられるのでしょうか。LLMが人間と複数ターンのやりとりを行うなかで「どこまで正確に、そして柔軟に対応できるのか」をチェックするのは意外に難しいものです。
指示の保持から情報の推論、バージョン管理された編集、そして自己一貫性
『MultiChallenge』は、これら現実で起こりがちな課題を網羅する新しい評価ベンチマークです。複数のターンにわたるやり取りを解析することで、どのような課題が見えてくるのでしょうか。
既存ベンチマークでは測りきれなかったLLMの実力と弱点がここに見えてきます。ビジネスの現場で本当に使えるAIとは何なのか?
まえがき
ビジネスの現場では、AIはもはやオプションではなく必需品になりつつあります。しかし、一度きりのやりとりで性能を測れるほど甘くはありません。
顧客との多段階のやりとりやドキュメント編集など、現実には複雑なケースが山積みです。そんな多ターン会話の課題を解明しようとするのが『MultiChallenge』という評価ベンチマーク。LLMに潜む可能性と限界を、より実務に近い環境であぶり出してくれる注目の試みです。
この記事では、その研究背景から評価の仕組み、さらにビジネスへの示唆までを掘り下げてみます。

研究の背景
「LLMの性能を測るベンチマーク」は数多く存在します。例えば、一問一答形式で知識量を測るものや、複雑な推論問題を与えるものなどが挙げられるでしょう。
ところが、実際にビジネスシーンでLLMを使う場面を想定すると、やりとりは一回きりとは限りません。顧客との会話や上司への報告のように、いくつものラリーを重ねるうちに、新たな情報や方針転換が頻出します。
そうした複数ターンの会話でこそ、LLMの真の能力やボロが表れがちなのです。
しかしながら、「マルチターン会話に特化した評価ベンチマーク」は限られていました。代表的な既存ベンチマークでは、すでに最新のLLMがほぼ満点を叩き出し、「もう評価が天井に達してしまっているのでは?」と感じさせる事態が起きています。
このように、LLMの多ターン会話能力を実質的に差別化できる評価手法が不足しているというのが、研究の出発点でした。

MultiChallengeとは?
ここで登場するのが「MultiChallenge」という新しい評価ベンチマークです。これは、人間とLLMの多ターン会話にフォーカスし、そのうえで実務でも起こりそうな「ややこしい」シナリオを練り込んだ構成になっています。
MultiChallengeには四つの大きな課題カテゴリが設定されており、それぞれがLLMに対して異なる角度から試練を与えます。
加えて、テスト用の会話は実際のビジネス・日常利用に近いリアルなやりとりで作られ、かつ多くの最新LLMが対応に失敗するよう意図的に作り込まれているのです。

四つの課題カテゴリ
(1)「命令の保持」
最初に提示した指示を、会話の後半に至るまでちゃんと守り続けられるか、というのがポイントです。
たとえばビジネスシーンなら「このデザイン案はフォントサイズを14px以上に統一すること」という要件が初回のターンで出された場合、その後の会話を重ねてもブレることなく条件を守り、最終的なアウトプットにも適切に反映されるかどうか。
人間なら「最初に約束したの忘れてた」なんて許されないですよね。LLMでも同様に、会話中のどこかで指示を取りこぼしてしまうとアウトになります。
(2)「推論メモリ」
一言で言えば「途中で出てきた重要情報を忘れずに処理できるか」です。会話が進むうちにユーザーがポロッと出した個人情報、あるいは要件が変更されたとき、そこから必要な推論を行って応答を最適化できるかが問われます。
たとえばユーザーが「実はナッツアレルギーがあって。」と言ったのを受け、レシピを提案する際にナッツを避けたメニューを推奨できるか。こういった注意深さと推論力は、多ターンのやりとりでこそ生きる機能といえるでしょう。
(3)「信頼性の高いバージョン管理された編集」
これは文書や計画を何度も書き換えるような場面を想定しています。ビジネス文書の草案をLLMに補助してもらう場合、途中で修正したり以前のバージョンに戻したりすることがあるはずです。
そんなとき、「どのバージョンのどこをどう直すのか」を正確に把握し、混乱なく編集を行える能力が求められます。
例えば、スケジュールを組む相談をしている場面で、数ターン後に「やっぱり以前の案に戻してほしい」といった指示が飛んできた際、LLMが「前回提案した版」を正しく再現しながら新しい修正を反映できるかどうか。
これがうまくできないと、議事録や契約書作成の現場は混乱を招く可能性が高くなります。
(4)「自己一貫性」
これは会話中でのぶれなさをチェックします。会話の途中でユーザーが「さっきの回答、本当?」と聞いてきたときに、LLMがすぐに前の回答を覆してユーザーに迎合してしまわないか、あるいは無条件に同意しないかを確認するわけです。
現実のビジネスコミュニケーションでも、対話相手から急に「いや、それ間違いでしょ」と言われると、内容に自信がないとぐらぐらしますよね。
LLMも同様で、裏づけもなく安易に意見を変えるようでは信頼性に欠けます。一方で、本当に間違いがあれば素直に修正しなくてはいけないので、ただ頑固に一貫性を貫けば良いというものでもありません。あくまでも合理的な一貫性が求められるのがポイントです。
テストの作り方と評価方法
(1)ハイブリッドアプローチ:合成データ+人間による編集
一からシナリオを手作業で起こすと時間もコストもかかります。そこで本研究では、まずはLLM同士を組み合わせたマルチエージェントフレームワーク(プランナー・ユーザー・レスポンダーの3種)で合成的に会話データを生成し、それを人間の専門家がチェック&修正して完成度を高めるという手段が使われました。
この「機械が下書き、人間が最終調整」式のハイブリッドは、効率よく多様なケースを生み出せるうえ、人間だけでは思いつきにくいパターンも取り込めるのが利点です。結果として、LLMが現実世界でしそうな失敗を網羅しやすくなりました。
(2)インスタンスレベルのルーブリックを使った自動評価
単なる「正解・不正解」ではなく、各テスト会話が持つチェックポイント(ルーブリック)に沿って、LLMが返した最終応答を「合格」か「不合格」かで判定します。
たとえば推論メモリの課題では「提案したレシピにナッツが含まれているかどうか」がシンプルな判定基準だったりします。
このように最終応答だけを見れば判断できる二択(はい・いいえ)を設定しておくと、GPT-4などのフロンティアモデルに審査員役をさせやすくなるメリットがあります。実験では、人間の評価とかなりの高確率で一致することが確認されました。

実際の結果:LLMはどこまでできたのか
(1)複数のフロンティアLLMの精度
本研究でテストされたフロンティアLLMには、GPT-4(2024年8月版)やClaude 3.5 Sonnet(2024年6月版)、Gemini 1.5 Pro(2024年8月27日版)、o1-previewなどが含まれました。その中で、平均精度がおおむね50%を下回るという厳しい数字が出ています。
最も健闘したClaude 3.5 Sonnetでも、マルチターン会話の課題カテゴリ全体で平均41.4%ほど。つまり、現状の最新モデルでも、半分以上は誤答や不適切な応答を出してしまうわけです。
既存のマルチターン評価ベンチマークではほぼ満点に近いモデルもあっただけに、この結果は「本当に難易度が高く、リアルな課題を突いている」ことを示していると言えるでしょう。
(2)カテゴリ別の得手不得手
多ターンの指示を守り抜くのが得意なモデルでも、バージョン管理された編集で失敗するケースが多い、などモデル間で個性が見られました。ビジネス現場では「上手くいくやりとり」と「すぐに破綻するやりとり」のパターンが大きく分かれる可能性があります。
たとえば「指示の保持」が得意なモデルを使えば、毎回細かな設定をし直す手間は減らせるかもしれませんが、協働ドキュメントの改稿では思わぬミスが出るかもしれない、ということを想定しておく必要があります。

ビジネスへの示唆
(1)導入時の注意ポイント
マルチターン対応が前提となる顧客チャットサポートや問い合わせ対応ロボットを構築する際、このような課題を踏まえてモデル選定やプロンプト設計を行うのが重要です。
たとえば「顧客の要望がころころ変わる」状況では、信頼性の高いバージョン管理された編集が欠かせません。一方で「毎回ブランディングガイドを忠実に守り続ける」ケースでは、指示の保持能力が重視されるでしょう。
(2)評価手法の内製化のヒント
MultiChallengeのように独自のシナリオを作ってテストを回す手法は、企業内でも応用できます。特に重要顧客のカスタマーサポートで起こりうるシナリオを複数用意し、そこに自社の導入しようとしているLLMをかけ合わせてみる。失敗しやすいポイントが分かれば、対策としての誘導プロンプトの修正や別のモデルの活用策が見えてくるはずです。
また、インスタンスレベルのルーブリックを設けることは、人間同士のレビューにも応用できます。評価項目を二択に落とし込むことで判断ミスが減り、評価作業の属人化を防ぎやすくなるでしょう。

今後の展望と課題
MultiChallenge自体はまだスタートしたばかりですが、これからより複雑な例や、多言語対応などへ広がっていく可能性が示唆されています。ただし課題もあるようです。
例えば、「インスタンスレベルのルーブリック」が前提となるため、あまりに複雑すぎる質問には適用が難しい。倫理や法律に関する多層的な相談では、単純なはい・いいえでは割り切れない部分も多いでしょう。
また、開発にあたっては6つのフロンティアLLMが代表的な失敗例をもとに作られたため、今後まったく別系統のモデルが出てきたときにどの程度フェアな指標になりうるかという点も要検討です。
それでも、現時点では十分に「手強い」ベンチマークであり、多くのLLMに改良を促すモチベーションになるのは間違いありません。

まとめ
以上のように、MultiChallengeは「LLMの多ターン会話能力」に特化した評価ベンチマークです。指示をしっかり守りつつ、文脈に散らばる情報を拾い、何度も編集をやり直し、さらに自分の回答の筋を通す。こうした課題を複合的に解決できるかどうかをチェックします。
結果として、現行のフロンティアLLMですら高い精度は出せていませんが、ある意味では「これから改善すべきポイント」がはっきり見えるというメリットでもあるでしょう。導入を検討する企業や研究者にとって、このベンチマークから学ぶことは多くあるはずです。

あとがき
多忙なビジネスの現場では、コミュニケーションの質を一気に底上げしてくれるLLMが求められています。しかし、ただ導入するだけでは不具合や失敗事例に悩まされるリスクも大きいでしょう。
MultiChallengeは、その盲点を見つけ出す手段として大いに活用できるはずです。モデルの新陳代謝が激しいAIの世界だからこそ、こうしたリアルなテストベッドを通じて、堅実に課題を洗い出していくことが肝要だと感じています。