報酬モデルは因果関係ではなく一貫性を識別する

2025年2月22日 08:00

LLMの出力をユーザー好みに最適化するとき、多くの人が報酬モデルに期待を寄せます。ところが最新の研究によれば、報酬モデルは問題文や因果関係よりも、解答の整合性ばかりに目を奪われているかもしれないのです。

果たして、この現象はどのように起きているのか。この記事では、Salesforce AIリサーチの研究チームによる「LLM向け報酬モデル(RM)」に関する論文をもとに、報酬の仕組みがどのように動いているのか、数々の実験結果をもとに、報酬モデルの意外な特徴をお伝えします。

まえがき

「報酬モデル」という言葉を、はじめて聞く方もいるかもしれません。これは、LLMに「好ましい回答」を学習させるために欠かせない仕組みです。

ところが今回ご紹介する論文では、私たちが思っているほど問題の正答を深く見ていない可能性が指摘されました。この記事を読み終える頃には、「答えをうまく導きそうで導かない」報酬モデルの限界や、その先の可能性をいっしょに考えられるようになっているはずです。

「報酬モデル(RM)」とは？

「LLMに正しい回答を出させたい」と思ったとき、多くの研究が採用しているのが報酬モデル(RM)という仕組みです。これは簡単にいうと、生成された文章が人間にとって「良い回答」であれば高いスコアを、そうでなければ低いスコアを与える、という評価システムです。

LLMはそのスコアを最大化するように学習するので、最終的には「人間が求めるような回答」に近づくことが期待されます。

たとえば、2つの回答をLLMが生成したとして、「あなたはどちらの回答が好みですか？」と人間のアノテーターが判定し、その結果に基づいてRMがスコアを割り振る。これを続けていけば、だんだんとLLMは回答の良し悪しを学んでいく、というわけです。

こうした仕組みは単に「人間の好み」を学習するだけでなく、たとえば数学問題への回答が「正確」かどうかを評価することにも活用されます。

問題文があって、解答があって、その解答が正しいかどうかを報酬モデルが判断できれば、LLMに論理的に正しい推論をさせることも可能になります。ここに大きな期待が寄せられてきたわけです。

Salesforce AIリサーチの論文が示した意外な事実

しかし、今回取り上げる論文は、この理想を大きく揺さぶる内容でした。
論文の主張をひとことでまとめると「報酬モデルは問題文の内容や因果関係を厳密にチェックするのではなく、むしろ解答プロセスが一貫しているかを重視しているらしい」というものです。

1. 質問を削除してもスコアがほとんど変わらない？

実験で特に衝撃的だったのが「質問文そのもの」をごっそり削除しても、RMがつけるスコアに大きな影響がなかったという報告です。
どういうことかというと、たとえば「整数 $n$ が与えられ、〜」みたいな問題文の部分を全部削除して、解答プロセス（途中式や最終的な答えだけ）を見せても、報酬モデルの評価スコアは元の入力とほぼ変わらなかったというのです。

本来であれば、問題文を読まなければ解答の正否なんてわからないはず。問題文があって初めて「答えが整合しているか」もチェックできるはずなのに、なぜここが削られてもスコアが平然と保たれるのか。

これは「RM自体が問題文の論点を理解しているのではなく、解答が文法的・形式的に整合性を持っていれば高得点を与えやすい」というメカニズムを強く示唆しているわけです。

2. 数値の変更には敏感に反応する

しかし、数値をこっそり書き換えると、スコアはガクンと下がったといいます。たとえば「解答プロセス内で 3 + 5 = 8 」の部分を「3 + 5 = 7」に書き換えたりすると、RMの評価が明らかに変化しました。

一見「だったらやっぱり正しさを見ているのでは？」と思われますが、著者らの見方は少し違います。要するに「解答の流れ」に含まれる数値同士の一貫性（ここでは3+5=8が途中の式と矛盾なくつながるか）を乱すと評価が下がる、という現象に近いようだ、というのです。

つまり「問題文を読んで、最終的に正しい計算をしているか」ではなく、「あくまで記述の整合性が保たれているか」が大きな判定要因になっているわけですね。

3. 推論ステップを途中で切り捨てると乱れるスコア

もうひとつ面白い実験が「推論ステップを一部だけ削ってしまう」テストです。
報酬モデルに入力する際、解答の途中過程（ステップ）を前半だけ残すとか、後半だけ残すとか、あるいは最終的な答えのみを残す、などいろいろな切り捨て方をしてみると、RMがつけるスコアが乱れたとのこと。

特に「最後のステップだけ消した場合」や「すべての中間ステップを消して答えだけ残した場合」などでは、スコアの変動がかなり大きく、報酬モデルが解答プロセスそのものに大きく依存していることがわかりました。

一貫性重視 vs. 因果関係重視

ここでポイントになってくるのが「因果的な正しさ」と「構造的一貫性」の違いです。

因果的な正しさ: 問題文の前提や、計算上の根拠を踏まえて「本当に正しい答えが導けているか」
構造的一貫性: 解答文の中でステップ同士が破綻していないかや、整合したストーリーになっているか

研究の結果を見る限り、現在広く使われている報酬モデルは「因果的な正しさ」よりも「構造的一貫性」にかなり引っ張られているようなのです。

たとえば、私たち人間が数学の解答を読むときは、問題文を参照しながら「この式変形は妥当か？」とか「この条件を無視していないか？」と一貫性だけでなく本質的に合っているかを見ますよね。

しかし報酬モデルは「質問文を見ずともありそうな推論過程を提示していれば高評価しがち」だという結果が得られてしまった。これは、私たちが期待していた「RMが真の問題理解を助ける」という理想からは、かなりずれているわけです。

本当にまずいのか？それとも許容範囲？

ここで「それってめちゃくちゃマズい問題じゃない？」と思う方もいるでしょう。ただ実際に、これをどう受け止めるかは難しいところです。

ネガティブな捉え方: RMが「問題文を理解してない」のだとしたら、LLMが未知の複雑なタスクを本当の意味で正しく解けるようにはならないかもしれない。
ポジティブな捉え方: 逆に言うと、問題文がなくても「文章の内部一貫性」をしっかり評価できている。ある程度筋道の立った推論風の文章を高く評価する機能は持っているとも言えます。

ただし、研究者たちはこのままの状態では「真の推論能力を高める報酬モデル」にはならないと指摘しています。やはり因果関係（問題文の前提からきちんと答えを導く力）を評価できるようにする必要がある。

そうした新しいRMの枠組みが、将来のLLMのさらなる進化には欠かせないと示唆されているわけですね。

どうやって因果的な正しさを組み込むか？

論文の中で具体的な「新手法」がめちゃくちゃ提示されているわけではありません。むしろ「既存モデルが抱える問題」を炙り出した研究に近いです。
とはいえ、著者らは概念的には次のような方策を挙げています（論文内で触れられている範囲で要約します）:

因果関係を重視した学習データ
- 反事実的な質問や、より厳密な推論が必要な問題を取り入れて、ただの一貫性で誤魔化せないようにする。
思考過程をステップごとに検証する
- 「最終答えが合っているか」だけでなく、中間ステップごとに適切さをチェックする報酬設計。
- ただし、論理ステップへの細かいラベル付けが必要で、人手コストや時間がかかる。
人間によるフィードバックの質と粒度
- 「回答Aより回答Bの方がいい」というような選好情報に加えて、「どこが良くてどこが悪いか」まで細かく評価する仕組みを加える。
- 単なる合否判定だけでなく、答えを導く根拠に注目して報酬を与えることがカギになる。

いずれにせよ、今後のRM研究では「どうやって本質的に正しい回答を判断するのか？」という問いが、いっそう重要になりそうです。

倫理的な視点とのつながり

ふだん私たちはチャットや検索にLLMを使う中で、「この回答はどこまで正しい？」ということをあまり深く考えずに受け取ってしまいがちです。

企業の顧客対応や、医療・法律といった専門分野への応用を考えるなら尚のこと、「解答がどれだけ実際の問題文や状況と合致しているか」をちゃんと評価できるRMが必要。

今回の研究結果によって「RMが本質をチェックできていない」という課題が見えてきた以上、私たちがLLMを社会実装する際には、安易に「報酬モデルを入れれば大丈夫」と思い込むのは危険かもしれません。

さらに報酬ハッキングといわれる問題（スコアだけ稼いで実は本質を満たしていない）もあるため、この報酬モデルの仕組みをあやふやなまま導入すると、意図しないミスリードやトラブルにつながる可能性があります。

社会の倫理観を踏まえるなら、現状のRMの限界をしっかり理解したうえで、使える範囲と使えない範囲を整理していくことがとても大切です。

要点のおさらい

RMは本来、「問題の正しさ」を評価するはず
しかし、実験の結果からは「因果関係よりも一貫した形式的整合性」を重視する動きが強いことがわかった。
質問文を削除してもスコアがほぼ変わらない一方、数値の置き換えや途中ステップの削除には敏感
ここから推論できるのは「問題を理解している」のではなく、「解答プロセスのつじつま」が重視されているということ。
ランキング（Best-of-N）選択でも似た傾向
質問文があろうとなかろうと、高評価をもらう解答はさほど変わらない。だが推論ステップが壊れると、評価が一気に崩れる。
今後の課題
因果的妥当性をしっかり判定できる報酬モデルをどう設計するか。反事実タスクの導入や、人間のきめ細かなアノテーションが鍵になりそう。

この記事から得られる示唆

私たちはLLMの出力を評価するとき、つい「ちゃんと理由づけができているか？」を重視すると考えがちです。しかし実際には、報酬モデルが見ているのは「形式的な筋道の通り具合」だったかもしれません。

言いかえれば、ユーザーが欲しいのは正解や誠実な根拠でも、報酬モデルが評価しているのはパターンとして破綻のない文章にすぎないことがあるわけです。

これは、ビジネスや研究の現場でLLMを使ううえで、慎重な見極めを要する大きなポイントになるでしょう。とりわけ「LLMが回答している根拠をどのように検証するか？」という仕組みづくりが、より重要視されるはずです。

あとがき

LLMと報酬モデルは一見、完璧な組み合わせに思えます。しかし、今回の論文が示す意外な事実は「私たちが思うほど真の意味での正解をチェックしてはいない」という点にあります。

ともすれば「どうせならなんでも任せちゃえ」と気軽に導入しがちですが、この記事を通じて、報酬モデルの得点付けの内実を改めて認識していただけたら嬉しいです。

まだまだ発展の余地が残るこの領域、慎重さと柔軟な視点の両方を持って、一歩ずつ理解を深めていきたいですね。この記事が、その問いに対して目を向けるきっかけになれば幸いです。