【論文瞬読】大規模言語モデルの「幻覚」、実は思った以上に根深い問題だった！？最新研究が明かす衝撃の事実

2024年8月17日 23:01

こんにちは！株式会社AI Nestです。今回は、大規模言語モデル（LLM）の「幻覚」（ハルシネーション）に関する最新の研究成果をご紹介します。この研究は、私たちが当たり前だと思っていたLLMの常識を覆す、驚きの結果を明らかにしています。一緒に、AIの世界の新たな発見を覗いてみましょう！

タイトル：Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability
URL：https://arxiv.org/abs/2408.07852
所属：Google DeepMind
著者：Jiri Hron, Laura Culp, Gamaleldin Elsayed, Rosanne Liu, Ben Adlam, Maxwell Bileschi, Bernd Bohnet, JD Co-Reyes, Noah Fiedel, C. Daniel Freeman, Izzeddin Gur, Kathleen Kenealy, Jaehoon Lee, Peter J. Liu, Gaurav Mishra, Igor Mordatch, Azade Nova, Roman Novak, Aaron Parisi, Jeffrey Pennington, Alex Rizkowsky, Isabelle Simpson, Hanie Sedghi, Jascha Sohl-dickstein, Kevin Swersky, Sharad Vikram, Tris Warkentin, Lechao Xiao, Kelvin Xu, Jasper Snoek, Simon Kornblith

1. 「幻覚」って何？ LLMの闇に迫る

まず、「幻覚」（ハルシネーション）について簡単におさらいしておきましょう。これは、LLMが生成した文章が一見もっともらしく見えるのに、実は事実と異なっているという現象のことです。例えば、「2020年のノーベル文学賞受賞者はバラク・オバマです」なんて答えを出したら、それは典型的な「幻覚」ですね（実際の受賞者はルイーズ・グリュックでした）。

この「幻覚」問題、実は思った以上に根深いんです。今回ご紹介する研究は、この問題に真正面から取り組んだ意欲作。その内容が、私たちの常識を覆すものだったんです。

2. 知識グラフで「幻覚」を追い詰める！？斬新な研究アプローチ

この研究、面白いのはそのアプローチです。研究チームは、知識グラフ（KG）というデータベースを使って、LLMを訓練しました。KGって何？って思った方、簡単に言うと、世の中の事実を「主語-述語-目的語」の形で表現したデータの集まりです。例えば、「太郎-好き-ラーメン」みたいな感じですね。

このアプローチのすごいところは、LLMが「知っているはず」の情報を完全にコントロールできること。つまり、LLMが出力した内容が「幻覚」かどうかを、100%確実に判断できるんです。これ、今までの研究ではなかなかできなかったことなんですよ。

Figure1, データとトレーニングパイプライン。 <S TKN>、<P TKN>、および <O TKN> はそれぞれ主語、述語、および目的語を示す特別なトークンです。 (a) オリジナルデータは、主語と目的語を表すノードが述語(矢印)で接続されたナレッジグラフ(KG)の形式で存在します。 (b) KGは、主語、述語、目的語の3つの要素にフォーマットされ、さらにそれらの同一性を示す特別なトークンが追加されます。このような形式化されたデータは、一般的な次のトークン予測損失を用いて自己回帰型 LM を事前学習するために使用されます。 (c) 事前学習された LM は、主語と述語に特殊トークンを付加し、目的語を予測することで評価されます。 (d) 事前学習された LM を基に、生成中に幻覚の存在を検出する検出器がトレーニングされます。

研究チームは、図1に示すように、知識グラフから抽出したデータを使ってLLMを訓練しました。このセットアップにより、モデルが学習した内容を完全に把握し、「幻覚」を正確に定義・測定することが可能になったんです。

3. 常識を覆す衝撃の発見！ LLMの「幻覚」の真実

さて、この研究で明らかになった衝撃の事実をいくつか紹介しましょう。

3.1 大きいモデル = 少ない「幻覚」？そう単純じゃなかった！

一般的に、「モデルを大きくすれば性能が上がる」と言われていますよね。でも、この研究結果を見ると、そう単純じゃないんです。

Figure2, 学習中に見た例(上)と見ていない例(下)における LM トレーニングの FLOPs ごとの幻覚率、データサイズが小さい場合(左)と大きい場合(右) 各点は、学習率スケジュールをトレーニングの長さに合わせて調整した(セクション2.2)独立したトレーニング実行である。点は、1%データでは[1, 2, 10, 20, 100, 200]エポック、10%データでは[1, 2, 10, 20]エポックに対応する。固定されたデータセットでは、FLOPsが多いほど、幻覚は少なくなる。テキストの損失に関する確立されたスケーリング法則(Kaplan et al., 2020; Hoffmann et al., 2022)とは対照的に、データセットのサイズが大きくなると(左上と右上)、より多くの事実を学習する必要があるため、実際にはパフォーマンスが低下します。既知のデータにおける幻覚を最小化するには、20エポック以上のトレーニングが必要ですが(上)、未知のデータに対する過適合につながる可能性があり(下)、ファクトの想起と一般化能力の間にトレードオフが生じます。これは、temp = 0.0(図8)ではさらに顕著になります。1%データにおける113Mおよび404MのLMでは、幻覚率が上昇しますが、これはトレーニング損失(図3)には反映されていません。つまり、損失発散によるものではないということです。

図2を見てください。確かに、モデルを大きくすると「幻覚」は減ります。でも、それだけじゃダメなんです。なんと、訓練データの5%以下の「幻覚」率を達成するには、今考えられている「最適」なサイズの10倍以上のモデルが必要だというんです！これ、めちゃくちゃな計算リソースが必要になるってことですよね。

3.2 データを増やせば「幻覚」が減る？実は逆効果だった！

もう一つの衝撃の発見。普通、データを増やせば性能が上がると思いますよね。でも、この研究では逆の結果が出たんです。データを増やすと、なんと「幻覚」が増えるんです！

図2の左側（1% Data）と右側（10% Data）を比較してみてください。データ量が増えると、全体的に「幻覚」率が上がっているのがわかりますね。これ、よく考えるとある意味当然かもしれません。データが増えれば、LLMが覚えなきゃいけない「事実」も増えるわけですからね。でも、これって今までの常識を完全にひっくり返す発見です。

3.3 長く学習すれば「幻覚」が減る？でも代償も...

研究チームは、モデルの学習回数（エポック数）も増やしてみました。すると、20回以上学習させると「幻覚」がグッと減ることがわかりました。これ、今のLLMの一般的な学習回数（1〜2回）とは大きく違います。

でも、ここにも落とし穴が。長く学習させすぎると、今度は新しいデータへの対応力（汎化性能）が落ちちゃうんです。つまり、「幻覚」を減らすか、新しい状況への対応力を高めるか、そのバランスが重要になってくるわけです。

4. 「幻覚」検出の難しさ、それも scale に応じて変化する

研究チームは、「幻覚」を検出する方法についても調査しました。その結果わかったのは、モデルが大きくなればなるほど、その「幻覚」を見つけるのが難しくなるということ。

Figure6, 全検出器におけるLMの幻覚率の関数としてのAUC-PR。LMのサイズはマーカーのサイズで表される。1% (それぞれ20%) のデータで100 (それぞれ20) エポックの訓練を行ったLMで生成されたデータの結果を示す。AUC-PR は評価データにおける幻覚の割合(すなわち、LM の幻覚率)に依存しないため、検出器の幻覚を検出する能力をより正確に測定することができます。精度(図 5)とは異なり、文タスクは AUC-PR の観点では明らかに優れています(図 9 でも確認できます)。ただし、検出器を別の LM レイヤーに適用することで、トークン性能を向上させることができます(図 10)。さらに重要なのは、幻覚の検出可能性はLMのサイズに反比例するということです(左下に最も大きな点/LM、右上には最も小さな点/LM)。LMが大きければ幻覚率は低くなりますが、その分幻覚の検出も難しくなります。これは図7でより明確に見ることができます。

図6を見てください。横軸はLMのハルシネーション率、縦軸は検出器のAUC-PR（検出性能の指標）です。注目すべきは、LMのサイズ（マーカーの大きさ）が大きくなるほど、左下に移動している点です。つまり、モデルが大きくなるほどハルシネーション率は下がりますが、同時にその検出も難しくなるんです。

これ、ある意味当然かもしれません。大きなモデルほど、より「説得力のある」出力を生成できるわけですからね。でも、これって大きな問題です。モデルが進化すればするほど、その「幻覚」を見抜くのが難しくなるということですから。

5. この研究が示唆する未来とは？

さて、この研究結果から、私たちは何を学べるでしょうか？

モデルの大きさだけじゃない： 単に計算リソースを増やせば良いわけじゃありません。効率的な学習方法の開発が必要です。
データの質が重要： 量を増やすだけでなく、質の高いデータセットの構築が求められます。
学習のバランス： 「幻覚」を減らすことと、汎化性能を上げることのバランスが重要です。
新しい検出方法の必要性： モデルが進化すれば、それに応じた「幻覚」検出方法も進化させる必要があります。

6. まとめ：AI研究の未来は明るい！？

この研究、一見するとLLMの限界を示しているようにも見えます。でも、私はむしろ希望を感じます。なぜなら、こういった「常識を覆す発見」こそが、技術革新の源泉だからです。

今回の発見を踏まえて、研究者たちはきっと新しいアプローチを考え出すでしょう。例えば、効率的な学習方法や、より洗練された「幻覚」検出技術など。そういった新しい技術が、AIの未来を切り開いていくんです。

AIの世界は日々進化しています。これからも、こういった最新の研究成果をみなさんにお届けしていきますね。AI技術の発展に、今後も要注目です！

【論文瞬読】大規模言語モデルの「幻覚」、実は思った以上に根深い問題だった！？ 最新研究が明かす衝撃の事実