新しい知識グラフ適応型推論:グラフ上のプランニングLLM
7,244 文字
みなさん、こんにちは。今日は、LLMが知識グラフ上でどのように推論をプランニングできるかについて探っていきましょう。中国科学技術大学と香港科学技術大学の研究者たちが2024年10月末に発表した最新の論文についてお話しします。「plan-on-graph」という、知識グラフ上でのLLMの自己修正的適応プランニングについての論文です。
これは非常にホットなトピックです。というのも、新しい方法論が提案されており、最も重要な2つの用語が「自己修正」と「適応プランニング」なんです。これらについて詳しく説明し、具体例も示していきましょう。
この新しい方法論では、LLMが知識グラフ内の関係性に基づいて推論の経路を再考できるリフレクション機構が導入されています。これによって調整が可能になるんです。
では、plan-on-graphがどのようにしてこの自己修正的適応プランニングを実現しているのか、詳しく見ていきましょう。3つの重要なメカニズムがあります。
1つ目はガイダンスです。ユーザーの質問やクエリは、サブ目標やサブクエリに分解されます。それぞれが質問に答えるために満たすべき特定の条件を示しています。LLMがこれを作成し、これらのサブ目標が知識グラフのハイパープレーン上での探索を導きます。LLMの注意を関連する部分にのみ向けることで、サブグラフを構築していくわけです。
次に素晴らしいのがメモリです。plan-on-graphの方法論では、3種類の情報を保存します。まず完全なサブグラフ、つまりLLMがこれまでに探索した知識グラフの部分です。次に推論パス、これは知識グラフまたはその一部で辿ってきたエンティティと関係の順序です。そして、どのサブ目標が達成され、どれがまだ注意を要するかを記録します。これにより、LLMが複雑な質問の一部を忘れてしまうことを防ぐことができます。
3つ目が最も重要な部分で、これがリフレクションです。これが自己修正プロセスの核心部分といえます。LLMは3つの点について振り返ります:
知識グラフから得た情報は、ユーザーの質問に答えるのに十分か
これまで探索した推論パスは正しい答えにつながりそうか
LLMは多くの知性を働かせてこの特定の質問を評価する必要があります
もしLLMが満足できないと判断した場合、知識グラフのハイパープレーン上でさらなる探索が必要になります。現在のパスを継続して探索すべきか、それとも別のパスを探索すべきか。つまり、1、2歩戻って異なるパスを探索し、新しいエンティティを見つける必要があるかもしれません。
これらすべての決定をLLMが行う必要があるため、このプロセスには本当に強力で「インテリジェント」なLLMが必要になります。
最も単純な例を挙げてみましょう。「iPhoneを製造している会社のCEOは誰ですか?」というクエリについて考えてみましょう。最初のステップでは、これを2つのサブ目標に分解できます:「iPhoneを製造している会社を見つける」そして「その会社のCEOを見つける」というように。簡単なサブ目標ですね。
ステップ1では探索を開始します。LLMはサブ目標に導かれながら、関連する関係性に基づいて知識グラフを探索します。見つかったものについては、メモリ更新を行います。探索されたサブグラフ、すでに探索した推論パス、そして答えに満足しているかどうかの状態がすべて保存され、LLMの推論プロセスで利用可能になります。
次にリフレクションでは、LLMの「インテリジェンス」がメモリ内の情報を分析します。もしLLMがメモリ内の情報で十分だと判断し、すべての答えを得られたと考えれば、次のサブ目標に移ります。そうでない場合は、異なる関係を探索したり、バックトラックすることを決定するかもしれません。
これは新しい考え方ではありませんが、知識グラフを滝のように一方向に進むのではなく、戻って異なるパスを探索するという点が特徴的です。もちろん、これは反復的なプロセスで、利用可能な最良のパスを探すためにLLMが探索を行います。
これらのステップは、すべてのサブ目標が達成されるまで繰り返されます。LLMは推論パスの以前の地点にバックトラックすることで自己修正を行い、異なる枝を探索することができます。すべてはメモリに更新され、LLMはすでに訪れた場所と発見したことを正確に把握しています。
例えば、LLMは「6ステップ前の知識グラフのノードが興味深かったので、そこから探索し直すべきかもしれない」と判断するかもしれません。これはLLMのドメイン知識と、質問応答などの複雑さを扱える能力に依存します。
すべてのサブ目標が達成されると、LLMは最終的な答えを生成します。
この方法の利点は何でしょうか?
plan-on-graphは質問と知識グラフの構造に基づいて探索を適応させます
リフレクション機構による自己修正が可能です
メモリ内にすべての推論ステップが記録されているため、明示的な推論の透明性があります
1週間前にお見せしたMITと香港中文大学による「decoding-on-graph」の論文を覚えておられますでしょうか。これは別の方法論でした。「Decoding on Graphs: Empower LLMs with Knowledge Graph by MIT」というビデオをご覧になった方は、この特定の方法論との違いは何かと疑問に思われるかもしれません。
ビームサーチについて、トークンレベルとトリプレットレベルのビームサーチがあることを、そのビデオで説明しました。今日のplan-on-graphと、そのビデオで説明したdecoding-on-graphの違いを簡単にまとめてみましょう。
コアメカニズムについて、decoding-on-graphは知識グラフ上で段階的に進む制約付きデコーディングによる整形された連鎖生成を行います。一方、新しい方法論であるplan-on-graphでは、私が示した3つのステップによる自己修正的適応プランニングを行います。
推論スタイルについて、decoding-on-graphは知識グラフの構造、データ、関係性に基づく推論ステップの直接生成を行い、トリプレットを作成します。新しい方法論では、反復的な探索、メモリ更新、リフレクションプロセス、そしてバックトラックがあり、より多くの探索が行われます。
パスの探索について、decoding-on-graphは知識グラフの構造による制約を受けますが、新しい方法論ではサブ目標と自己修正、LLMによる分析により、よりアダプティブな方法論となっています。
主な利点は、適応的で自己修正的な完全な知識グラフの効率的な探索です。この新しい方法論の新しいアイデアがどのようなものかがお分かりいただけたと思います。
decoding-on-graphとplan-on-graphの例を挙げ、LLM-on-graphが失敗し、この新しい方法論が正解を導き出せる可能性がある場合を示してみましょう。
簡単な知識グラフを作ってみました。線形化すると以下のようになります:
ヘモグロビンは鉄を含む
鉄は人間の生命に不可欠
地球の核は鉄とニッケルで構成されている
鉄の原子番号は26
ニッケルの原子番号は何番か
ヘモグロビンの機能は酸素輸送
地球の核の特性は磁場生成
マグネシウムは人間の生命に不可欠
カルシウムも人間の生命に不可欠
このような知識グラフがあるとして、LLMに以下のクエリを解決するよう課題を与えます:「人間の生命に不可欠な要素で、ヘモグロビンの主要な構成要素であり、かつ地球の核にも存在するものは何か?」
この質問には少し複雑さが含まれていることがお分かりいただけると思います。LLMが地質学や医学などについて完璧な事前学習データを持っていない場合、知識ベースとしての知識グラフにアクセスする必要があります。
decoding-on-graphは失敗する可能性があります。というのも、バックトラッキングがないため、一度間違ったパスを進んでしまうと問題が発生するからです。しかし、plan-on-graphは成功する可能性があります。
公式の論文では、タスク分解、パス探索、メモリ更新、評価とリフレクションという、私が示した3つのステップがどのように適用されるかが示されています。反復的な性質が明確に示されており、メモリに何が格納されているかも詳細に説明されています。
これらの方法論を理論的な側面からもう少し比較してみましょう。適応性と自己修正は、明らかにplan-on-graphの中核的な強みです。decoding-on-graphは初期の連鎖が間違っていると、回復するメカニズムがほとんどありません。一方、新しい方法論ではバックトラックして異なる枝を探索し、LLMが必要だと判断した場合に推論パスを改良することができます。
複雑な質問に関しては、plan-on-graphのサブ目標分解により、より複雑な多段階の質問を扱うのに適していることは明らかです。ただし、小さな管理可能な部分への質問の分解には、それ自体の限界と問題がないわけではありません。
これは素晴らしい方法論ですが、LLMは本当に強力で、そのドメイン知識について十分に事前学習され、微調整されている必要があります。
一方、decoding-on-graphは単一連鎖アプローチで複雑な質問に苦戦するかもしれませんが、効率性の面では、plan-on-graphはより複雑に見えるものの、その適応的な性質により、実際にはより高い効率性と精度につながる可能性があります。
decoding-on-graphは、開始時に定義したビームサーチパラメータを持つ固定幅であるため、生産的ではないパスの探索にリソースを浪費する可能性があります。
しかし、decoding-on-graphの強みもあります。その単純さにより、実装が容易で、異なる知識グラフにより一般化できる可能性があります。私がビデオで示したdecoding-on-graphの制約付きデコーディングメカニズムは単純明快で、LLMで問題が発生する可能性のある複雑なリフレクションに依存しません。
plan-on-graphでは、LLMが何らかの幻覚を起こすかもしれません。その場合、深刻な問題に陥る可能性があります。そのため、decoding-on-graphの単純さは、計算リソースが限られている場合や、非常に異なる構造を持つ多くの知識グラフを扱う場合には、非常にポジティブな特徴となり得ます。
自分自身に問うべき質問は:
バックトラックや探索が不要な完全な知識グラフを持っているか?特定のドメインに必要なすべての情報を含む完全なサブグラフを持っているか?
知識グラフ内の特定の複雑さに自身を制限するか?知識グラフにある情報のみを使用し、LLMによる更なる関係の仮説を避けるか?
これらの制限は非常に有益になり得ます。
plan-on-graphはより洗練されていますが、特に単純な質問に対しては、その精度が常に高いとは限りません。両方の方法論の効果は、特定の質問、知識グラフの構造、データのエンコーディング、そしてもちろんLLMの能力、その事前学習能力に依存します。
微調整を間違えると、事前学習された知識が上書きされてしまい、多くの問題が発生する可能性があることを覚えておいてください。場合によっては、このより単純なdecoding-on-graphの単純な連鎖生成で十分な場合もあり、LLMが幻覚を起こしたり暴走したりする可能性があるため、むしろより良い結果につながる可能性もあります。
より複雑な質問に対しては、plan-on-graphの適応性と自己修正メカニズムが機能し、制御メカニズムがある場合、より高い精度でより良い答えを得られる可能性が高いと言えるでしょう。
皆さんはこう思われるかもしれません。「このビデオのdecoding-on-graphは素晴らしく、この新しいplan-on-graphはより複雑だけど、3つのポイントがあってより高い精度につながるんですね」と。そうですね。MITバージョンのdecoding-on-graphから始めて、今日のトピックに移行するのもいいかもしれません。
ただし、他の競合手法にも注意を払う必要があります。2024年3月のUCバークレーによる「LLM to Knowledge: 新しいGIF方法論」というビデオですでに紹介しました。そこでは「syn-on-graph」という方法論について説明し、これがUCバークレーが開発した「GIF」という新しい方法論の基礎になっていると説明しました。
スパース知識グラフを使用し、syn-on-graphとGIFの両方が、LLMと知識グラフのデータを統合してLLMの推論能力を強化する上で注目すべき進歩であることをお話ししました。
では、これら2つの方法論は今どこに位置しているのでしょうか?私が今お見せしたdecoding-on-graphとplan-on-graphの中間にあると思います。plan-on-graphの著者たちは、syn-on-graphを開発の参照点として使用したと主張しています。
また、UCバークレーも新しいGIFがsyn-on-graphのアイデアに基づいていると述べています。そのため、現時点では、この新しいplan-on-graphとUCバークレーのGIFは、その能力において本当に同等のパートナーだと考えています。
メカニズムは異なり、こちらではスパース知識グラフを使用し、あちらでは完全な知識グラフを期待していますが、それ以外では、私のビデオで紹介した4つの方法論の強みと弱み、そしていつどの方法論を使用するべきかについて理解していただけたと思います。
しかし、明確にしておきましょう。本当のスターはHowardです。Howardmetは、知識グラフエージェントをMatAIに統合し、知識グラフのデータと医療LLMの推論能力の間で合成を行う方法として、私が今日まで見た中で最高のものです。これは本当に傑出しています。
これが5番目の方法論といえますが、最も複雑で時間のかかる、単純な方法論ほど効率的ではないものの、カバー範囲では本当に印象的です。
これが私たちの新しいアイデア、より良い推論能力のためのplan-on-graphです。しかし、syn-on-graphには素晴らしいGitHubリポジトリがあり、すべてのコードが利用可能であることをお示ししましょう。
plan-on-graphの公式GitHubリポジトリを見ると、READMEファイルしかないことがわかります。3日前に公開されたばかりなので理解できますが、コードとデータの公開申請が現在進行中で、承認されれば公開するとのことです。
これは残念なことです。データがあれば、何が起こっているのかをより簡単に理解し、自分でコードを書いたり再現したりすることができるからです。コードが公開されていないだけでなく、例えばプロンプト構造を見ても、文献には「意味分析に基づいて、できるだけ少ないサブ目標に質問の答えるプロセスを分解してください」という記述はありますが、示されていない短い例を挿入する必要があるとされています。
この方法論をより広く利用可能にし、より良く学ぶための例を示していないのは残念です。パス探索の2番目のパートを見ても、特定のプロンプトに多くの情報が欠けており、与えられているのは非常に基本的な情報だけです。
これは、この特定の研究の欠点だと思います。アイデアは素晴らしく、私が示した知識グラフとLLMの5つの方法の中で美しいスイートスポットに位置していますが、コードを公開する許可を申請する必要があります。
パートナーを見ると、大学自身が研究者たちに「コードの公式公開には申請が必要」と言っているのか、それとも世界的に活動する商業企業であるAlibaba Cloud Computingが「これは興味深いコードに見えるので、商業企業として別の判断をするかもしれない」と言っているのか、私にはわかりません。
アカデミアだけでなく産業界も参加していることは興味深いですが、産業パートナーを持つことの結果の1つとして、そのパートナーがコードや方法論のさらなる洞察の公開を決定するかもしれないということは...うーん、どう言えばいいでしょうか。
会社が「これは社内で行われたことなので、すべて私たちのものです」と言うのは理解できます。しかし、LLMと知識グラフという重要なコンポーネント間の美しいスイートスポットに位置する素晴らしいアイデアについて、素晴らしい論文を書くという非常に困難な課題に取り組んでおきながら、コードなどを提供しないというのは...
この研究を皆さんにお勧めできるでしょうか?絶対に興味深いものです。主なアイデアと彼らが行ったことを理解する必要があります。残念ながら、さらなる評価はできませんが、これが現在の最先端だとすれば、来週には世界のどこかの別のグループがこれらのアイデアに基づいて新しいアイデアを思いつき、コードを公開することを許可されるかもしれません。そうすれば、グローバルなAIコミュニティに貢献することになるでしょう。
これが興味深かったことを願っています。私のYouTubeチャンネルで、LLMとビジョン言語モデルの知性と推論能力を、知識グラフに表現されているデータとデータの関係と組み合わせる5つの素晴らしい方法論を紹介しました。楽しんでいただけたなら幸いです。次回の動画でお会いできることを楽しみにしています。