(論文紹介)Large language models for artificial general intelligence (AGI)
こんにちはmakokonです。
AGIに関するいいまとめかと思ったので、読んでみました。
Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches
https://arxiv.org/pdf/2501.03151v1
LLMとの関わりを除いても、AGIについての様々な理解を提供してくれるので、論文の順序にこだわらずに、LLMの頼りながらいろいろな切り口でまとめています。
この論文は、大規模言語モデル(LLM)を用いた人工汎用知能(AGI)の実現に向けた基礎原理を考察しています。具体的には、重要な4つの概念
具象化、具現化(embodiment)、
記号接地(symbol grounding)、
因果関係(causality)、
記憶(memory)
これらのLLMにおける実装と相互作用に基づく総合的な認知モデルがテーマになっています。各概念の実装には、様々な最先端の技術(知識グラフ、深層学習、強化学習など)が紹介されています。
最終的には、LLMのスケールアップだけではAGIは実現せず、これらの基礎原理の統合的な実装が不可欠であると結論付けています。
つまり、真のAGIの実現には、具現化、記号接地、因果関係、記憶といった要素を統合し、人間のような認知能力を獲得する必要があります。LLMのスケールアップと大量のデータによる学習だけでは、AGIの実現には不十分であり、これらの基礎的な原則を組み込むことが重要です。
これらの要素が統合されることで、AIシステムはより汎用的でロバストな知能を獲得し、現実世界でより効果的にインタラクトできるようになります3。
AGIとLLM
巨大言語モデル(LLM)は、人工汎用知能(AGI)の開発において重要な役割を果たす可能性を秘めています。
ただし、現時点では、LLMが真にAGIに到達しているとは言えず、まだ多くの課題が残されています。具体的には、以下のような貢献の可能性が指摘されています。
汎用的な問題解決能力の向上:LLMは、様々な複雑なタスクを同時に処理する能力を持つため、幅広い分野で高い性能を発揮できます。
LLMは、テキスト翻訳、医療画像セグメンテーション、株価予測、歩行者追跡など、多様なタスクに対応できることが示されています。
因果関係の理解と推論:LLMは、因果関係を理解し、それに基づいて推論する能力を備え始めています。因果関係の推論は、AGIが現実世界を理解し、適切に行動するために不可欠な要素です。
LLMは、観察レベル(統計的関連性)、介入レベル(特定の行動の結果予測)、反事実レベル(もし〜ならばという仮説に基づく推論)といった異なるレベルの因果関係を扱うことができるようになりつつあります。
反事実的推論は、「もし特定の出来事が違っていたらどうなっていたか」という問いに答えることを可能にし、問題解決能力を向上させます。
認知機能のサポート:LLMは、AGIに必要な様々な認知機能をサポートします。
観察・認識:LLMは、データから直接情報を得て、統計的な関連性を認識することができます。
予測・補間:LLMは、介入レベルの因果情報を用いて、特定の行動の結果を予測することができます。
想像力・分析:LLMは、反事実的推論を用いて、仮説的なシナリオを想像し、分析することができます。
記憶メカニズム:LLMは、感覚記憶、短期記憶、長期記憶といった異なる種類の記憶メカニズムを実装し、情報処理を効率化しています。
感覚記憶は、認知システムがアクセスするために一時的に感覚情報を保存するバッファとして機能します。これにより、認知処理コンポーネントが異なる速度で動作しても情報が失われません。
記憶システムは、情報フローを管理し、認知システムとの相互作用を可能にします。
マルチモーダルな情報処理能力:LLMは、テキストだけでなく、画像や音声などのマルチモーダルな情報を処理する能力を持つことが期待されています。
具現化と接地:AGIの実現には、LLMを具現化(embodiment)し、現実世界に接地(grounding)させることが重要です。
具現化とは、LLMが物理的な身体を持ち、環境と相互作用することです。
接地とは、LLMが現実世界の概念やオブジェクトと関連付けることです。
4つの貢献1 具象化、具現化(embodiment)
具現化(embodiment)は、人工汎用知能(AGI)を達成するための重要な概念であり、大規模言語モデル(LLM)が現実世界と相互作用し、より高度な知能を獲得するために不可欠な要素です。
具現化は、LLMが現実世界とより効果的に相互作用し、学習し、推論するための基盤を提供します。具現化を通じて、LLMはより深く世界を理解し、より複雑な問題を解決できるようになり、最終的にはAGIの実現に貢献すると考えられています。
具現化の基本概念
生物学的認知の現代的な概念では、人間の神経系の認知プロセスは、身体と外部環境との相互作用に深く根ざしているとされています。この観点では、脳、身体、環境は一体となって知的な行動を形成する統一システムと見なされます。
LLMが真に知的になるためには、生物学的システムと同様に、物理的な方法で世界と相互作用し、その相互作用の結果についてフィードバックを受け、学習できる必要があります。
具現化されたAIシステムは、従来のデジタルのみのシステムとは異なり、感覚情報を知覚・処理し、環境と相互作用するための具体的な物理的実体を持つシステムです。
具現化がAGIの基礎となる理由
自己目標指向行動の基盤: 具現化は、本質的な目標指向の行動の基礎を提供します。具現化されたAIシステムは、特定の目標やニーズに基づいて自ら行動を選択し、完全に制御できるエージェンシーを持つ必要があります。
自律性の実現: この目標指向の行動は、自律性の基本的な要件です。
知的能力の拡張: 環境と探索・相互作用するための豊富なセンサーリソースを持つAIシステムは、広範な知的能力を獲得します。
そのようなシステムは、世界と自身の状態を正確かつ堅牢に認識し、目的を持って世界に働きかけ、影響を与えることができる必要があります。
また、現実世界の複雑なダイナミクスにシームレスに適応する能力も必要です。
柔軟性とニュアンス: 従来のAIアプローチは本質的に硬直的で機械的ですが、具現化された知能はより柔軟でニュアンスがあり、客観的な経験を主観的な概念、価値観、文化規範、期待と結びつけることができます。
問題解決能力の向上: より統合的な方法で世界と相互作用し、学習・意思決定を行うことで、具現化されたエージェントはより堅牢になり、複雑で多様な問題を処理できるようになります。
具現化された知能の重要な側面
具現化された汎用知能の実装には、以下の4つの主要な考慮事項があります:
目標認識: 生物学的システムと同様に、AIシステムは、他のエージェントから与えられた明示的な指示を含む他のすべての目標に従属しなければならない包括的な目標を持つ必要があります。この目標は本質的なものであり、他のエージェントによってトリガーされる外部目標の達成を導く必要があります。
自己認識: 知的行動の適切さは、達成しようとする目標だけでなく、目標を達成するための利用可能な手段に対する行動の最適性にも依存します。
具現化された知的なエージェントは、自身の能力と限界を認識し、人間中心の文脈では、より広い社会的な視点から自身を理解し、経験を価値観、文化規範、期待と結びつける能力を含める必要があります。
これにより、社会的知能の実現が促進されます。
状況認識: 具現化された認識、つまり具現化されたエージェントによる状況認識には、環境の認識と他の戦略的エージェントの認識という2つの側面があります。
環境と一般的な文脈の認識には、現在の世界の状態とその中で起こっているプロセスを理解するだけでなく、エージェントや他のエージェントの行動の結果として、近い将来および遠い将来に環境がどのように変化するかを理解することが含まれます。
意図的な行動: 行動は、世界に影響を与え、望ましい目標を達成するための主要な手段であるため、具現化された知能の中心となります。
行動を通じて、エージェントは世界を積極的に探索し、知覚をさらに改善し、動的な環境での学習と適応を促進することができます。
インテリジェントな具現化されたエージェントは、目的のある行動を通じて世界に影響を与えるメカニズムを組み込む必要があります。
LLMに具現化を与えることで、現実世界または仮想的な相互作用を通じて意図的な行動をとることができます。
具現化されたエージェントは、環境との意図的な相互作用を通じて、オブジェクトの新しいアフォーダンスと以前は知られていなかった特性を発見できます。
LLMにおける具現化の実現方法
物理的なエージェント: LLMに具現化を実現するための最も直接的なアプローチは、適切なセンシングモダリティを備えたロボットの形で具現化されたエージェントを設計・実装し、高度な言語理解能力をロボットの物理的および感覚的メカニズムと統合することです。
マルチモーダルモデル: これらのエージェントは、知覚、計画、ナビゲーション、オブジェクト操作、自然言語コミュニケーション、人間や他のAIエージェントとの物理的な相互作用、低レベル制御タスクなど、複数のタスクを同時に実行する必要があります。
これらのタスクをエンドツーエンドで実行するために、EmbodiedGPT、PaLM-E、AlanaVLMなどの特別な具現化されたマルチモーダルモデルが、Egocentricなデータセットを使用してトレーニングされています。
合成データとデータ拡張: 具現化されたタスクのための十分な大きさで多様な実データをキュレーションすることが難しいことが多いため、多くの研究では、合成データを使用したり、合成的に生成されたEgocentricなデータで実データ拡張を行ったりしています。
LEAPやEgoGenなどの専用フレームワークが、合成Egocentricデータの生成のために提案されています。
コード生成: 別の一般的なアプローチは、自然言語の指示として指定された高レベルの目標から中間コードを生成し、それを具現化されたエージェントが相互作用する3D世界モデルを生成するために使用することです。
このアプローチは、LLMにエンコードされた豊富な事前知識を利用してコード生成をガイドします。
4つの貢献2 記号接地(symbol grounding)
シンボルグラウンディング(symbol grounding)は、人工知能(AI)システム、特に大規模言語モデル(LLM)が、抽象的な内部表現を現実世界の具体的な概念やエンティティと結びつけるための重要な概念です。これは、LLMが単なる記号の操作ではなく、現実世界を理解し、それに基づいて行動するために不可欠です。
つまり、シンボルグラウンディングは、LLMがより高度な知能を獲得し、AGIの実現に貢献するための重要なステップです。具現化と並行してシンボルグラウンディングを進めることで、より柔軟でニュアンスがあり、現実世界に適応できるAIシステムが実現すると期待されています。
1. シンボルグラウンディングの基本概念
記号と意味の接続:シンボルグラウンディングとは、計算モデル内の抽象的な概念の内部表現と、現実世界におけるそれらの対応物との関係を確立することです。
抽象記号の操作: シンボルは、原子的なトークンとして扱われる抽象的な実体であり、それらを組み合わせてより高次の概念をエンコードできます。
意味の解釈可能性: シンボルシステムは、すべてのレベルの表現において意味的に解釈可能である必要があります。
現実世界へのアクセス: シンボルシステムは、外部世界へのアクセスを提供する情報パターンです。
認知情報処理の基盤: 心理学者は、人間の心が精神プロセスにおける情報の表現と操作の象徴的なシステムに依存していると主張しています。視覚、言語、感情、思考などの認知現象は、記号処理によって制御されます。
抽象概念の処理: 抽象的な概念(例:「幸せ」、「革新」)もシンボルとして扱われ、人間はそれらを適切な意味的文脈に容易に関連付けることができます。
2. シンボルグラウンディングがAIと現実世界の橋渡しとなる理由
意味のある文脈の提供: 言語は、世界におけるオブジェクトや概念についての理解を表現するために記号を使用します。シンボルグラウンディングの目標は、AIモデルの内部でキャプチャされた抽象的な記号と、それらが表そうとする物理的な世界との間の正しい関係を確立することによって、現実世界のより意味のある豊かな文脈を提供することです。
セマンティックギャップの解消: シンボルグラウンディングは、AIと現実世界との間に存在する本質的なセマンティックギャップを解消することを目的としています。これにより、AIシステムは環境からの入力を「理解」し、状況認識とタスクに応じた適切な行動を強化できます。
状況認識の向上: 具現化された知能と同様に、シンボルグラウンディングは、LLMが環境を理解し、その中で意味のある行動を取るために不可欠です。
具現化されたエージェントが、センサーデータを意味のある概念に変換できるようにすることで、状況認識を向上させます。
3. シンボルグラウンディングの実現方法
シンボルグラウンディングの実現方法は、具現化における様々なアプローチに対応して、いくつかの種類に分けることができます。
知識グラフ(Knowledge Graph)
LLMにおいて、抽象的なシンボルと現実世界のエンティティの間の関係を捉える一般的な方法は、知識グラフ(KG)を使用することです。
知識グラフは、単語をグラフ構造のノードとして表現し、ノード間のエッジで関係を記述します。
これにより、KGは現実世界に根ざした大量の明示的な知識を格納できます。
KGをLLMに組み込むことで、LLMの推論能力を強化し、ハルシネーション(幻覚)を軽減し、物理的に根拠のある知識を内部化させることができます。
LLMがKGを構築・強化する役割も担うことで、LLMとKGは相互に強化し合うことが可能です。
オントロジー駆動型プロンプティング(Ontology-driven prompting)
プロンプト技術は、LLMをよりニュアンスがあり、文脈に適した応答を生成するように誘導するために使用されます。
オントロジーをシンボリックに接地された知識ベースとして利用することで、特定の状況に効果的に対処する方法をモデルに指示できます。
オントロジーエンジンは、事実、ルール、エンティティ、カテゴリ、プロパティ、およびそれらの間の関係の形式的な仕様によって作成されます。
LLMを使用してオントロジーを作成または強化することもできます。
埋め込みによるエンドツーエンドのグラウンディング(End-to-end grounding through embedding)
LLMでは、学習された概念の意味とそれらの関連性を、高次元のベクトル空間で暗黙的にモデル化することで、シンボルグラウンディングの問題を解決できます。
ベクトル空間では、単語や視覚的概念などのシンボルは、それらが頻繁に発生する文脈と、他のシンボルとの関係に基づいてエンコードされます。
この表現を利用して、学習された埋め込みを、実際のオブジェクト、知覚的な経験、アクション、または現実世界の概念に関連付けることができます。
この技術はスケーラブルで実装が比較的簡単ですが、常に正確なマッピングを生成できるとは限りません。また、どのシンボルが正しく接地されていないかを特定することが難しい場合があります。
積極的な探索と環境との相互作用によるグラウンディング(Grounding by active exploration and interaction with the environment)
シンボルを接地する重要な方法は、関連するエンティティの意味を見つけるために世界を積極的に探索することです。
具現化(embodiment)は、世界との意図的な行動や探索・相互作用をサポートする能力において、知識獲得のためのツールとしての役割を担います。
このメカニズムは、LLMエージェントが世界でのオブジェクトや現象との直接的な経験を通じて、抽象的なシンボルの意味を学習するのに役立ちます。
現在の多くのアプローチでは、強化学習技術を使用して、言語構造、物理的なオブジェクト、抽象的な概念、およびアクションを直接接続します。
低レベルのシンボルを有形の経験に接地し、それに基づいて高レベルの概念を構築します。
強化学習エージェントを訓練するには多数の試行が必要なため、仮想世界が現実世界のシミュレーションによく使用されます。
外部知識の活用によるLLMのグラウンディング(Leveraging external knowledge for LLM grounding)
LLMは、外部の知識源から「弱い」グラウンディングを提供することもできます。
百科事典的な知識グラフは、Wikipediaなどの多様なソースからマイニングされた構造化された知識を表すことができます。
検索拡張生成(RAG)は、外部ソースからの追加情報を活用して、グラウンディングプロセスに使用可能な知識を拡張する一般的な手法です。
4. シンボルグラウンディングと具現化の関係
具現化の補完: シンボルグラウンディングは、具現化を補完する役割を果たし、抽象的な認知表現を現実世界の意味のあるエンティティや概念と接続します。
感覚運動の経験の活用: 具現化は、LLMエージェントが世界と実際に知覚・相互作用することで得られる感覚運動の経験を通じて、抽象的な表現を接地することを可能にします。
具現化による意味の学習: 具現化されたエージェントは、環境との相互作用を通して、シンボルの意味を直接的に学ぶことができます。
より深い理解: 具現化とシンボルグラウンディングを組み合わせることで、LLMは世界をより深く理解し、より効果的に推論できるようになります。
5. シンボルグラウンディングの重要性
シンボルグラウンディングは、AIが真に知的になるために不可欠な要素です。これにより、AIシステムは以下のことが可能になります。
現実世界の理解: AIが現実世界のエンティティや概念を理解し、それらを適切に操作できるようになります。
曖昧さの解消: 抽象的なシンボルが具体的な意味を持つようになることで、AIは曖昧な情報をより効果的に処理できます。
状況認識の向上: AIは環境をより良く理解し、状況に応じた適切な行動をとることができます。
高度な推論能力: AIは、現実世界に基づいた推論を行い、より複雑な問題を解決できます。
人間との効果的なコミュニケーション: AIは、人間が使用する言語の意味を理解し、より自然なコミュニケーションをとることができます。
4つの貢献3 因果関係(causality)
因果関係(causality)とは、ある事象、現象、または要因が、他の事象、物体、またはプロセスにどのように影響を与えるかを特徴づける概念です。これは、AIシステムが現実世界を理解し、それに基づいて行動するために不可欠な要素であり、特に人工知能(AGI)の実現に向けて重要視されています。
因果関係は、AIが現実世界をより深く理解し、より複雑な問題を解決するための重要な要素です。具現化と並行して因果関係をモデル化することで、よりロバストで汎用性の高いAIシステムが実現すると期待されています。
1. 因果関係の基本概念
原因と結果の特定: 因果関係の学習は、原因と結果という2つの変数間の動的な関係を決定することを目指します。原因は結果に直接影響を与えます。
メカニズムの説明: グラウンディングが主に単語などのプリミティブな記号を意味のある表現(変数、現象、概念など)に接続するのに対し、因果関係は、これらのパラメーターの変化を引き起こす根本的なメカニズムと理由、およびそれらが世界のさまざまな結果にどのように影響するかを説明することに関与します。
因果推論: 因果推論とは、原因と結果の関係を理解し、それを利用して出来事を説明するプロセスです。これにより、AIシステムは複雑な現実世界の現象について推論し、正確な予測を行うことができます。
ロバスト性: 因果関係の理解は、干渉に対するロバスト性を向上させ、基礎となる条件や内部メカニズム、または環境が変化した場合でも正しい推論を維持するために重要です。
一般化と知識の転移: 因果モデリングにより、AIシステムは学習した知識を新しい設定に一般化し、転移させることができます。
観察の限界への対応: 因果関係を認識したモデルは、観察やデータの固有の限界や欠陥を説明できます。例えば、敵対的な例やバイアスの影響を排除または軽減できます。
2. 因果関係がAIと現実世界の橋渡しとなる理由
現実世界の複雑さの理解: 因果関係は、AIシステムが複雑な現実世界の現象を理解し、説明するために不可欠です。例えば、構造物が悪天候に耐える理由、気候変動、病気の蔓延などを理解するためには、因果関係の理解が不可欠です。
日常活動への適用: 因果関係の理解は、料理、洗濯、運転などの日常活動にも不可欠です。これらの活動は、具体的な概念や対象物の性質、またその相互作用に関する知識を必要とします。
例:料理では、量、重さ、沸騰などの概念や、火などの要素の動作を理解する必要があります。
例:運転では、速度、勢い、慣性、衝突などの概念を理解する必要があります。
状況認識と意思決定: 具現化されたエージェントが環境内で行動を起こすとき、その行動の結果を予測し、それに基づいて意思決定を行うためには、因果関係の理解が不可欠です。
3. 因果関係のレベル
因果関係の理解は、許容される因果推論能力のレベルに応じて分類できます。
関連性(Association): 観察されたデータにおける統計的関係から直接答えを得るレベルです。例えば、「Xとは何か?」または「観察XはYに対する私たちの信念にどのように影響するか?」という質問に答えることができます。
介入(Intervention): ある変数を変更した場合に、別の変数にどれだけ影響を与えるかを推定するレベルです。「もしXが1.5だったらYはどうなるか?」「Xが2倍になったらYはどう変化するか?」といった介入による影響を予測できます。
反事実(Counterfactual): 「もしXが違っていたらどうなっていたか?」という仮説的な質問に答えることができるレベルです。介入レベルの情報に加え、因果関係を逆方向に辿って、起こり得た別の結果について推論することが可能です。
4. 因果関係のモデリング手法
LLMにおける因果関係のモデリングは、大きく分けて以下の3つの手法があります。
従来の深層学習(Deep Learning)手法:
大規模なデータセットで学習されたLLMは、隠れたパターンを学習することで因果関係をモデル化する能力を示しています。
このアプローチでは、トレーニングデータに明示的に指定されていなくても、重要な変数を推論し、それらの変数間の特定の因果関係を特定できます。
ただし、このアプローチでは、観察されたすべての接続が因果関係を持つとは限らず、誤った結論につながる可能性のある相関関係を捉えてしまう可能性があります。
ニューロシンボリック(Neuro-symbolic)手法:
この手法は、LLMモデルに因果メカニズムに関する事前の知識を明示的に組み込みます。
知識グラフなどの構造化された知識表現技術を活用して、LLMが因果関係をより正確に把握できるようにします。
因果グラフモデルのような、本質的に因果関係を表現する構造化知識技術を使用します。
LLM自体を因果グラフモデルの構築に利用することも可能で、LLMが持つ現実世界の知識を活用して、因果関係の変数を特定し、それらの関係を記述することができます。
このアプローチにより、LLMはより正確な因果推論を行うことができるとされています。
物理ベースのワールドモデル(Physics-informed world models):
人間の因果推論能力は、世界モデル(メンタルモデル)に基づいているという仮説に基づいています。
この世界モデルは、概念、現象、オブジェクトの因果抽象化をエンコードします。
この抽象化に基づき、人間は直感的な物理学の形で、世界の基本的な特性と、それらの特性が行動にどのように影響するかについての知識を持っています。
このアプローチでは、直感的な物理エンジンに基づいた仮想世界を利用して、LLMの知識を現実世界の因果関係の性質と行動に接地させます。
これらのモデルは、物理法則を表す数学モデルを利用し、空気力学、重力、力、照明、加熱などの現実世界の現象の因果関係をシミュレートします。
この方法で訓練されたAIエージェントは、一般的な因果法則や行動を学習できます。
5. 因果関係と具現化の関係
相互作用による学習: 具現化されたエージェントは、環境との直接的な相互作用を通じて、因果関係を学習することができます。
行動と結果の結びつき: 具現化されたエージェントは、自らの行動が環境にどのような影響を与えるかを直接経験することで、因果関係をより深く理解できます。
直感的な物理の獲得: 物理ベースのワールドモデルを用いた具現化により、LLMエージェントは、物体がどのように動くか、落下するか、衝突するかなど、直感的な物理的知識を獲得することができます。
予測と計画能力の向上: 因果関係の知識は、エージェントが将来の出来事を予測し、目標達成のための計画を立てる上で不可欠です。
6. 因果関係の重要性
因果関係の理解は、AIがより高度な知能を獲得し、AGIの実現に貢献するための重要な要素です。これにより、AIシステムは以下のことが可能になります。
現実世界の出来事の説明: AIは、なぜ出来事が起こったのかを理解し、説明することができます。
より良い意思決定: 因果関係を理解することで、AIはより効果的な意思決定を行うことができます。
予測精度の向上: 因果関係に基づいて予測を行うことで、より正確な予測が可能になります。
より高度な推論能力: AIは、因果関係に基づいた推論を行い、より複雑な問題を解決できます。
人間とのより効果的な協調: 因果関係を共有することで、人間とAIシステムがより効果的に協調して作業することができます。
4つの貢献4 記憶(memory)
記憶(memory)とは、経験を通して得られた知識や情報を保持し、必要に応じてそれらを再利用するためのメカニズムです。これは、AIシステムが過去の経験から学び、それに基づいて将来の行動を計画するために不可欠な要素であり、特に人工汎用知能(AGI)の実現において中心的な役割を果たします。
記憶は、AIが現実世界をより深く理解し、より複雑な問題を解決するための重要な要素です。具現化と並行して記憶メカニズムを開発することで、より高度な認知能力を備えた汎用AIが実現すると期待されています。
1. 記憶の基本概念
知識の保存と再利用: 記憶は、具現化、グラウンディング、因果関係の学習を通して得られた重要な知識を保存、整理し、その後の高レベルな認知タスクや将来の再利用のために利用可能にするための手段です。
継続的な学習: 記憶メカニズムは、継続的(または生涯)学習を促進し、これは生物の知能の重要な特徴です。
過去の経験の活用: 過去の決定や行動を内省する能力は、記憶メカニズムを通じて、AIシステムが継続的な学習と適応を可能にします。
計算コストの削減: 記憶は、すでに計算された認知変数やソリューションを再利用することで、コストのかかる計算を回避する手段としても機能します。
メタ認知: 記憶は、メタ認知タスクにおいても重要な役割を果たし、あるドメインに関する既存の知識が新しいスキルを学習するのを促進します。
2. 記憶の種類
一般的に、記憶システムは以下の3つの主要なタイプに分類されます:
感覚記憶(Sensory Memory):
役割: 感覚記憶は、感覚情報を一時的に保持し、認知システムがアクセスできるようにする初期段階のメカニズムです。これは、エージェントのさまざまなセンサーや入力システムからの知覚入力を記録します。
機能: 感覚記憶は、ノイズの多い信号を無視し、より顕著な情報に焦点を当てることで、環境からの連続的な感覚情報のフィルタとしても機能します。
実装: このタイプの記憶は、入力信号をバッファリングするラッチングシステムとして実装できます。
持続時間: 感覚記憶は、情報を最も短時間保持します。
具現化との関係: 具現化されたLLMシステムは、センサーを使用することで、ある種の感覚記憶メカニズムを実装していると言えます。
ワーキングメモリ(Working Memory):
役割: ワーキングメモリは、認知処理のために必要な情報を一時的に保持するものであり、短期記憶としても知られています。これには、知覚、意思決定、推論、命令の実行、実行機能(センサーモーター制御)が含まれます。
機能: ワーキングメモリは、情報をフィルタリングし(注意メカニズムを通じて)、長期記憶に保存するための準備をします。
実装: LLMのコンテキストウィンドウは、ワーキングメモリと同様の機能を提供し、最近の入力を保持し、モデルが処理できるようにします。
持続時間: ワーキングメモリは、比較的短い時間、情報をアクティブな状態で保持します。
具現化との関係: ワーキングメモリは、具現化されたエージェントがリアルタイムの状況を把握し、迅速な意思決定を行うために不可欠です。
長期記憶(Long-Term Memory):
役割: 長期記憶は、情報を長期間保存し、必要に応じて再利用できるようにします。
機能: 長期記憶は、ワーキングメモリから選択された、長期保存に適した情報を保持します。
実装: 長期記憶は、深層ニューラルネットワークのパラメータ、注意メカニズム、明示的なメモリ構造、外部メモリ(RAGなど)によって実装されます。
持続時間: 長期記憶は、事実上無制限の容量を持ち、情報を永続的に保持できます。
種類: 長期記憶は、宣言的記憶と手続き的記憶に分類されます。
3. 長期記憶の種類
宣言的記憶(Declarative Memory):
役割: 宣言的記憶は、事実に関する知識を保持し、意識的に想起できます。
種類: 宣言的記憶は、意味記憶とエピソード記憶にさらに分類されます。
意味記憶(Semantic Memory):
役割: 意味記憶は、特定の文脈やエージェントの「個人的」な経験に依存しない、一般的な知識を保持します。
内容: 事実、数式、一般的な規則、定義、単語や記号、それらの意味を含みます。
実装: LLMのトレーニング中に自然に獲得され、知識グラフや因果グラフィカルモデルなどの構造化された形式で実装できます。
エピソード記憶(Episodic Memory):
役割: エピソード記憶は、重要な出来事、経験、およびそれに関連する文脈情報(時間、場所、感情など)を保持します。
内容: 時間順に並べられた経験のシーケンスとして表されます。
実装: 注意メカニズム、コンテキストウィンドウからの情報の転送、特定のデータセットでのファインチューニングによって実装できます。
手続き的記憶(Procedural Memory):
役割: 手続き的記憶は、複雑な活動を実行するために必要な論理的なステップに関する知識を保持します。
内容: 運動スキル、活動計画、命令の実行、推論などを含みます。
機能: 複雑な活動を意識的な計算なしに実行できるようにし、タスクを自動化し、認知リソースを節約します。
実装: LLMのトレーニングデータから暗黙的に学習され、タスク固有のセンサーモーターデータセットでファインチューニングすることで実装できます。ニューロシンボリック技術を用いて、特定のスキルを明示的にエンコードすることも効果的です。
4. 記憶と具現化の関係
具現化された経験の保存: 具現化されたエージェントは、環境との相互作用を通じて得られた経験を記憶に保存します。
感覚運動情報との関連付け: 記憶は、エージェントが知覚した感覚運動情報を関連付けて保存し、将来の行動を計画する上で役立ちます。
学習の基盤: 記憶は、具現化されたエージェントが環境との相互作用を通して、継続的に学習し、適応していくための基盤となります。
5. 記憶の実装アプローチ
モデルパラメータ: 深層学習モデルのパラメータにタスク関連の知識を保存します。ファインチューニングとインコンテキスト学習は、これらのパラメータを変更することで新しい知識を組み込みます。
注意メカニズム: 過去の入力シーケンスから情報を一時的に保持および処理するために、注意メカニズムを利用します。これは、短期記憶として機能します。
明示的メモリ: 情報を選択的に保存し、後で再利用するために、コンピュータメモリにタスク関連の情報を保持します。リレーショナルデータベース、ベクターデータベース、知識グラフを使用できます。
外部メモリ: 外部データベースや知識ベースなどの外部メモリソースに情報を保存し、必要に応じて取得します。検索拡張生成(RAG)が一般的な手法です。
6. 記憶の重要性
知識の蓄積: 記憶は、AIエージェントが知識を蓄積し、学習した情報を将来のタスクで再利用できるようにします。
ロバスト性の向上: 記憶は、AIエージェントが過去の経験に基づいて、より複雑な問題を解決し、変化する環境に適応する能力を向上させます。
自律性の向上: 記憶は、AIエージェントが過去の経験から学び、目標を達成するための意思決定を自律的に行う上で不可欠です。
一般化能力の向上: 記憶は、学習した知識を新しい状況やタスクに一般化するのに役立ちます。
4つの相互関係の簡単なまとめ
具現化(embodiment)、記号接地(symbol grounding)、因果関係(causality)、記憶(memory)の4つの要素は、相互に深く関連し合い、特に具現化を中心に結びついていると言えます。これらの関係性を簡潔に説明します。
これらの要素が統合されることで、AIシステムはより汎用的でロバストな知能を獲得し、現実世界でより効果的にインタラクトできるようになります。
具現化は、AIシステムが世界とインタラクトするための基盤です。
他の3つの要素を支える基盤となります。
センサーシステムを通して世界を経験します。
記号設置は抽象的な内部表現を現実世界の概念や実体に結びつける能力です。
具現化された経験は、記号接地の基礎となり、抽象的な概念を現実世界に結びつけます。
具現化された経験と記号接地された概念は、因果関係の学習を促進します。
記憶は、記号接地された情報、具現化された経験、学習された因果関係を保存し、アクセスするためのメカニズムです。
学習されたすべての情報を保存、再利用し、これらの要素間の相互作用を促進します。
因果関係は、現実世界における出来事や相互作用における原因と結果の関係を理解する能力です。
因果関係の学習と記号接地は、記憶に保存された事前知識と、認知情報処理から得られた学習済みの知識を組み合わせ、より包括的な知識を獲得します。
まとめ
論文の記載順序とはだいぶ変わってしまいましたが、AGIに関する重要な4つの要素(具現化、設置、因果関係、記憶)についての役割がかなり明確に理解できスッキリしました。
今後の自分のためのAIパートナーを構築するうえでとても役に立つ教科書になってくれました。
付録 論文中の主な図表の説明
論文で使われている主な図表の説明をしておきます。
図1.
人工汎用知能(AGI)システムの最も重要な特徴の一部。これらの特徴により、AGIシステムは、モデルの知識が限られていることや、エネルギーと時間を節約するために認知情報処理においてショートカットを取る必要があるにもかかわらず、膨大な認知能力を持つことができる。
![](https://assets.st-note.com/img/1736435809-6wPeOKW7f9ptyAZ8jLU3FYr5.png)
図2.
大規模言語モデル(LLM)対人間の知能:知識と認知能力の柔軟な拡張を可能にする重要なメカニズム
![](https://assets.st-note.com/img/1736435994-vBWp37eLSy2itQFlsK6HfT0X.png)
図4.
この場面では、2つの知的エージェントAとBが緊急時に支援を行っている。人間の利益や価値観に沿った高次の目標に動機づけられると、このようなエージェントは自発的に良い行動を取ることができる。目標意識により、彼らは主体的で自律的になり、本質から逸脱することなく複数のタスクに対応する能力を持つことができる。
![](https://assets.st-note.com/img/1736436138-NdAnx1qiZFK4CT3XL7vUzJQP.png)
図7.
MultiPLY [215]は、シミュレートされた世界で訓練された最先端の具現化された大規模言語モデル(LLM)で、テキスト、視覚、熱、音声、触覚を含む幅広い感覚モダリティをサポートしている。複数の感覚モダリティからのコンテキスト情報を共同でエンコードし、これらの多様な表現間の関係性を学習することで、このフレームワークは、タスク計画、ツールの使用、マルチモーダル対話、ビデオキャプション生成、質問応答、空間推論、ナビゲーションなど、複数のオープンドメインタスクにおいて高度な能力を実現している。
![](https://assets.st-note.com/img/1736436344-nzPT5pFtmMAYZ6lWoXKSahOL.png)
図11.
グラウンディング(具現化)は、世界を積極的に探索し、抽象的なデジタルシンボルが指す実体の形態と意味について学ぶことで達成できる。強化学習は、相互作用を通じてこれらのシンボルを学習する効果的な方法である。
![](https://assets.st-note.com/img/1736436407-wL1A8Ohikpjf3yN9DVuQZWvs.png)
図13.
出来事や観察を解釈したり、料理や運転などの日常的な活動を行ったりするには、因果関係の理解が必要である。
例えば、料理(a)では、体積、重量、沸騰といった概念や、火などの要素の振る舞いを理解する必要がある。
同様に、運転(b)では、速度、運動量、慣性、衝突などの概念の理解が必要である。
![](https://assets.st-note.com/img/1736436576-RBLUx6eOD7ZVT5Fk08QhKAvj.png)
図15.
記憶システムの簡略化された表現で、情報の流れと、様々な構成要素および認知システムとの相互作用を示している。
![](https://assets.st-note.com/img/1736436656-UQyrxEeboIpJZG2KAdiS3kCO.png)
図16.
本論文で扱われた原則に基づく汎用人工知能(AGI)システムの一般化された機能ブロック図。この概念モデルは以下の要素で構成されている:
コアフレームワーク(身体化):物理的な本質と、世界とのインターフェースおよび相互作用に必要なメカニズムを提供する。
記憶:感覚記憶、作業記憶、長期記憶からなる異なる記憶サブシステム。学習した知識と事前知識の両方を時間とともに保存・蓄積することなどが役割。
シンボルグラウンディングサブシステム:基礎となるLLMモデル内の抽象的な表現を、実世界の実際のエンティティに接続する方法を提供する。
因果学習メカニズム:実世界のエンティティに関連する特性や物理法則を学習する。
![](https://assets.st-note.com/img/1736436845-USnobQWNCmR9jtdDOwFGHXyM.png)
#AGI #人工汎用知能 #LLM #大規模言語モデル #具現化 #Embodiment #記号接地 #SymbolGrounding #因果関係 #Causality #記憶 #Memory #AIリサーチ #機械学習 #深層学習 #認知科学 #AIの未来