Voyager: An Open-Ended Embodied Agent with Large Language Models

2023年7月26日 14:51

本記事は以下のサイトの翻訳文です。
Voyager | An Open-Ended Embodied Agent with Large Language Models

Abstract

私たちはVoyagerを紹介します。これはMinecraft内で動作する、人間の介入なしで連続的に世界を探索し、様々なスキルを獲得し、新しい発見を行う、初のLLM（Lifelong Learning Model）パワードのエージェントです。Voyagerは3つの主要なコンポーネントから成り立っています：

探索を最大化する自動カリキュラム
複雑な振る舞いを保存・呼び出すための実行可能なコードの成長するスキルライブラリ
環境からのフィードバック、実行エラー、および自己検証を組み合わせた新しい反復的なプロンプティングメカニズムによるプログラムの改善

VoyagerはGPT-4とブラックボックスクエリを介して連携し、モデルパラメータの微調整が不要なため、スキルの発展により時間的に拡張され、解釈可能で組成可能です。これにより、エージェントの能力が急速に増大し、大規模な忘却が軽減されます。経験的には、Voyagerはコンテキストに即した終身学習能力を示し、Minecraftのプレイにおいて優れた熟練度を発揮します。先行研究に比べて、ユニークなアイテムを3.3倍多く獲得し、距離を2.3倍長く移動し、主要な技術ツリーのマイルストーンを15.3倍速く解除します。Voyagerは学習したスキルライブラリを新しいMinecraftの世界で利用し、他の技術が一般化するのに苦労するような新しいタスクをゼロから解決することができます。

Introduction

AIコミュニティにとっての大きな課題は、オープンエンドの世界で連続的に探索、計画、新しいスキルを開発する、一般的に有能な具現化エージェントの構築です。従来のアプローチでは、原始的なアクションに対して強化学習（RL）や模倣学習を使用しており、これらはシステム的な探索、解釈可能性、一般化において課題がある可能性があります。最近の大規模言語モデル（LLM）ベースのエージェントの進展では、事前に訓練されたLLMに包含された世界の知識を活用して一貫した行動計画や実行可能なポリシーを生成することができます。これらは、ゲームやロボティクスなどの具現化タスクだけでなく、具現化を伴わない自然言語処理（NLP）のタスクにも適用されています。しかし、これらのエージェントは終身学習者ではなく、拡張された時間的なスパンで知識を段階的に獲得、更新、蓄積、転送することができるものではありません。
Minecraftを例に考えてみましょう。AIによって研究されているほとんどのゲームとは異なり、Minecraftは事前定義された終着点や固定のストーリーラインを課すのではなく、無限の可能性を持つユニークなプレイグラウンドを提供しています。効果的な終身学習エージェントは、人間のプレイヤーと同様の機能を持つべきです：

現在のスキルレベルと世界の状態に基づいて適切なタスクを提案すること。たとえば、砂漠ではなく森林にいる場合は、鉄よりも砂とサボテンの収穫を学ぶべきです。
環境からのフィードバックに基づいてスキルを洗練し、将来の類似の状況で再利用するために習得したスキルを記憶に留めること。例えば、ゾンビと戦うことは蜘蛛と戦うのと似ています。
自己主導的な方法で世界を常に探索し、新しいタスクを見つけ出すこと。

Voyager Components

私たちはVoyagerを紹介します。これはMinecraft内で動作する、人間の介入なしで連続的に探索し、様々なスキルを習得し、新しい発見を行う初のLLMパワードの具現化終身学習エージェントです。Voyagerは3つの主要なモジュールによって実現されています：

探索を最大化する自動カリキュラム
複雑な振る舞いを保存・呼び出すためのスキルライブラリ
具現化制御のために実行可能なコードを生成する新しい反復プロンプティングメカニズム

私たちは、Minecraftの多くの長期タスクには時間的に拡張され、組成可能なアクションが必要なため、動作空間として低レベルのモーターコマンドの代わりにコードを使用することを選択しました。Voyagerは、ブラックボックスLLM（GPT-4）とプロンプティングおよびコンテキスト学習を通じて対話します。我々のアプローチは、モデルパラメータへのアクセスや明示的な勾配ベースのトレーニングやファインチューニングの必要性を回避します。

Voyagerは3つの主要なコンポーネントから成り立っています：オープンエンドの探索のための自動カリキュラム、複雑な振る舞いを増すためのスキルライブラリ、そしてコードをアクション空間として使用する反復的なプロンプティングメカニズムです。

Automatic Curriculum

自動カリキュラム。自動カリキュラムは、探索の進行状況とエージェントの状態を考慮して、探索を最大化します。カリキュラムは、GPT-4によって「できるだけ多くの異なるものを発見する」という総合的な目標に基づいて生成されます。このアプローチは、コンテキスト内の新規性探索の形態として捉えることができます。

Skill Library

スキルライブラリ。上部: 新しいスキルの追加。各スキルは、その説明の埋め込みによってインデックス化されます。これにより、将来の類似の状況で呼び出すことができます。下部: スキルの呼び出し。自動カリキュラムによって提案された新しいタスクに直面した場合、クエリを実行してトップ5の関連するスキルを特定します。複雑なスキルはより単純なプログラムを組み合わせることで合成され、これによりVoyagerの能力が時間とともに急速に増大し、大規模な忘却が軽減されます。

Iterative Prompting Mechanism

左側: 環境フィードバック。GPT-4は、棒を作る前に2枚の木材が必要であることを認識します。右側: 実行エラー。GPT-4は、Minecraftにアカシアの斧が存在しないため、アカシアの斧を作る代わりに木の斧を作るべきだと気付きます。

自己検証。エージェントの現在の状態とタスクをGPT-4に提供することで、GPT-4には批評家として行動し、プログラムがタスクを達成しているかを知らせるように求めます。さらに、もしタスクが失敗した場合、GPT-4はタスクを達成する方法を示すことで批評を提供します。

Experiments

私たちはVoyagerとベースライン（比較対象となる手法）を、探索の性能、技術ツリーの習熟度、マップのカバレッジ、および新しい世界での新規タスクへのゼロショット汎化能力について、体系的に評価します。

Significantly Better Exploration

最初の図に示されているように、Voyagerの優位性は明らかであり、新たな進展を一貫して達成する能力があります。160回のプロンプティング反復の間に63個のユニークなアイテムを発見し、他の手法と比較して3.3倍多くの新しいアイテムを発見しています。一方で、AutoGPTは新しいアイテムの発見においてかなり遅れており、ReActとReflexionは重要な進展を遂げるのに苦労しています。

Tech Tree Mastery

技術ツリーの習熟度。Minecraftの技術ツリーは、エージェントが階層的なツールの作成と使用の能力をテストします。このツリーを進む（木製の道具→石製の道具→鉄製の道具→ダイヤモンド製の道具）には、エージェントが体系的で組成的なスキルを習得する必要があります。この表では、分数は合計3回の試行のうち成功した試行の数を示しています。数値は3回の試行の平均プロンプティング反復回数です。反復回数が少ないほど、手法はより効率的です。ベースラインと比較して、Voyagerは木製レベルを15.3倍速く（プロンプティング反復回数の観点で）、石製レベルを8.5倍速く、鉄製レベルを6.4倍速く解除します。また、Voyagerは技術ツリーのダイヤモンドレベルを解除できる唯一の手法です。

Extensive Map Traversal

マップのカバレッジ：Minecraftの地図の鳥瞰図が2つあります。Voyagerは、さまざまな地形を横断することで、ベースラインと比較して距離を2.3倍長く進むことができます。一方、ベースラインのエージェントはしばしば地元のエリアに制限されてしまい、新しい知識を発見する能力が著しく妨げられています。

Efficient Zero-Shot Generalization to Unseen Tasks

未知のタスクへのゼロショット汎化能力。エージェントのインベントリをクリアし、新しく作成された世界にリセットして、未知のタスクでテストします。上記の表では、分数は合計3回の試行のうち成功した試行の数を示しています。数値は3回の試行の平均プロンプティング反復回数です。反復回数が少ないほど、手法はより効率的です。Voyagerはすべてのタスクを一貫して解決することができますが、ベースラインは50回のプロンプティング反復回数以内でどのタスクも解決できません。興味深いことに、終身学習から構築された私たちのスキルライブラリは、Voyagerの性能を向上させるだけでなく、AutoGPTの性能も向上させることがわかりました。これにより、スキルライブラリは他の手法にも柔軟に利用できる万能なツールであり、効果的にプラグアンドプレイの資産として性能を向上させる役割を果たすことが示されました。

Ablation Studies

削除研究（アブレーションスタディ）。GPT-3.5は、コード生成においてGPT-4をGPT-3.5に置き換えることを意味します。Voyagerはすべての代替手法を上回り、各コンポーネントの重要な役割を示しています。さらに、GPT-4はコード生成においてGPT-3.5よりも大幅に優れています。

Conclusion

この研究では、私たちはVoyagerを紹介します。これは、GPT-4を活用して世界を連続的に探索し、次第に洗練されたスキルを開発し、人間の介入なしで一貫して新しい発見を行う、初のLLMパワードの具現化終身学習エージェントです。Voyagerは、新しいアイテムの発見、Minecraftの技術ツリーの解除、多様な地形の横断、新しく作成された世界の未知のタスクに対して学習したスキルライブラリを適用する点で優れた性能を示しています。Voyagerは、モデルパラメータの調整なしに強力なジェネラリストエージェントの開発の出発点となります。