身体性によるAIの進化：NVIDIAの開発現場インタビュー（セコイア・キャピタル）

2024年9月19日 07:30

　セコイア・キャピタルのインタビュー・シリーズから、2024年9月17日に公開されたNVIDIAのジム・ファン氏（Jim Fan）のインタビューを紹介します。　

　ジム・ファン氏は、初期のOpenAIにインターンとして参加し、とアンドレイ・カルパシー氏やイリヤ・スツケヴァー氏の指導の下で、「World of Bits」というAGIを想定した汎用的インターフェースの開発プロジェクトに参画。その後、スタンフォード大学の博士課程に進み、フェイフェイ・リー氏の指導のもと、コンピュータビジョンやエージェント・シミュレーションを含む「Embodied AI」（身体化されたAI）の研究を行いました。　NVIDIAに参加した後は、「GEARチーム」（Generalist Embodied Agent Research Team）を率い、仮想世界と物理世界の双方で汎用的に活動するAIエージェントの開発に取り組んでおり、ヒューマノイドロボットを開発する「Project GR00T」は、その代表プロジェクトで、データドリブンなAIモデルの開発、物理シミュレーションやロボティクスのための新たな基盤開発を進めています。（「Project GR00T」は、2024年3月のGTC（↓）で発表されました。）

　このインタビューでは、NVIDIAでのEmbodied AIエージェントの研究チーム「GEAR」の活動や汎用AIエージェントによるヒューマノイドロボットの開発を目指す「Project GR00T」での様々な研究開発の取組みを通じて、彼やNVIDIAの推進する技術アプローチが、AIとロボティクスの未来をいかに変革しているかを示す内容となっています。
　昨今のAIトップテーマである「身体性を持つAI」の話だけあって、様々な領域に話が及んでいますが、概ね、以下のキーワードで表現されるような内容が紹介・言及されています。

Embodied AI
ヒューマノイドロボット用のファウンデーションモデル（基盤モデル）
データの融合（インターネット規模のデータ、シミュレーションデータ、リアルワールドデータ）
無意識で素早く動作する「システム1」と意識的な思考を使った推論・計画「システム2」によるモデル設計
高度シミュレーション技術。ドメインランダム化とSim-to-Real転移
トランスフォーマー代替技術への関心（MambaやTest-Time Training）
Jetson Orinとエッジコンピューティング

50分近いインタビューコンテンツですので、ボリューム感ありますが、
ご興味次第でご参考ください。

＜インタビュー＞

［ソニア・ホアン］（Sequoia Capital）
　「Training Data」へようこそ。

［ジム・ファン］（NVIDIA）
　お招きいただきありがとうございます。

［ソニア・ホアン］
　今日はロボティクスやEmbodied AIに関するお話を伺えるのをとても楽しみにしていますが、その前に、あなたの個人的なストーリーもとても興味深いですよね。たしか、あなたはOpenAIの最初のインターンだったと思います。ぜひ、そのストーリーを聞かせていただけますか？

［ジム・ファン］
　もちろんです。喜んでお話しします。2016年の夏のことです。友人が「新しいスタートアップができたから見に行ってみたら？」と勧めてくれて、僕は「今は特にやることもないし」と思って行ってみることにしました。その頃、PhDに合格していて、その夏は特に予定がなかったので、このスタートアップに参加することにしました。それが、結果的にOpenAIだったんです。OpenAIではすでに2016年当時からAGI（汎用人工知能）について議論していました。僕のインターン時のメンターは、アンドレイ・カーパシーとイリヤ・スツケヴァーで、私たちは一緒に「World of Bits」というプロジェクトに取り組んでいました。

　プロジェクトのアイデアはシンプルで、AIエージェントがコンピュータの画面を読み取り、画面上のピクセルを認識して、キーボードやマウスを操作できるようにしようというものでした。考えてみれば、このインターフェースはとても汎用的で、たとえばメールの返信、ゲーム、ウェブの閲覧など、コンピュータ上で行うすべてのことをこのインターフェースで実行できるのです。これが、私にとってOpenAIでのAGIへの最初の挑戦であり、AIエージェントの研究の第一章でもありました。

［ステファニー・ジャン］（Sequoia Capital）
　World of Bits、覚えていますよ。あなたがそのプロジェクトに関わっていたなんて知りませんでした。それは本当に興味深いですね。

［ジム・ファン］
　そうなんです。とても楽しいプロジェクトでしたし、OpenAI Universeという大きなイニシアチブの一部でもありました。

［ステファニー・ジャン］
　そうですね。

［ジム・ファン］
　それは、すべてのアプリケーションやゲームを統合するための大規模なプラットフォームの一部でした。

［ステファニー・ジャン］
　当時、いくつかのブレイクスルーはありましたか？また、エージェントに関して直面した課題はどのようなものでしたか？

［ジム・ファン］
　そうですね。当時の主な手法は強化学習でした。2016年にはLLM（大規模言語モデル）やトランスフォーマーはまだ存在していませんでした。強化学習は特定のタスクには効果があるのですが、汎用性がありません。たとえば、エージェントに任意の言語で指示を与えて、キーボードやマウスでできるようなあらゆることを実行させるというのは難しかったんです。当時は、設計したタスクには機能しましたが、それ以上の汎用性はありませんでした。これが次のステップに進むきっかけになり、私はスタンフォード大学でフェイフェイ・リー教授のもとでPhDを始めました。そこでコンピュータビジョンとEmbodied AIに取り組みました。

　スタンフォードでの期間（2016年から2021年）には、スタンフォードビジョンラボが、静的なコンピュータビジョン、つまり画像やビデオを認識するものから、よりEmbodied AIなコンピュータビジョンに移行する様子を目の当たりにしました。エージェントが知覚を学び、インタラクティブな環境で行動を起こすというものです。この環境はシミュレーションのように仮想のものである場合もあれば、物理的な世界である場合もあります。これが私のPhD、つまりEmbodied AIに向けた転換点でした。そして博士課程を修了後、NVIDIAに参加し、今に至るまでそこでEmbodied AIの研究を続けています。

［ソニア・ホアン］
　あなたはNVIDIAでEmbodied AIのイニシアチブを率いていますよね。それについて少しお話しいただけますか？どんなことを目指しているのか、教えてください。

［ジム・ファン］
　はい、私が共同で率いているチームはGEAR（Generalist Embodied Agent Research）という名前です。チームの活動を3つの言葉でまとめると、「アクションを生成する」ことです。私たちはEmbodied AIエージェントを構築しており、これらのエージェントはさまざまな世界で行動を起こします。仮想世界での行動なら、それはゲームAIやシミュレーションになりますし、物理世界での行動なら、それはロボティクスになります。実際、今年の3月に開催されたGTCで、ジェンセンの基調講演で「Project GR00T」が発表されました。これはNVIDIAがヒューマノイドロボティクス向けのファウンデーションモデルを構築するための壮大なプロジェクト（ムーンショット・プロジェクト）です。GEARチームが今取り組んでいるのは、このAIブレインを構築することです。ヒューマノイドロボットにとどまらず、さらにその先を目指しています。

［ステファニー・ジャン］
　NVIDIAがそれを構築する上での競争優位性は何だと思いますか？

［ジム・ファン］
　それは良い質問ですね。まず一つは、確実に計算リソースです。これらのファウンデーションモデルを拡張するには多くの計算力が必要で、私たちはスケーリング則を信じています。LLMにはスケーリング則がありますが、Embodied AIやロボティクスに関してはまだ研究が進んでいません。これに関しても私たちは取り組んでいます。そして、NVIDIAのもう一つの強みはシミュレーションです。NVIDIAはもともとAI企業ではなく、グラフィックス企業でした。物理シミュレーションやレンダリング、そしてGPUでのリアルタイム加速に関して長年の専門知識があります。私たちは、このシミュレーション技術をロボティクスの構築に大いに活用しています。

［ステファニー・ジャン］
　シミュレーション戦略はとても興味深いです。でも、業界の多くはまだリアルワールドデータに注力していますよね？逆の戦略を取っていますが、どうしてだと思いますか？

［ジム・ファン］
　そうですね、あらゆる種類のデータが必要だと思います。シミュレーションデータだけでも、リアルワールドデータだけでも十分ではありません。GEARでは、このデータ戦略を大まかに3つのバケットに分けています。一つ目は、インターネット規模のデータ、つまりオンラインにあるタグ付きの動画などです。二つ目は、NVIDIAのシミュレーションツールを使って生成したシミュレーションデータ、つまり合成データです。そして三つ目は、実際のロボットデータです。ロボットを遠隔操作してデータを収集し、ロボットプラットフォーム上でそのデータを記録します。成功するロボティクス戦略には、これら3種類のデータを効果的に組み合わせ、統合されたソリューションを提供することが必要だと思います。

［ソニア・ホアン］
　先ほど、ロボティクスのファウンデーションモデルを機能させる上で、データが根本的なボトルネックになるという話がありましたよね。その考えに対する確信と、この問題を打破するためにはどのような優れたデータが必要なのか、もう少し詳しく教えていただけますか？

［ジム・ファン］
　先ほどお話しした3種類のデータには、それぞれ強みと弱みがあります。まず、インターネット上のデータは非常に多様性に富んでいます。これらには、多くの常識的な前提が含まれています。たとえば、オンラインの動画の多くは人間を中心にしていて、私たちは自撮りをしたり、様々な活動を記録するのが好きです。また、インストラクションビデオも豊富にあります。これを使って、人間がどのように物と関わるのか、物がさまざまな状況でどう振る舞うのかを学習できます。これがロボットのファウンデーションモデルに常識的な前提を提供します。ただし、インターネット規模のデータにはアクションが含まれていません。ロボットのモーター制御信号をインターネットからダウンロードすることはできません。

　そこで、データ戦略の第二の柱となるのがシミュレーションです。シミュレーションでは、すべてのアクションが得られ、そのアクションが特定の環境でどのような結果をもたらすかを観察できます。シミュレーションの強みは、データが事実上無限であることです。GPUを増やすほど、シミュレーションパイプラインで得られるデータも増加します。また、シミュレーションデータは非常にリアルタイムです。実際のロボットだけでデータを収集する場合、1日24時間という制約がありますが、GPUで加速されたシミュレーターを使えば、リアルタイムを1万倍に加速できます。同じ時間内に、はるかに多くのデータを収集できるのです。これがシミュレーションの強みですが、弱点としては、シミュレーションと現実の間には必ずギャップが存在します。物理法則も現実とは異なり、ビジュアルも完全にリアルにはなりません。また、シミュレーション内のシナリオは、現実世界で遭遇する多様なシナリオほど豊富ではありません。

　次に、実際のロボットデータです。これらのデータは、現実のロボットで収集されるため、シミュレーションと現実のギャップがありません。しかし、データの収集には高いコストがかかります。ロボットを操作するために人手が必要ですし、やはり物理世界の制約、1日24時間しかないという限界があります。データ収集には人手が必要で、それが非常に高額になることもあります。これらの3種類のデータにはそれぞれ補完的な強みがあると考えており、成功する戦略は、それぞれの強みを組み合わせ、弱点を補うことだと思います。

［ソニア・ホアン］
　ジェンセンと一緒にステージにいたかわいいGR00Tロボット、あれは本当に素敵な瞬間でしたね。もし今から1年後、5年後、10年後の未来を想像してみるとしたら、ジムさんのグループはどんな成果を達成していると思いますか？

［ジム・ファン］
　そうですね、これはあくまで予測ですが、次の2〜3年でロボティクス分野のファウンデーションモデルに関する大きな研究のブレークスルーが見られることを期待しています。それを、ロボティクスにおける「GPT-3モメント」と呼んでいます。その後は少し不確実な部分がありますね。ロボットが人々の日常生活に浸透するためには、技術面だけでなく、ロボットが手頃な価格で量産可能であることや、安全性、プライバシー、規制といった問題もクリアする必要があります。これらはもう少し時間がかかるので、いつそうなるかを予測するのは難しいです。ただ、研究のブレークスルーは今後2〜3年で期待しています。

［ステファニー・ジャン］
　AIロボティクスにおける「GPT-3モメント」をどう定義しますか？

［ジム・ファン］
　それは素晴らしい質問ですね。ロボティクスを「システム1」と「システム2」の2つのシステムで捉えるのが私の考えです。これは『Thinking Fast and Slow』（行動経済学者ダニエル・カーネマン著）という本から来ていて、システム1は無意識で素早く動作する低レベルのモーター制御を指します。たとえば、私がこのコップをつかむとき、毎ミリ秒ごとに指先をどう動かすかを意識して考えたりしませんよね。それがシステム1です。一方、システム2はゆっくりしていて、意識的な思考を使った推論や計画に関わります。私は、ロボティクスにおける「GPT-3モメント」は、システム1側で起こると思っています。

　私のお気に入りの例は「開ける」という動詞です。この「開ける」という言葉の複雑さを考えてみてください。ドアを開けるのと、窓を開けるのは違いますし、ボトルを開けるのも、電話を開けるのも異なります。しかし、人間にとっては「開ける」という言葉の意味が変わることに何の問題もありません。異なる物体と関わる際には、それに応じて異なる動作を自然に理解できるのです。しかし、これまでのところ、こういった低レベルのモーター制御を汎用的に理解できるロボットモデルは存在していません。私は、このような動詞を抽象的に理解し、人間にとって意味のあるさまざまな状況に適用できるモデルが出てくることを期待しています。それはまだ実現していませんが、次の2〜3年でその瞬間が訪れると楽観的に考えています。

［ソニア・ホアン］
　システム2的な思考についてはどう思いますか？そこにたどり着くためにはどうすればいいと思いますか？LLMの世界での推論の取り組みが、ロボティクスの分野でも役立つと思いますか？

［ジム・ファン］
　そうですね、システム2に関しては、すでに推論や計画、さらにはコーディングもできる非常に強力なモデルが登場しています。これが現在のLLMやフロンティアモデルです。しかし、システム2のモデルをシステム1と統合すること自体が新たな研究課題です。ここでの問題は、ロボットのファウンデーションモデルとして、一つの一枚岩のモデルを作るべきか、あるいはシステム2とシステム1を分離し、それらが何らかの形で通信するカスケードアプローチを採るべきか、ということです。これはまだ解決されていない課題です。

　一枚岩のモデルには利点があります。管理がシンプルで、1つのモデルと1つのAPIだけを扱えばよいという点です。しかし、制御が少し難しくなります。なぜなら、異なる制御周波数があるからです。たとえば、システム2は1秒に1回の意思決定を行うような、1Hzといった低い制御周波数で動作しますが、システム1、つまり私がコップをつかむ際のモーター制御は1,000Hzの高い周波数で、1秒間に1,000回の微細な筋肉の調整を行います。この両方を1つのモデルに組み込むのは非常に難しいです。そのため、カスケードアプローチの方が適しているかもしれませんが、システム1と2の間をどうやって通信させるかが問題です。テキストで通信するのか、それとも潜在変数を介してやりとりするのかはまだはっきりしていませんが、これは非常にエキサイティングな新しい研究の方向性だと思います。

［ソニア・ホアン］
　システム1的な思考のブレークスルーは、スケールやトランスフォーマーの技術で達成できるという感触はありますか？このアプローチでうまくいくと思いますか？それとも、うまくいくかどうかはまだ運任せな部分があるのでしょうか？

［ジム・ファン］
　私が説明したデータ戦略が、その方向へ進む手助けになることを願っています。というのも、トランスフォーマーの限界をまだ押し広げていないと感じているからです。本質的に言えば、トランスフォーマーはトークンを入力し、トークンを出力します。最終的には、そのトークンの質がモデルの質、つまり大規模トランスフォーマーの質を決定します。ロボティクスに関しては、先ほども言ったように、データ戦略が非常に複雑です。インターネットデータ、シミュレーションデータ、そして実際のロボットデータが必要です。これらすべての高品質なアクションをデータパイプラインでスケールアップできたら、それをトークン化し、トランスフォーマーに送って圧縮することが可能です。

　私は、まだトランスフォーマーの限界に挑戦できていないと感じており、このデータ戦略が整えば、データの規模やモデルのサイズを拡大することで、何らかの新しい性質が現れる可能性があると考えています。これを私は「Embodied AIのスケーリング則」と呼んでおり、まだ始まったばかりです。

［ステファニー・ジャン］
　私は、そこにたどり着けるととても楽観的に考えています。ジムさん個人として、今一番楽しみにしていることは何ですか？その瞬間が訪れたとき、ロボティクスの世界を根本から変えるであろう業界やアプリケーション、ユースケースで、特にワクワクしているものは何でしょうか？

［ジム・ファン］
　私たちがヒューマノイドロボットを主要な研究テーマに選んだ理由はいくつかあります。まず一つは、世界が人間の体に合わせて設計されているという点です。レストラン、工場、病院、そしてあらゆる機器や道具は、人間の形や手に合わせて作られています。理論的には、十分に優れたヒューマノイドハードウェアがあれば、普通の人間ができるようなタスクをすべてサポートできるはずです。現時点では、ヒューマノイドハードウェアはまだそこまで進化していませんが、今後2〜3年でこのエコシステムが成熟し、手頃な価格で使えるヒューマノイドハードウェアが登場すると感じています。次の課題は、そのハードウェアをどう動かすか、つまりAIブレインの問題になります。

　GR00Tファウンデーションモデルが、言語での指示を受けて、普通の人間ができるタスクをすべて実行できるようになれば、大きな経済的価値が生まれます。たとえば、家庭でロボットが洗濯、食器洗い、料理といった日常の家事や、高齢者ケアを手伝うことができるでしょう。また、レストラン、病院、工場でも、ロボットが人間と同じタスクをサポートすることができます。これが次の10年で実現することを期待していますが、冒頭で述べたように、これは技術的な問題だけではなく、技術以外の課題も多いです。とはいえ、この未来に非常に期待しています。

［ソニア・ホアン］
　なぜヒューマノイドロボットに特化して取り組むことを選んだ理由が他にもあれば、教えていただけますか？

［ジム・ファン］
　実際的な理由もいくつかあります。トレーニングパイプラインの観点から言うと、オンラインには人間に関する大量のデータがありますよね。ほとんどが人間中心で、日常のタスクや楽しんでいる様子の動画が多いです。ヒューマノイドロボットの形状は人間に最も近いので、それらのデータを使って訓練したモデルは、他の形状のロボットよりもヒューマノイド型に転用しやすいのです。例えば、ロボットアームについて言えば、オンラインでロボットアームやグリッパーが使われている動画をどれだけ見かけますか？ほとんどないですよね。しかし、人間が5本の指で物を扱っている動画はたくさんあります。ですので、ヒューマノイドロボットの方が訓練が容易かもしれません。そして、その後でロボットアームや他の特定のロボット形状に特化させていくことができます。だからこそ、まずは汎用性の高いモデルを目指しているのです。

［ステファニー・ジャン］
　今知ったのですが、今はヒューマノイドに特化してトレーニングしているんですか？ロボットアームやロボット犬も含めてではなく？

［ジム・ファン］
　ええ、Project GR00Tについてですか？

［ステファニー・ジャン］
　はい、そうです。

［ジム・ファン］
　そうですね、Project GR00Tでは現在、ヒューマノイドに重点を置いています。ただ、私たちが構築しているパイプライン、シミュレーションツールや実際のロボットツールは、将来的には他のプラットフォームにも適応できるように、汎用的なものを目指しています。つまり、今作っているツールは、さまざまな用途に応用できるものです。

［ソニア・ホアン］
　今「汎用的」という言葉を何度か使っていましたが、特にロボティクスの世界では「汎用的なアプローチはうまくいかない」「特定の環境に特化すべきだ」と考える人もいますよね。それでもなぜ汎用的なアプローチを選んだのでしょうか？また、私たちのポッドキャストではリチャード・サットンの「苦い教訓」がよく話題に上りますが、ロボティクスにもそれが当てはまると考えていますか？

［ジム・ファン］
　そうですね。まず、NLP（自然言語処理）で私たちが目にしてきた成功例について話したいと思います。ChatGPTやGPT-3が登場する前、NLPの世界では翻訳、コーディング、数学、創作など、さまざまなアプリケーションごとに異なるモデルやパイプラインが使われていました。それぞれがまったく異なるモデルやトレーニングプロセスを持っていたんです。しかし、ChatGPTが登場し、すべてを1つのモデルに統一しました。それ以前のモデルを「スペシャリスト」と呼んでいましたが、GPT-3やChatGPTのようなモデルを「ジェネラリスト」と呼んでいます。そして、ジェネラリストができた後は、それをプロンプトで微調整し、特定のタスクに再適用できるようになります。これを「スペシャライズド・ジェネラリスト」と呼びます。

　歴史的な傾向を見ると、スペシャライズド・ジェネラリストは、元のスペシャリストよりもはるかに強力であることが多く、メンテナンスも簡単です。なぜなら、テキストを入力してテキストを出力する単一のAPIで管理できるからです。

　ロボティクスの世界でも、同じ成功パターンが当てはまると考えています。2024年現在、私たちが見ているロボティクスやアプリケーションのほとんどは、まだ「スペシャリスト」の段階にあります。特定のロボットハードウェアが特定のタスクに使われ、それに特化したデータとパイプラインが使用されています。しかし、Project GR00Tでは、まずヒューマノイドに対応した汎用的なファウンデーションモデルを構築し、その後、さまざまなロボット形状やエンボディメントに汎用化することを目指しています。これが、私たちが追求している「ジェネラリスト」の瞬間です。そして、そのジェネラリストが完成すれば、それをプロンプトで微調整し、特定のロボティクスタスクに特化させたスペシャライズド・ジェネラリストを作り出すことができます。しかし、それはまずジェネラリストができてからの話です。

　短期的には、スペシャリストを追求する方が簡単です。限られたタスクに集中すれば、結果を見せやすいですから。しかし、NVIDIAとしては、未来はジェネラリストにあると信じています。開発に時間がかかり、解決すべき研究課題も多いですが、それが私たちが最初に目指しているものです。

［ステファニー・ジャン］
　NVIDIAがGR00Tを開発していることについて、特に興味深い点は、先ほどおっしゃっていたように、NVIDIAがチップとモデルの両方を所有していることです。NVIDIAが自社のチップでGR00Tを最適化するためにできる興味深いことは、どんなことだと思いますか？

［ジム・ファン］
　3月のGTCで、ジェンセンは次世代のエッジコンピューティングチップ「Jetson Orinチップ」を発表しました。これは、Project GR00Tと共に発表されたものです。私たちの狙いは、顧客に対してチップレベルからファウンデーションモデルであるProject GR00T、さらにはシミュレーションやその過程で開発したユーティリティまで、全てを統合したソリューションを提供することです。この全体が、ヒューマノイドロボット、そして一般的なインテリジェントロボット向けのコンピューティングプラットフォームになる予定です。

　ここで、私が好きなジェンセンの言葉を引用したいと思います。「動くものはすべて、最終的には自律的になる」という言葉です。私もこれに共感しています。今すぐではないかもしれませんが、10年後、あるいはそれ以上の未来には、私たちがiPhoneと同じくらい多くのインテリジェントロボットが存在すると信じているならば、そのための構築を今から始めるべきです。

［ソニア・ホアン］
　素晴らしいですね。これまでの研究で特に強調したい成果はありますか？今のアプローチに対して、楽観的になったり、自信を深めるきっかけとなったものがあれば教えてください。

［ジム・ファン］
　そうですね、これまでに行ったいくつかの研究についてお話しできると思います。特に嬉しかった成果の一つは「Eureka」というプロジェクトです。このプロジェクトでは、5本指のロボットハンドを使ってペン回しをするデモを行い、良い結果を得ることができました。

［ソニア・ホアン］
　とても実用的ですね。

［ジム・ファン］
　（笑）自分にとっては超人的な技です。子供の頃にペン回しを諦めたので。

［ソニア・ホアン］
　ライブデモはしないんですか？

［ジム・ファン］
　ライブデモではおそらく失敗すると思います（笑）。私自身はできませんが、ロボットの手はこれをこなせます。私たちがこれを訓練するために使ったアイデアは、LLMにNVIDIAが開発したシミュレーターAPI、Isaac Sim API上でコードを書くようにプロンプトを与えることです。LLMは、報酬関数のコードを生成します。報酬関数とは、ロボットに望ましい動作をさせるための仕様のことです。ロボットが正しい行動をすると報酬が与えられ、間違った行動をするとペナルティが課されます。通常、この報酬関数はロボティクスの専門家、特にAPIに精通している人間が設計しますが、これは非常に専門的な知識が必要で、手間のかかる作業です。

　そこで私たちが開発した「Eureka」は、LLMを使ってこの報酬関数の設計を自動化するアルゴリズムです。これにより、ロボットが複雑な動作、例えばペン回しのようなことを実行できるようになります。この技術は汎用的で、今後はペン回しだけでなく、さまざまなタスクに対応した報酬関数を設計したり、NVIDIAのシミュレーションAPIを使って新しいタスクを生成したりできるように拡張する計画です。これにより、私たちはさらに多くの可能性を探ることができます。

［ソニア・ホアン］
　なぜ今、ロボティクスに再び注目が集まっていると思いますか？5年前には、ロボットハンドでルービックキューブを解くような研究が行われていた一方で、その後、ロボティクス分野は幻滅期に入ったように感じました。でも、ここ1年ほどで、また急に盛り上がってきた印象があります。今回の「なぜ今なのか」という理由があると思いますか？何が以前と違うのでしょうか？OpenAIがロボティクスに再参入するといった話も出ていますし、各社が再び取り組みを強化している背景には、何があるのでしょうか？

［ジム・ファン］
　いくつか以前とは異なる要因が存在していると思います。まず1つ目はロボットハードウェアです。実際、昨年末からエコシステム内で新しいロボットハードウェアが急増しています。たとえば、Teslaが開発しているOptimusやBoston Dynamicsなど、さらに多くのスタートアップも関わっています。ハードウェアはますます進化し、より高度な手の器用さや、全身の信頼性が向上しています。これが1つ目の要因です。

　2つ目は価格です。ヒューマノイドロボットの価格や製造コストが大幅に下がっています。2001年にNASAが開発した「Robonaut」というヒューマノイドがあり、確か1台あたり150万ドル以上かかったと記憶しています。しかし最近では、完全なヒューマノイドが3万ドル程度で販売できる企業も現れていて、これは車の価格に匹敵します。さらに、製品が成熟すると価格は原材料コストに近づくという製造業のトレンドがあります。ヒューマノイドの原材料コストは車の4％程度ですので、価格はさらに低下し、数年以内に急激な値下がりが起こる可能性があります。これにより、最先端のハードウェアがますます手頃になっています。これが2つ目の要因です。

　3つ目はファウンデーションモデルです。システム2の問題、つまり推論や計画の部分が、GPTやClaude、LLaMAのようなフロンティアモデルによって非常にうまく解決されています。これらのLLMは新しいシナリオに対して汎用的に対応でき、コードを書くこともできます。先ほどお話ししたEurekaプロジェクトも、LLMのコーディング能力を活用して新しいロボットソリューションを開発しています。また、マルチモーダルモデルの急増により、コンピュータビジョンや認識能力も向上しています。これらの成功が、ロボットのファウンデーションモデルの追求を後押ししています。フロンティアモデルの汎用性を活用し、それにアクションを加えて、最終的にヒューマノイドロボットを動かすアクショントークンを生成できると考えています。

［ステファニー・ジャン］
　私も全く同感です。これまでこの分野で取り組んできた多くの課題は、このモデルを構築するために必要なデータの規模をどう解き放つかということに関連していると思います。そして、シミュレーションから現実への転送（sim-to-real）や他の技術に関する研究の進展の多くは、あなた自身が貢献してきたものでもありますよね。また、NVIDIAが開発したIsaac SIMなどのツールは、テレオペレーションやより安価なテレオペレーションデバイスと相まって、この分野の発展を大きく加速させています。今、この分野で取り組んでいることは本当にエキサイティングだと思います。

［ジム・ファン］
　そうですね、同感です。

［ソニア・ホアン］
　それでは、仮想世界についてお話を移したいと思いますが、よろしいでしょうか？

［ジム・ファン］
　もちろんです。

［ソニア・ホアン］
　あなたは研究を仮想世界の分野から始めたと思いますが、Minecraftとロボティクスに興味を持ったきっかけについてお聞かせください。これらはあなたにとってどのように関連しているのでしょうか？仮想世界への関心はどこから来たのですか？

［ジム・ファン］
　いい質問ですね。私自身のミッションはEmbodied AIの解決です。仮想世界でエンボディメントされたAIエージェントは、ゲームやシミュレーションなどになります。ですので、私はゲームにも特に愛着を持っていますし、個人的にもゲームを楽しんでいます。

［ステファニー・ジャン］
　（笑）どんなゲームをプレイしていますか？

［ジム・ファン］
　Minecraftをプレイしています。少なくとも挑戦していますが、私はあまり上手なゲーマーではありません。だからこそ、私のAIに私の下手さを取り返してもらいたいんです。

［ステファニー・ジャン］
　そうですか（笑）。

［ジム・ファン］
　以前、いくつかのゲームプロジェクトに取り組んだことがあります。最初のプロジェクトは「MineDojo」というもので、Minecraftというゲーム内で汎用エージェントを開発するためのプラットフォームを作りました。Minecraftは、3Dのボクセル世界で、自由にものを作ったり、レシピやツールをクラフトしたり、冒険に出たりと、プレイヤーが自由に行動できるオープンエンドのゲームです。特定のスコアを最大化することや固定されたストーリーラインはありません。

　私たちはインターネット上から多くのデータを収集しました。Minecraftのプレイ動画や、ゲーム内のすべてのコンセプトやメカニズムを解説したWikiページ、さらにはRedditのMinecraftサブレディットのようなフォーラムで、自然言語で語られている情報も集めました。これらのマルチモーダルデータを使ってモデルを訓練し、Minecraftをプレイするエージェントを開発したのがMineDojoの最初の成果です。

　次に「Voyager」というプロジェクトに取り組みました。これはGPT-4が登場した後のことです。当時、GPT-4は最も優れたコーディングモデルでした。そこで、「コードをアクションとして使うことができるのでは？」というアイデアが浮かびました。この洞察を基に、Voyagerエージェントを開発し、Minecraftの世界と相互作用するためにコードを書く仕組みを作りました。まず、Minecraftの3D世界をテキストで表現し、エージェントがAPIを使ってアクションのコードを書きます。ただし、人間の開発者と同じように、エージェントも最初から正しいコードを書けるわけではありません。そこで、自分の行動をフィードバックする「自己反省ループ」を導入し、エラーや間違いがあれば、それを修正することができます。正しいコードが書けたとき、それを「スキル」と呼び、そのスキルをスキルライブラリに保存します。将来的にエージェントが同じような状況に直面した際には、スキルライブラリからそのスキルを取得して再度試行錯誤する必要がなくなります。このスキルライブラリは、エージェント自身がインタラクティブに作成したコードベースのようなもので、人間の介入は一切ありません。すべてVoyagerが開発したものです。

　さらに、3つ目の仕組みとして「自動カリキュラム」があります。これは、エージェントが自分の知っていることと知らないことを理解し、次に取り組むべきタスクを自分で提案できるというものです。タスクは難しすぎず、簡単すぎないものを選び、その過程で新しいスキルやツールを発見し、広大なMinecraftの世界を旅します。エージェントがさまざまな場所を探索するので、「Voyager」と名付けました。これが、ファウンデーションモデルを使って具現化された（エンボディッドな）世界でAIエージェントを構築するために取り組んだ初期の試みの一つです。

［ソニア・ホアン］
　カリキュラムの話をもう少し詳しく教えてください。とても興味深いと思います。なぜなら、LLMの世界全体で、推論に関してまだ解決されていない問題の一つのように感じるからです。モデルが自己認識を持ち、次のステップを踏んでどう改善すべきかを理解する方法をどうやって作るのか、という点です。カリキュラムや推論の面で、どんなものを構築したのか、もう少し詳しくお話しいただけますか？

［ジム・ファン］
　そうですね、とても興味深い「創発的な特性」がフロンティアモデルから現れています。それは、自分の行動を振り返り、何を知っていて何を知らないのかを理解し、それに基づいてタスクを提案できることです。例えば、「Voyager」での自動カリキュラムでは、エージェントに「できるだけ多くの新しいアイテムを見つける」という高レベルな指示だけを与えました。それ以上の詳細な指示は出さず、どのオブジェクトを最初に発見するかや、どのツールを最初に解除するかも指定しませんでした。それでもエージェントは、コーディングやプロンプト、スキルライブラリを活用して自分で発見していきました。システム全体が機能するのは驚くべきことで、強力な推論エンジンが汎用的に働くことで生まれる「創発的な特性」だと言えるでしょう。

［ソニア・ホアン］
　なぜこれほど多くの研究がバーチャルな世界で行われているのでしょうか？もちろん、ディープラーニングの研究者の多くがビデオゲームが好きだからというだけではないと思いますが（笑）、それも影響しているかもしれませんね。バーチャルな世界で問題を解くことと、実際の物理世界で問題を解決することの間にはどんなつながりがあるのでしょうか？その2つはどのように相互に影響し合っているのか教えていただけますか？

［ジム・ファン］
　ゲームとロボティクスは一見するとまったく異なる分野のように見えますが、私はこの2つの領域に共通する多くの原則があると考えています。Embodiedエージェントは、映像ストリームやセンサー入力などの知覚を入力として受け取り、アクションを出力します。ゲームではキーボードやマウスの操作がアクションであり、ロボティクスでは低レベルのモーター制御がそれに相当します。最終的に、APIはこのような形になります。これらのエージェントは世界を探索し、自分自身でデータを収集する必要があります。これが、強化学習や自己探索と呼ばれるものです。この原則は、物理的なエージェントと仮想エージェントの間で共通しています。

　ただし、ロボティクスの方が難しいのは、シミュレーションと現実の間に「シミュレーションと現実のギャップ」があるからです。シミュレーションでは、物理法則やレンダリングが完全ではないため、シミュレーションで学んだことを現実世界に転用するのが非常に難しいのです。これはまだ解決されていない研究課題です。一方で、ゲームにはこの問題がありません。ゲームでは、トレーニングとテストが同じ環境で行われるからです。この点が、ロボティクスとゲームの大きな違いだと思います。

　昨年、私は「ファウンデーションエージェント」という概念を提案しました。最終的には、1つのモデルが仮想エージェントと物理エージェントの両方で機能できるようになると考えています。ファウンデーションエージェントには3つの軸があります。1つ目は、エージェントが実行できるスキル。2つ目は、エージェントが制御できる体の形状やフォームファクター。そして3つ目は、エージェントが習得できる世界や現実の環境です。将来的には、1つのモデルがさまざまなロボットやエージェントの形状で、多様なスキルを実行し、仮想世界や現実世界の多くの異なる環境に適応できるようになると考えています。これが、GEARチームが目指している「ファウンデーションエージェント」の最終ビジョンです。

［ステファニー・ジャン］
　バーチャルワールドや特にゲームに関して、推論や新たな行動が生まれる可能性がある中で、特にオープンエンドの環境での作業が進む中で、今後ゲームの世界でどんなことが可能になるのか、ジムさんご自身の夢を聞かせてください。AIエージェントがゲームの世界でどのような革新を起こすのを期待していますか？

［ジム・ファン］
　私が非常に興奮しているのは、2つの側面です。1つ目は、ゲーム内のインテリジェントエージェントです。現在のNPC（ノンプレイヤーキャラクター）は、固定されたスクリプトに従って動作し、すべて手作業で作られています。しかし、もしNPCが実際に「生きていて」、プレイヤーとインタラクションできるようになったらどうでしょうか？彼らは以前に話したことを覚えていて、ゲーム内でアクションを起こし、物語やナラティブを変えてくれるかもしれません。これはまだ実現していませんが、非常に大きな可能性を感じています。こうなると、誰がゲームをプレイしても、それぞれ異なる体験をすることになります。さらには、同じプレイヤーが同じゲームを2回プレイしても、まったく異なる物語が展開されるでしょう。つまり、無限のリプレイ価値が生まれます。

　2つ目は、ゲーム自体が生成されることです。すでに、私が述べたこの壮大なビジョンの一部を実現するツールがいくつか登場していますよね。たとえば、テキストから3Dアセットを生成するものや、テキストからビデオを生成するモデル、そしてストーリーラインを作り出す言語エージェントもあります。これらをすべて組み合わせれば、プレイしながらインタラクションする中で、ゲーム世界自体がリアルタイムで生成されるという、まさに無限の可能性を持つオープンエンドな体験が実現できるでしょう。それは本当に驚くべきことだと思います。

［ステファニー・ジャン］
　とても興味深いです。特にエージェントの視覚に関しては、GPT-4レベルの能力が必要だと思いますか？それとも、例えばLlama-8Bのようなモデルでも十分に達成できると思いますか？

［ジム・ファン］
　エージェントには、いくつか必要な能力があります。まず、面白い会話をできること、一貫した人格を持つこと、そして長期的な記憶を持ち、ゲーム内でアクションを取ることが必要です。これらの面では、現在のLlamaモデルはかなり優れているとは思いますが、まだ多様で魅力的な行動を生み出すには十分ではありません。ここにはまだギャップがあると感じています。

　もう一つの課題は推論コストです。もしこれらのエージェントをゲーマーに提供するなら、非常に低コストでクラウド上にホストされるか、デバイス上でローカルに実行できる必要があります。さもなければ、コスト面でスケーラブルではありません。これも最適化が必要な要素です。

［ソニア・ホアン］
　バーチャルワールドでの研究は、物理世界での目標を達成するための手段だと思いますか？つまり、バーチャルワールドで学んだことを活かして物理世界で成果を上げるという目的があるのでしょうか？それとも、バーチャルワールド自体がそれだけで十分な価値を持つものでしょうか？物理世界とバーチャルワールドの間で、どのように優先順位をつけて取り組んでいるのか、お聞かせいただけますか？

［ジム・ファン］
　私は、最終的に仮想世界と物理世界は、単一の軸上にある異なる現実になると考えています。具体例を挙げると、「ドメインランダム化」という技術があります。これは、ロボットをシミュレーション内でトレーニングするのですが、その際、1万個の異なるシミュレーションを並行して行います。それぞれのシミュレーションでは、重力や摩擦、重量などの物理パラメータが少しずつ異なります。つまり、1万個の異なる世界でロボットをトレーニングするわけです。

　仮に、エージェントがこれら1万の異なる現実設定すべてを習得できたとしましょう。その場合、私たちの現実の物理世界は、その1万1個目の仮想シミュレーションに過ぎないことになります。このようにして、シミュレーションから現実への一般化が直接可能になります。実際、Eurekaの後続研究でもこのアプローチを取り入れ、さまざまなランダム化されたシミュレーションでエージェントをトレーニングし、追加の調整なしにリアルワールドへゼロショットで転移させることができました。

［ステファニー・ジャン］
　それがDrEurekaですね。

［ジム・ファン］
　はい、「DrEureka」の研究です。もしさまざまなバーチャルワールド、例えばゲームの世界も含めて、一つのエージェントがそれら全ての世界で様々なスキルを習得できるとしたら、現実世界もその大きな分布の一部に過ぎなくなると思います。

［ステファニー・ジャン］
　DrEurekaについてもう少し説明して、聴衆の皆さんに具体的なイメージを持ってもらえますか？

［ジム・ファン］
　そうですね。「DrEureka」では、Eurekaを基にして、LLMをロボット開発者のように使い続けています。LLMがコードを書き、そのコードでシミュレーションパラメータ、例えばドメインランダム化のパラメータを指定します。いくつかの反復を経た後、シミュレーションで訓練されたポリシーは、現実世界に一般化できるようになります。

　具体的なデモの1つとして、ロボット犬がヨガボールの上でバランスを取りながら前進できるというものを紹介しました。面白いコメントの1つに、実際に自分の飼い犬にこのタスクをやらせた人がいて、その犬はできなかったというものがありました。ある意味で、私たちのニューラルネットワークは「スーパー犬性能」を発揮しているとも言えますね。

［ステファニー・ジャン］
　（笑）うちの犬には絶対に無理だと思います。

［ソニア・ホアン］
　（笑）それを「ADI」と呼びましょう。

［ジム・ファン］
　そうですね、人工犬知能（Artificial Dog Intelligence）。次のベンチマークになりますね。

［ソニア・ホアン］
　バーチャルワールドの領域では、最近3Dやビデオの分野で素晴らしいモデルがたくさん登場していますが、その多くがトランスフォーマーに基づいています。今の段階で「これが約束された未来に連れて行ってくれるアーキテクチャだ」と思い、スケールアップすればいいのでしょうか？それとも、モデルの面でまだ根本的なブレークスルーが必要だと考えていますか？

［ジム・ファン］
　そうですね、ロボットのファウンデーションモデルに関しては、まだアーキテクチャの限界に達していないと思います。今、より大きな課題はデータで、これはボトルネックになっています。というのも、先ほども述べたように、インターネット上からアクションデータ、つまりモーター制御のデータをダウンロードすることはできません。これらのデータは、シミュレーションや実際のロボットで収集する必要があります。データパイプラインが成熟したら、それをトークン化してトランスフォーマーに送り、Wikipediaの次の単語を予測するのと同じようにトランスフォーマーがトークンを圧縮する仕組みを使います。現在もこの仮説をテスト中ですが、トランスフォーマーの限界にはまだ達していないと思います。

　また、トランスフォーマーの代替アーキテクチャに関する研究も進んでおり、個人的にも非常に興味を持っています。例えば、「Mamba」や最近では「Test-Time Training」など、いくつかの代替案が出てきており、有望なアイデアもあります。まだフロンティアモデルのパフォーマンスには達していませんが、トランスフォーマーの代替案が登場するのを楽しみにしています。

［ステファニー・ジャン］
　最近のモデルの中で、特に気になったものはありますか？その理由も教えてください。

［ジム・ファン］
　そうですね、先ほど言及したMambaやテストタイムトレーニングの研究は、推論時により効率的なモデルです。トランスフォーマーのようにすべての過去のトークンに注目するのではなく、これらのモデルはより効率的なメカニズムを備えています。そのため、大きな可能性があると感じています。ただし、これらのモデルをフロンティアモデルと同規模にスケールアップし、トランスフォーマーと直接比較してみる必要があります。

［ソニア・ホアン］
　いいですね。では、最後にいくつかクイックな質問をして締めましょうか？

［ステファニー・ジャン］
　そうしましょう。

［ジム・ファン］
　もちろんです。

［ソニア・ホアン］
　では最初の質問です。エンボディードAIの世界以外で、AIの分野で今一番興味があるのは何ですか？

［ジム・ファン］
　そうですね、私は動画生成にとても興奮しています。動画生成は一種の「世界シミュレーター」のようなものだと考えています。データだけから物理法則やレンダリングを学習できるからです。OpenAIのSoraをはじめとして、その後も多くの新しいモデルがSoraに追いつこうとしています。これは今も進行中の研究テーマで、非常に楽しみです。

［ソニア・ホアン］
　ワールドシミュレーターがもたらすものは何でしょうか？

［ジム・ファン］
　データ駆動型のシミュレーション環境が得られると思います。それでエンボディードAIをトレーニングできるようになるのは、素晴らしいことです。

［ソニア・ホアン］
　いいですね。

［ステファニー・ジャン］
　長期的な視点で、例えば10年後やそれ以上の未来で、AIの分野で一番ワクワクしていることは何ですか？

［ジム・ファン］
　いくつかの面で、特に推論に関して、私はコードを書くモデルに非常に興奮しています。コーディングは非常に基本的な推論タスクであり、経済的価値も大きいです。おそらく10年後には、人間レベルのソフトウェアエンジニアに匹敵するコーディングエージェントが登場し、LLM自体を使って多くの開発が加速するでしょう。

　もう一つの面は、もちろんロボティクスです。10年後には、人間と同じくらい、あるいはそれ以上の信頼性と敏捷性を持つヒューマノイドロボットが誕生していると思います。そして、その時にはProject GR00Tが成功していて、ヒューマノイドが日常生活で私たちを助けてくれるようになっていることを願っています。私はただ、ロボットに洗濯をしてほしいんです。それがずっと私の夢なんです。

［ソニア・ホアン］
　ロボットが私たちの洗濯をしてくれるのは、何年になるのでしょうか。

［ジム・ファン］
　できるだけ早く実現してほしいですね。待ちきれません。

［ソニア・ホアン］
　AIの分野で最も尊敬しているのは誰ですか？インターンシップの頃から素晴らしい方々と仕事をする機会があったと思いますが、最近特に尊敬している方は誰ですか。

［ジム・ファン］
　私には数えきれないほどのAIのヒーローがいます。まず、PhD時代の指導教官であるフェイフェイ・リーを尊敬しています。彼女は、優れた研究のセンスをどう磨くかを教えてくれました。時には、問題をどう解くかではなく、どの問題が解く価値があるかを見極めることが大切なんです。そして実際、「何を解くべきか」という問題の方が「どう解くか」という問題よりもずっと難しいんです。PhD時代、フェイフェイと一緒にEmbodied AIに取り組みましたが、振り返ってみると、これは正しい方向だったと思います。AIエージェントの未来は、ロボティクスや仮想世界でのエンボディメントにあると信じています。

　また、アンドレイ・カーパシーも尊敬しています。彼は素晴らしい教育者で、彼が書くコードはまるで詩のようです。彼をとても尊敬しています。そして、ジェンセンも大いに尊敬しています。彼はAI研究に非常に関心を持っており、モデルの技術的な詳細についても非常に深く理解しています。私は彼の知識と情熱に感銘を受けており、彼をとても尊敬しています。

［ステファニー・ジャン］
　優れた研究のセンスを持つことに関連して、AIを構築する創業者に対して、適切な解決すべき問題を見つけるためのアドバイスはありますか？

［ジム・ファン］
　そうですね、最近の研究論文はとても参考になります。最近の論文はますますアクセスしやすくなっていて、優れたアイデアが多く、純粋に理論的な機械学習にとどまらず、実践的なものが増えています。ですので、最新の文献を追いかけることをお勧めします。また、公開されているオープンソースツールをどんどん試してみるのも良いですね。例えば、NVIDIAでは誰でもアクセスできるシミュレーターのツールを提供しています。これをダウンロードして使ってみれば、シミュレーション内で自分のロボットを訓練できます。とにかく手を動かして実践することが大切です。

［ステファニー・ジャン］
　そして、Jensenをアイコンとして考えると、AIを構築する創業者に対してどのような実践的な戦術的アドバイスをしますか？彼から何を学ぶことができると思いますか？

［ジム・ファン］
　そうですね、取り組むべき正しい問題を見極めることが重要だと思います。NVIDIAがヒューマノイドロボティクスに注力しているのは、それが未来だと信じているからです。また、Embodied AIも同様です。例えば、10年後には世界中にiPhoneと同じくらい多くのインテリジェントロボットが存在すると信じているなら、そのための取り組みを今日から始めなければなりません。要は、長期的な未来のビジョンを持つことが大切だということです。

［ソニア・ホアン］
　素晴らしい締めくくりだと思います。ジム、本日はご参加いただき、本当にありがとうございました。皆さんのグループが進めていることを知るのはとても楽しかったですし、洗濯物を畳むロボットの未来が待ち遠しいです。

［ジム・ファン］
　ありがとうございます。こちらこそ、本当に感謝しています。

［ステファニー・ジャン］
　ありがとうございました。

［ソニア・ホアン］
　ありがとうございました。

［ジム・ファン］
　ありがとうございます。

＜オリジナル・コンテンツ＞

　オリジナル・コンテンツは、以下リンクからご覧になれます。
尚、本投稿の内容は、参考訳です。また、意訳や省略、情報を補足したコンテンツを含んでいます。

SEQUOIA CAPITAL
（Original Published date : 2024/09/17 EST）

［出演］
　　NVIDIA
　　　　ジム・ファン（Jim Fan）

　　Sequoia Capital
　　　　ソニア・ホアン（Sonya Huang）
　　　　ステファニー・ジャン（Stephanie Zhan）

＜御礼＞

　最後までお読み頂きまして誠に有難うございます。
役に立ちましたら、スキ、フォロー頂けると大変喜び、モチベーションにもつながりますので、是非よろしくお願いいたします。　
だうじょん

＜免責事項＞

　本執筆内容は、執筆者個人の備忘録を情報提供のみを目的として公開するものであり、いかなる金融商品や個別株への投資勧誘や投資手法を推奨するものではありません。また、本執筆によって提供される情報は、個々の読者の方々にとって適切であるとは限らず、またその真実性、完全性、正確性、いかなる特定の目的への適時性について保証されるものではありません。　投資を行う際は、株式への投資は大きなリスクを伴うものであることをご認識の上、読者の皆様ご自身の判断と責任で投資なされるようお願い申し上げます。