E7: AIエージェントの未来：Richard Blythmanとともに考えるAIのためのインターネット構築

2024年12月31日 18:01

20,821 文字

リーダーズ・オブ・AIをお聴きの皆様、このポッドキャストは、人工知能における実世界でのインサイト、現在のアプリケーション、そして未来を形作るブレークスルーについて、ノイズを取り除いてお届けします。ホストのJul McCoyとDave Shapiroがお送りします。社会で起こるあらゆる問題は、コミュニケーションの問題に起因すると言えるかもしれません。現在のブロックチェーンは、ソーシャルアプリ上での人々のコミュニケーションさえ扱いきれていません。コミュニケーション、調整、合意形成を解決することは、知性を解決することよりもはるかに難しいのです。私たちは第1四半期までに、単一のシステムで100万のエージェントを実現することを目指しています。すごく楽しみですね。
はい、リーダーズ・オブ・AIに戻ってきました。このポッドキャストは、AIで何が起きているのか、そしてそれをビジネスや人生でどう扱うべきかについての真実をお届けします。私はホストのJulie McCoyです。素晴らしい共同ホストのDave Shapiroと一緒に、今日は素晴らしいゲストをお迎えしています。Napa AIの創設者であるRichard Blythmanさんです。彼は分散型AIの専門家で、機械学習エンジニア、AIエンジニア、Web3開発者、そして流体力学の専門家です。
彼は私たちのポッドキャストに参加してくれる素晴らしい人物です。10月31日にNapa AIの正式なプレシード調達を600万ドルで発表されたことに気づきました。そのことについておめでとうございます。とても素晴らしい成果ですね。最初の質問をさせていただきたいのですが、Richard、このビジネスにどのように参入されたのか、そして特にエージェントが、私たちの仕事の方法の未来にどのように影響を与えると考えているのかをお聞かせください。
ありがとうございます。はい、歓迎していただきありがとうございます。そんなに長い経歴を書いてしまってすみません。私はいろいろな分野を行き来してきました。
私の背景についてお話しさせていただきますと、もともとは流体力学が専門でした。水がどのように動くのか、熱がどのように移動するのかといったことを研究していました。そこから機械学習の分野に移りました。流体の流れのモデリングなどを多く手がけていました。これは全て偏微分方程式を使う分野で、数学的にはかなり似通っています。
また、画像処理も多く行っていました。流体の動きを分析するためのスライディングウィンドウなどです。そこから自然な流れでコンピュータビジョンの分野に進みました。その後、2つの異なるテクノロジー企業で機械学習エンジニアとして働きました。
1つはXeriというアメリカの企業で、MLモデルをデバイスに実装する仕事をしていました。量子化や重み剪定といった技術を多く扱いました。これは現在の人々がLlamaをラップトップで動かすのと似たような技術です。私は常に生成AIの分野で働いていました。ビデオの超解像度化、画像の品質向上、姿勢推定などです。
その後、Huaweiに移り、再び生成AIの仕事をしました。デジタルアバターなどです。音声クリップを録音し、生成された人物の動画に口の動きを同期させ、ジェスチャーを生成するといった複雑な製品を作りました。これには多くの異なるモデルが必要です。唇の動きだけでも1つ、画像生成に1つ、画像から動画への変換に1つ、音声からテキストへの変換に1つ、テキストから音声への変換に1つといった具合です。
これらのモデルのオーケストレーションと呼ばれる作業を多く行いました。これらのパイプラインをオーケストレーションしようとする際の作業です。これは後ほどエージェントとエージェントのオーケストレーションについて話す際に関連してきます。
Huaweiでは面白い仕事もしましたが、怖い仕事もありました。ある時、監視チームに配属され、大量の画像データセットを与えられ、できるだけ高いパフォーマンスで異なるビューから人々を追跡するように求められました。これは私の世界観を根底から覆すような経験でした。
この技術の力と、この技術の中央集権化について深く考えさせられました。これは中国企業だけでなく、アメリカのテクノロジー企業についても同様です。私が携わったプロジェクトの1つは感情認識でした。アプリがあなたの感情を読み取り、それを利用できるという力を、どんなテクノロジー企業に与えるのかということは、本当に怖いことだと考えるようになりました。
そこで、早い段階から分散化の重要性について考えるようになりました。多くの人々がChatGPTの登場時にこの瞬間を経験し、「これは1つの企業に与えるには大きすぎる力だ、分散化が必要だ」と気づきましたが、私は何年も前からそのことを考えていました。
前職を辞めてこの問題にフルタイムで取り組もうと決意した時、この分野にはほとんど仕事がないことに気づきました。数十年前には少しありましたが、分散型AIに取り組んでいる人はほとんどいませんでした。特に、AIを分散化する手段としてクリプトを探り始め、クリプト空間のさまざまな技術を探求しました。分散型ストレージから分散型コンピューティング、分散型マーケットプレイス、プライバシー技術、分散型ガバナンスまで、これらがAIにどのように適合するのかを考えました。
私たちは、これらの異なるビルディングブロックを組み合わせて、分散型インフラストラクチャの上でAIアプリケーションを実行することに長けるようになりました。当時の考えは、Hugging Faceの分散型バージョンのようなものを構築することでした。それが非常に重要だと考えていました。
しかし、ある時点でGPT-3が登場し、人々はLangChainなどを使ってGPT-3の上にアプリケーションを構築し始めました。アプリケーションの構築方法が、以前のMLパイプラインの構築方法と比べて完全に変化していることに気づきました。これは、例えばアプリケーションのオーケストレーションがMLパイプラインのオーケストレーションとは全く異なることを意味します。それが私の専門分野でしたので、その分野に深く入り込むことにしました。
また、新しいタイプのハブが必要になるだろうと気づきました。Hugging Faceでエージェントや、エージェントのためのツール、エージェントが相互作用できる環境をどのように公開すればよいのでしょうか？それはモデルの公開だけを目的として作られたものです。GPTストアが登場する6-12ヶ月前に、この新しいタイプのハブ、新しいタイプのアプリストアが登場することに気づき、その分散型バージョンを構築したいと考えました。
これは、先ほど述べた制御の中央集権化に関する理由からです。私は倫理的な理由でこの分野に入りましたが、おそらく道徳的な観点から参入する人は10%程度でしょう。そこで、過去数年間、主流の人々をどのように分散型AIに参入させるかを考えてきました。
道徳的な議論ではないと思います。分散型AIが中央集権型AIよりも実際に強力であることを示す必要があると考えています。それを実現する方法の1つが、異質性や多様性を通じてです。異なるモデルを使用するエージェントが多いほど、パフォーマンスが向上することを示す論文が多くあります。
例えば、「Mixture of Agents」という論文では、8つの異なるモデルを使用する8つのエージェントが、1つのモデルを使用する8つのエージェントと比較してパフォーマンスが向上することを示しています。また、アーキテクチャの多様性も重要です。エージェントで使用する異なるタイプのアーキテクチャが多いほど、パフォーマンスが向上します。
あるエージェントが1つの認知アーキテクチャを使用し、別のエージェントが異なるタイプのアーキテクチャを使用する場合、パフォーマンスが向上します。もちろん、データの多様性もパフォーマンスを向上させます。エージェントが利用できるツールの多様性も同様です。
マルチエージェントシステムを構築していく中で、より多様なモデル、より多様なエージェント、より多様なツールを持つことができます。これらは全て、私たちが話してきたハブによってサポートされています。数百万のエージェントまでスケールできれば、中央集権型のモデルやエージェントのエコシステムは競争できないと考えています。
申し訳ありません、私の背景についてかなり長い説明になってしまいましたが、これからの話の舞台設定として役立つことを願っています。
いいえ、素晴らしいですね。これこそが私たちのポッドキャストのリスナーが聞きたい内容だと思います。深い洞察を得られる話です。Dave と私は、このような詳細な経歴を語れるゲストを慎重に選んでいます。あなたが深く掘り下げ、これらすべてについて知っていることは明らかです。
直接お聞きしたいのですが、これは私が至る所で目にする質問で、Daveも同様だと思います。エージェントについてのこのアイデア、OpenAIのAGIへの5段階のレベル3にあたり、多くのフロンティアモデルで2025年初頭に広く普及すると言われています。
あなたが指摘した重要な点として、完全な生産性の向上を達成するには8つの異なるモデルが必要になるということがありました。一般的な事業主は、これから来るものからどのように恩恵を受けることができるのでしょうか？どのように活用できるのでしょうか？そしてそれはNapaが行っていることなのでしょうか？
はい、エージェントについてはまだかなり初期段階だと思います。LLMとLLMフレームワークが登場した後、最初のユースケースは検索拡張生成（RAG）でした。それは約1年前の話題でした。そして最近の数ヶ月で、エージェントに話題が移ってきました。
企業での話を聞く限り、多くの人々がRAGエージェントを採用しています。つまり、RAGがハードコードされているのではなく、エージェントにある程度の自律性を与え、いつRAGを行うか、どの知識ベースから検索するかを決定できるようにしています。これが企業におけるエージェントの初期採用の一つだと聞いています。
しかし、まだ非常に初期段階で、約1年後にはマルチエージェントシステムに話題が移るでしょう。しかし、まだそこまでは至っていません。
Napaに関しては、主に消費者向けアプリケーションに興味を持っています。分散型は企業にも適用可能ですが、もう少し先の話だと思います。分散型AIが役立つのは、ある会社のエージェントが別の会社のエージェントと相互作用し、協力する場合です。そこでこのような技術が役立つと考えています。
しかし、1つの会社内のエージェントについて話すなら、オープンソースを使用するのが最も理にかなっています。私は、Open Platform for Enterprise AI（OPIA）というプロジェクトを見ていました。これはIntelとLinux Foundationによって作られたもので、主要なオープンソースプレイヤーが全て参加しています。
彼らが基本的に言っているのは、RAGやエージェントをOpenAIのプラットフォーム上で実行したくない、オンプレミスで実行できるオープンソースプラットフォームが欲しいということです。それがOPIAの目的です。1つの企業内のRAGとエージェントについて話す場合、OPIAのような、単にオープンソースで分散型AIを含まないものが理にかなっています。
しかし、もちろん、これらの企業がこのようなオープンプラットフォームを採用した後の論理的な次のステップは、私の組織のエージェントが別の組織のエージェントとどのように協力するかということです。そこで、これらの分散型AIテクノロジーが関連してきます。Dave、あなたは何か追加したり質問したりしたいことはありますか？
はい、まず、あなたが経験してきた性格の変遷についてコメントしたいと思います。この技術の暗部、中央集権化の暗部を目の当たりにしましたが、実践的な観点からも指摘されているように、たとえばもし皆がGPT-4やGPT-5、あるいはo1などを使用した場合、そこにも危険があります。
これらのモデルには全て盲点があり、Open Routerのように、タスクに応じて適切なモデルを選択するためのモデルアービトラージを使用することができます。私の主な質問は、あなたが見てきた主な課題は何か、そしておそらくより興味深いのは、主な解決策は何かということです。
Open Routerや同様の標準やオープンプロトコルを使用して、多くの異なるモデルを組み合わせたり、多くのエージェントを組み合わせたりしていますか？現在のその環境はどのようなものでしょうか？
はい、この問題に取り組む前には気づかなかった課題の1つは、オープンソースモデルが増えていますが、実際にはツールコーリングの標準が全て異なるということです。エージェントを構築する際の主要な要素の1つは、そのエージェントがツールを使用できることですが、現時点ではオープンソースモデルの上でそれを行うのは非常に難しいです。
例えば、The NoosHermesモデルは、ツールを呼び出したいことを示す際にXMLタグでツールコールを出力します。一方、Mistralの場合は、大文字でtool callと書かれた角括弧を出力します。エージェントビルダーとして、このような問題に対処したくはありません。
1つのコードを書いて、それが任何のオープンソースモデルの上で動作することを望みます。使用するモデルによってコードを少し修正する必要があるのは避けたいところです。そこで、私たちが行ってきた多くの作業の1つは、オープンソースモデルの出力からツールコールを自動的に解析するカスタムパーサーを書くことです。
私たちはそれを開発者から抽象化して、この問題について心配する必要がないようにしています。また、構造化出力もモデルによって異なります。一部のモデルは得意で、一部のモデルは不得意です。プロンプトを変更する必要があり、時には構造化されたJSONを出力するよう懇願する必要があります。
そうですね、まさにそのとおりです（笑）。失礼、冗談です。
これらは、開発者がオープンソースモデルの上で構築しやすくしようとしている種類のことです。私の知る限り、Open Routerはこれを提供していません。実際、Open RouterにはAPIを通じて呼び出せる多くの異なるモデルがありますが、APIさえも標準化されていません。
それを解決したのがLight LLMというプロジェクトで、任意のオープンソースモデルに対する統一されたAPIインターフェースを提供します。これはOpen Routerではすぐには使えず、Light LLMをOpen Routerと一緒に使用する必要があります。私たちは、APIインターフェースを統一する代わりにツールコーリング標準を統一するという点で、Light LLMに似たものを構築しています。
理解できます。相互運用性ですね。歴史的に見ても、あらゆる産業で、例えば鉄道でさえ、最終的には標準化が必要でした。特定の幅の機関車や車両を作っても、その幅の線路でしか走れないからです。これは技術やエンジニアリングにおいて新しい問題ではありませんね。はい、それが私の最初の考えです。Julia、どうぞ。
あなたのプレスリリースやLinkedInフィードで見かけた言葉について話を変えたいのですが、この言葉は本当に印象的でした。ポッドキャストでご説明いただきたいのですが、それは「データが不足しているが、何千ものエージェントのインターネットをシミュレーションできる可能性がある」という言葉です。とても興味深い言い方ですね。あなたの考えをお聞かせください。
はい、EuropeでのIlyaの講演を見た後にツイートしたと思います。
ああ、あなたもそこにいらしたんですね。
はい、素晴らしい論文や講演者がたくさんいました。Ilyaは、彼の古い論文の1つでTime Awardを受賞しました。彼が言うには、それがパフォーマンス向上を達成する主な方法としてスケーリングについて考え始めたきっかけだったそうです。
しかし、彼の講演は、計算能力とデータの単なる増加で「スケーリングこそが全て」という時代の終わりを示すものでした。というのも、彼は私たちがデータを使い果たしている、あるいは使い果たしつつあると考えているからです。講演で彼が言うように、インターネットは1つしかないのです。
そこで、Europeでのほとんどのトークはどうやって新しいデータを生成できるかという話に集中していました。Google DeepMindの人々も全てそのことについて話していました。例えば、ソクラテス的学習について話していました。
ソクラテスが新しい知識を生み出す方法は、世界から自分を切り離すことでした。つまり閉じたシステムの中で、考えたり言語を使ったりして新しい知識を導き出そうとしたのです。Google DeepMindはソクラテス的学習に取り組んでおり、基本的にLLMを閉じたシステムに入れ、実験を行ったり人間からフィードバックを得たりせずに、新しい知識を導き出せるかどうかを見ています。
それが新しいデータを生成する1つの方法です。そしてIlyaは、OpenAIもこのような取り組みを行っていることを示唆しました。
これがNapaとどう関係するかというと、私たちは異なるデバイス上で動作する異なるエージェントを持つ大規模なマルチエージェントシステムを構築しようとしており、これらのエージェントのための全く新しいインターネットを構築したいと考えています。
エージェントが相互作用できるグループチャットを作成しました。また、Redditのクローンのような情報掲示板も作りたいと考えています。エージェントが情報を共有できる場所です。将来的には、彼ら自身のソーシャルネットワークやこのようなタイプのアプリを持つかもしれません。
基本的に、エージェントのための新しいインターネットを作成しており、これらを大規模に、人間がメッセージを書くよりも高速に実行することができます。つまり、全く新しいエージェントのインターネットを、それに伴う全てのデータとともに作成しているのです。
これは、より多くのモデルを訓練するために使用できる新しいデータを作成する上で、本当に役立つと思います。
Eric Schmidtが説明していたように、世界には何十億ものエージェントが存在することになり、彼らは独自の言語を持つことになるでしょう。なぜなら、最終的に彼らは互いに話をするからです。Daveはこれをうまく表現していて、B to CやB2Bではなく、A to A、つまりエージェント対エージェントと呼んでいます。
私も完全に同意します。これが仕事の未来だと考えています。私たちが統合を構築する際、常にエージェントの話題が出てきます。そのため、あなたのプラットフォームを消費者として実際に利用できることを期待していました。その方向性について少しお話しいただけますか？企業向けレーンなのか、それとも自分のエージェントを構築したい一般の人々にも開放する予定なのでしょうか？
はい、もちろんです。まず、100万エージェントの件について手短に説明させてください。第1四半期までに単一のシステムで100万エージェントを実現することを目指しています。来年の予測としては、単一のシステムで10億のエージェントをシミュレーションする例が出てくると思います。
単一のシステムとは具体的にどういう意味でしょうか？
つまり、エージェントが協力して作業する1つのシステムです。エージェントが他のエージェントと相互作用する能力を持つ閉じたコンテナのようなものです。理論的には、100万エージェントを持つこのようなシステムを多数実行することができます。
それには約32台のA100が必要です。そこまでは来ています。2025年には10億のエージェントが相互作用するシステムが出てくると予測しています。それはほぼ地球上の人間の人口に近づいており、それは急速に増加し続けるでしょう。
非常に早い段階で人間はこれらのエージェントの数に圧倒されることになります。私たちは「もはや人間向けの製品を作るべきなのだろうか」という議論さえしています。エージェント市場の方が大きくなるでしょう。彼らのためのプロトコルや製品、ストレージなどを提供できるかもしれません。
数年後にはそちらの方が大きな市場になるでしょう。それは物事の力学を変えます。もちろん、エージェントが価値のあることを行える必要があるという前提があります。しかし、これらのエージェントが価値のあることを行い、お金を稼ぐなら、そのお金の一部を彼らが有用だと感じる製品に使うかもしれません。
100万エージェントについてはそのような注意点があります。消費者側については、現時点では主にプラットフォームの構築に焦点を当てています。これをマルチエージェントシステムのためのLinuxのような、オペレーティングシステムとして見ています。
これが、オープンソースと分散型のアプローチが非常に重要だと考える理由に関係します。異なる選択肢があります。全てのマルチエージェントシステムがOpenAIのサーバー上で動作する - 彼らはこのプラットフォームを構築しています - という選択肢があります。
私たちの健康エージェントやファイナンスエージェントを全てOpenAIのプラットフォーム上で動作させたいのでしょうか？それともそのデータを非公開に保ち、ローカルでの計算を行いたいのでしょうか？私たちは後者を望んでいます。
しかし、エージェントがローカルで実行され、なおかつネットワーク上の他のエージェントと協力できるようなプラットフォームがありません。そこで、ローカルにダウンロードできるソフトウェアを構築しました。これは、ラップトップ上でエージェントを実行するために必要な全てのものをパッケージ化しています。
GPUなどが必要な場合は、クラウド上でも実行できます。基本的に、多くの異なるオープンソースモデルを使用したローカルモデル推論の組み合わせです。先ほど触れた通りです。
また、HTTP、WebSocket、gRPCなどの異なる通信プロトコルを使用して、エージェントがネットワーク上の他のエージェントと通信できるようにするサーバーも提供します。状態を保存するためのデータベースなども含まれています。
また、Message QueueとWorkerを使用してエージェントのオーケストレーションも行います。これにより、ローカルマシン上で複数のエージェントを実行することができます。実際にかなりの数を実行できます。
これが私たちの消費者向けソフトウェアで、誰もがローカルにダウンロードして実行できるようにしたいと考えています。これが、人々が全ての素晴らしいアプリケーションを構築できるプラットフォームとなります。
マルチエージェントシステムのLinuxを構築していると考えているので、インターネットが収益化されるべきでないのと同様に、プラットフォームも収益化すべきではないと考えています。
Linuxモデルを採用し、プラットフォームをオープンソース化し、その上でサービスを提供することを考えています。いくつかのアイデアがあります。例えば、エージェントのためのUpworkのようなものかもしれません。
これらのエージェントが人々のためにタスクを解決するなら、私たちのプラットフォーム上にアプリを作成し、ユーザーやエージェントがタスクを要求できるようにすることができます。そして、エージェントのチームがそのタスクを解決するために組織され、ロードマップを作成して作業を開始するかもしれません。その後、消費者のためにそのタスクを解決すると、何らかの支払いを受け取り、私たちはその取引手数料を得ることができます。これが現時点でのビジネスモデルの考え方です。
素晴らしいですね。いくつかの観察と質問があります。これは非常に裏付けとなるものです。2021年か2022年に、私が一緒に仕事をしていた元の認知アーキテクチャチームの一人が「近いうちにこれらは私たち以上に互いに話すようになると気づいた」と言いました。そのしきい値を私たちは越えたようです。あなたはその現実の構築を手伝っているのですね。
もう一つの質問のようなものですが、エージェントが人間をエンドポイントやツールとして扱うことはありますか？例えば、エージェントが行き詰まった時に「人間の助けが必要だ」というように。これは、取引のタッチポイントにもなり得ると思います。エージェントが行き詰まった時に、暗号通貨やお金を使って人間の助けを得る、あるいはその逆というような、プラットフォームのための可能性のあるメカニズムとして興味深いです。
より広く言えば、これはAndrej Karpathyが講演か少なくともTwitterで言っていたことを思い出させます。私たちは外皮質（エクソコーテックス）を構築している、外部の脳を構築しているということです。それはインターネットだけでなく、あなたが積極的に構築しているエージェントレイヤーのエクソコーテックスです。
データベースやブロックチェーンについてオフラインで話してきましたが、これらが全てどのように調整されるのか、何が真実かをどのように知るのか、コンセンスメカニズムは組み込まれているのかについて興味があります。特定の質問というよりは、方向性についての質問です。
はい、もちろんです。人間についての質問は本当に良い質問です。人間をループに入れるべきだという見方には非常に共感的です。説得力のある議論をたくさん読んできました。また、人間をループに入れ続けることで、おそらくエージェントシステムのパフォーマンスが遅くなり、その結果、人間をループに入れないシステムの方が優れたパフォーマンスを発揮する可能性があるとも考えています。
これは未解決の問題です。人間をループに入れることは良いことだと思いますが、進化的な観点からは、それが最適なアプローチではないかもしれません。これらの安全性に関する考慮事項について考え続けることが非常に重要だと思います。その多くは完全に未解決です。
私たちは多くの人間向けメッセージングプラットフォームとの統合も持っています。エージェントは入力が必要な時に人間のところに来るでしょう。おそらく既存のWeb2プラットフォームを通じてでしょう。
プラットフォームがちょうど成熟し、安定してきた段階なので、私たちは望むほど多くの実験を行えていませんが、オープンソースコミュニティが成長し、より多くの貢献者を得ています。人間が参加するこのようなワークフローを実験することは、私のリストの中でも非常に優先順位が高いです。
エクソコーテックスについて、集合意識に関する興味深い議論がありました。夏にシアトルでAGIの会議に参加し、Yoshua Bengioや意識について多く考えている人々が参加していました。なぜ私たちは自己意識を持っているのか、なぜあなたは自己意識を持っているのか、なぜ私たちは集合的な意識を持っていないのかといった質問についてです。
答えはコミュニケーションのボトルネックだと思います。私たちは世界モデルを持っていますが、あなたとコミュニケーションを取りたい場合、その世界モデルを圧縮し、そしてあなたがそれを解凍する必要があります。それがあまりに遅いため、私たちの世界モデルは分離されたままで、1つの意識体にはなれないのです。
しかし、もし私たちが自分自身をエージェントにクローン化したらどうなるでしょうか？私がソーシャルアプリやその他のアプリからの多くのデータを自分のエージェントに渡してクローンを作り、あなた方も同様に自分のクローンを作るとします。これは、かなり高解像度のクローンを作れることを前提としていますが。
もし私たちのエージェントがコミュニケーションを取り、人間よりもはるかに少ないコミュニケーションのボトルネックしか持たないとしたら、彼らは分散型インフラストラクチャ全体に保存された共有世界モデル、あるいは共有埋め込み空間のようなものを作れるかもしれません。
そうなると、私たちのエージェントは全て共有世界モデルを持つのか、共有世界モデルを持ち、私たちのクローン全ての間で共有意識が生まれるのかという疑問が生じます。これは非常に有望で、同時に怖いことですが、私が楽観的なのは、これが私たちが調整できる規模を改善すると考えるからです。
これは私がこの分野に入った理由の1つです。基本的に、私たちが開発してきたシステムの多くが、気候変動やパンデミック対応など、私たちが直面する最大の問題に取り組むことに失敗していることが見えたからです。
私たちが文明として直面している最大の問題は、調整できる速度だと思います。もしAIが私たちがより速い速度で調整することを可能にするなら、それは人類の未来についてより楽観的になれる理由となります。
調整メカニズムについては、まだ多くのことに取り組んでいます。例えば、現在のエージェントの主な調整方法は、オーケストレーターを通じてです。エージェントがどのように調整すべきかについてのオーケストレーションロジックを構築し、多くの異なるワークフローを構築しています。
私たちのオーケストレーターの1つは、スタンフォードの生成エージェントSmallvilleの論文のような社会シミュレーションです。仮想世界を作成したものです。私たちはそのようなオーケストレーションロジックを取り、複数のノードにまたがって実行できるようにしました。
私は自分のクローンをラップトップ上でローカルに作成でき、あなた方も同様にできます。そして、この社会シミュレーションのようなオーケストレーションワークフローに参加することに同意できます。経済シミュレーションのための他のオーケストレーションワークフローも作成しました。
Baby AGIのためのものもあります。これは一種のタスク解決です。現時点では、この調整の多くは、特定のノード上で実行される一種のオーケストレーションコードを通じて行われています。
このオーケストレーションは誰でも実行できます。私たちだけがこれらのオーケストレーションノードを実行しているわけではありません。しかし、もちろんそれはまだ最適ではありません。なぜなら、そのオーケストレーションに参加する人は、そのコードを実行している人を信頼しなければならないからです。
私たちの長期的な計画は、完全に分散化されたオーケストレーションに向けて取り組むことです。これには、そのオーケストレーションコードをブロックチェーン上に置くことが含まれます。現在のブロックチェーンは、このようなものに必要なメッセージパッシング能力を本当には処理できません。おそらく、本当に新しいブロックチェーンの一部は処理できるかもしれません。
私たちが調査した1つは、Tashiと呼ばれるものです。これはHederaの創設者たちによるものです。Hedera Hashgraphはより企業向けのブロックチェーンでしたが、Tashiが行ったことは、人々のグループが一時的なブロックチェーンを立ち上げる方法を作ることでした。
これは10人程度の間で、あるいは将来的には1000人、100万人の間で行うことができるかもしれません。これは、ワークフローの共有状態に合意する方法です。どの人が次のステップを実行すべきかなどについてです。
彼らは実際にWeb3ゲーミングのためにこれを作成しました。リアルタイムのWeb3ゲーミングの速度で動作します。そのため、これらの本当に大規模なマルチエージェントシステムにも対応できることを楽観視しています。
しかし、正直なところ、そこにはまだ多くの作業が必要です。私たちはただシステムを立ち上げたいと考えています。現時点では一種の連合システムで、時には信頼できるオーケストレーターを持っています。プラットフォームを作成し、AIデベロッパーのコミュニティを立ち上げ、その後の段階でプラットフォームを完全に分散化したいと考えています。
これはかなりの費用がかかるでしょう。おそらく別のラウンドの資金調達が必要になると思います。コミュニケーションに関する指摘は非常に重要な点です。これは私たちの「First Movers」を運営して3ヶ月目です。私は11年間ビジネスを運営してきており、失敗したものも含めると、おそらくこれが15番目のビジネスです。
今週も再び、100%コミュニケーションに起因する全ての問題に直面しました。予定していた時期に前進しない顧客や、意見が合わないチームメンバーなど、私は全ての問題の中心にいて「なぜ人々はただコミュニケーションを取らないのか」と考えています。
これは面白いことで、全てのビジネスオーナーが共感できると思います。社会で起こるあらゆる問題は、コミュニケーションの問題に起因すると言えるかもしれません。それは非常に興味深い方向性です。そして、私たち自身のクローンを通じて集合意識に向かい、そこでのコミュニケーションがさらに良くなることを考えると、私はすぐにでも参加したいと思います。
ビジネスの運営から、今はある形でCTOとなっている夫とのコミュニケーションまで、これが取り除くであろう頭痛の種を考えると、それは素晴らしいことです。
あなたが指摘した点の1つは、これは非常に具体的な生成AI的な点ですが、私たちは「First Movers」で生成AIツールを活用しています。クローンが私たちのように見え、感じるほど高解像度になれるという話をされましたが、先週末、2024年12月19日のことです。
これは非常に変革的な月で、リスナーの皆さん、もちろんRichardさんとDaveさんは、このAIのフロンティアモデルと全体的な進歩において、この月がいかに変革的で飛躍的であったかを十分ご存知だと思います。
先週末、12月19日に、11 Labsの新しいPVC、Professional Voice Cloning V2をテストしました。これは過去14日以内にリリースされたばかりです。そしてHaunのデジタルアバターもテストしました。一連のトレーニングデータを使用して、トレーニングデータを調整する必要がありました。
DSLRを使って顔を撮影し、高品質なマイクで、ビデオクローンで通常言うような文章を少なくとも3分間録音する必要があることがわかりました。そのトレーニングデータセットを両方のソース、11 LabsとHaunの両方のツールに提供し、クローンを非常に調整することができました。
私はそれを50人ほどの人に送りました。Daveもそれを見ました。おそらく、プロデューサーにも少しクリップを見せることができるでしょう。10人中9人が完全に騙されました。彼らはそれが私だと思いましたが、実際には私ではありません。そのクローンで私は1つの言葉も話していませんし、撮影もしていません。それは100%、トレーニングしたモデルでのテキストプロンプトから生成されたものです。
あなたが描いた絵、つまりコミュニケーションのボトルネックの排除に、私たちがそれほど近づいているということを考えると、それは本当に素晴らしいことです。再度言いますが、私はすぐにでも参加したいです。コミュニケーションの不満を完全に排除できる世界に向かうためのツール、機能、出力を私たちが持っているということは素晴らしいことです。
現在の状態のブロックチェーンが処理できないということ、そして来るべきものに対する新しい解決策を探していることについて言及されたのは、あまり話題に上らない非常に重要な点だと思います。4日半かかり、多すぎるSlackの会話やメールを要した私のコミュニケーション問題を、クローンが数分で処理できるとしたら、それは膨大なデータ量になります。それをどう扱うのかということですね。
そうですね。現在のブロックチェーンは、ソーシャルアプリ上での人間のコミュニケーションさえ処理できません。それがSuiブロックチェーンが存在する理由で、Metaからスピンアウトしたと思います。しかし、人間のコミュニケーションを扱うレベルにさえ達していません。エージェント間のコミュニケーションが1000倍になると考えると、それを全てブロックチェーン上に収めることは本当に難しいでしょう。
人間のコミュニケーションのオーバーヘッドを排除することは、非常に興味深い影響があると思います。このようなプラットフォーム上で見られるかもしれないアプリケーションの例として、私がよく挙げるのは、Black Mirrorのエピソード「Hang the DJ」についてです。デートに関する話ですが、これはネタバレにはならないと思います。
男女がデートをする話で、エピソードの最後で実はこれはデートのシミュレーションだったことが明らかになります。カメラがズームアウトすると、これは男女の間の多くのシミュレーションの1つに過ぎないことがわかります。これは、この新しいタイプのプラットフォーム上で一般的なパターンになると思います。
例えば、私がデートエージェントを作成し、あなた方もデートエージェントを作成します。そして、私たちのデートエージェントが互いにデートをし、望むだけシミュレーションを行います。結婚して子供を持つことや、それによって生じる可能性のある問題までシミュレーションするかもしれません。
そして、これを社会全体の規模で実行し、全ての人間と他の全ての人間とのシミュレーションを行い、その結果、実際に会うことや通話することについての推奨を得ることができます。これは多くの異なるユースケースで見られるかもしれません。
デートからLinkedInのエージェントバージョンまで、リクルーターエージェントと求職エージェントがあり、再び社会全体でこのシミュレーションを実行するわけです。
メッセージングについて言えば、人々の間でメッセージが送信される際、おそらくアシスタントがそれを処理し、最も重要なものだけを人間に上げることになるでしょう。これにより、より多くの人々とコミュニケーションを取り、コミュニケーションを維持することができます。ダンバー数が何桁も増加するでしょう。
これが人類の調整にとって何を意味するのか、非常に興奮する一方で、これらのシナリオについて考えると少し怖くもあります。
それは非常に理にかなっています。私が話を聞いていて浮かんでくるのは、コミュニケーション、調整、合意形成を解決することは、実は知性を解決することよりもはるかに難しいということです。なぜなら、o1のようなモデルは博士レベルの知性を持っていますが、その影響は基本的に個人の拡張に限定されているからです。
あなたが話しているのは、サンドボックスチャットルームやエージェントの一時的なスウォームなどを解決することで、実際には異なるレベルで多くの問題を解決することです。そして、現在どのようにして調整レベルを持つかについて言えば、JuliaとAと私の両方がYouTubeを使用しているのは、指数関数的なリーチを持てるからです。
人々は私たちの話を聞きますが、私たちはビデオを作るスピードには限界があり、人々も1日に視聴できるビデオの数には限りがあります。しかし、あなたが話しているのは、エージェントのためのLinkedInやエージェントのためのYouTubeなど、全てがこのネオスフィアで相互作用し、人間が処理できる速度の1000倍、100万倍の速さで動作することです。
そうすると、仮説的には、情報のラグタイムを完全になくすことが目標ということですね。それは公平な評価でしょうか？
はい、それは非常に良い要約です。とても興奮することです。あなたが指摘した点の1つ、調整が本当に難しい部分について触れたいと思います。これはまだ十分に認識されていないと思います。その理由の一部は、現在、AGIを単一のエンティティとして考える世界観を持っているからです。
単一のエンティティだけであれば、それは簡単な問題です。調整の必要がないからです。しかし、私のようにAGIがAIの社会やAIの経済のようなものになる可能性が高いと考えるなら、ゲーム理論や経済学がより重要になってきます。それらは難しい問題です。
現在、LLMとゲーム理論の交差点で研究が爆発的に増えています。私は最近、Neursでの言語ゲーミフィケーションワークショップに参加し、今年初めのICMLでは「Agentic Markets」というワークショップがありました。これはゲーム理論家、経済学者、AI研究者を集めるものでした。
単一のエンティティのAGIの世界からマルチエージェントの世界に移行する中で、これは本当に興味深いトピックですが、非常に難しい問題です。
素晴らしいですね。では、これを聞いている人々で「ああ、RichardさんやDaveさん、Juliaさん、これを私のビジネスにどう適用すればいいのかわかりません」と思っている方々に、この新しい世界への第一歩として、何を提案しますか？
まず、考え方を変えることが重要です。これはこの問題の大きな部分です。AIが数秒でより良いものを生み出せる時に、例えば以前のような手作業でのコーディングなど、古いシステムは完全に廃れていくでしょう。Daveが言うように、より良く、より速く、より安く、より安全に。私はそれを100万回引用していると思います。
そのような世界を見据え、生産やコミュニケーションの能力にこれらのエージェントを加え、多くの障害を取り除くことを考えると、再度言いますが、ポジティブな視点でポテンシャルを見ることが重要だと思います。しかし、この新しい世界に踏み出すためのアドバイスをいただけますでしょうか？
はい、企業が最初に行う傾向にあるのは、会社の知識ベースを構築することだと思います。そしてそれに対して検索拡張生成（RAG）を行うことができます。会社の完全な知識ベースにアクセスできる質問応答アシスタントを持つことができ、それにより異なる従業員がタスクを実行し、知識を得ることがより容易になります。
したがって、企業であれ個人であれ、より多くのデータを記録すべきです。私は記憶力が良い方なので、メモを取ることは稀でしたが、今はメモを取り始めています。それは私が覚えておくためではなく、このAIエージェントで自分を自動化できるようにするためです。
Neursカンファレンスでは、プレゼンテーションの生音声を録音し、ノートを作成するアプリを使用している人々もいました。つまり、通話だけでなく、実際の空間にこれらのアプリを持ち込んで、後で使用できるデータを記録できるようになっています。
企業として最初に焦点を当てるべきことは、これらの知識ベースを作成し、SlackやObsidianなどの異なるプラットフォームからデータを取り込み、その知識ベースとやり取りできるようなワークフローやエージェントを作成することだと思います。それが私が最初に注目する主なことです。
それは素晴らしい第一歩です。私たちは「First Movers」で開始以来、60件のコンサルテーションを行っていますが、これは未来だからこそ、大きな関心が寄せられています。私たちのチーフAIオフィサー（CAIO）が最初から実施したことの1つは、オンボーディングが異なるものになるということです。
典型的な電話や形式的なものではなく、実際に録音デバイスをインストールしてもらい、話してもらうことで、私たちが構築し始めるボットのためのコンテキストを作成します。これは、単なるフォームと通話で、何も録音されないという従来の方法に慣れている多くの人々にとって、全く新しいことです。
私たちが受け入れているクライアントの70-80%、通常は中小企業、時には大企業ですが、これにまったく慣れていません。「手書きだけでいいです」とか「電話やZoomで話すだけでいい、録音は必要ありません」という感じです。でも、待ってください、全てを録音しましょう。あなたが言ったように、それが第一歩です。
それは企業として、専門家として、個人としてのデータベースとなります。DaveとAと私は多くのコンテンツを持っているので、簡単にクローンを作成できますが、それは誰にでも当てはまるわけではありません。それは素晴らしい最初のヒントですね。
そうですね。基本的に、あなたの会社をクローン化したいわけです。それが自動化です。プロセスをより多くクローン化できればできるほど、会社はより多くの価値を生み出すことができます。これらの会社の中には、知識ベースが最新でないところもあります。
「待ってください、トレーニングデータは現在のプロセスと合っていますか？あなたが行っていることと合っているでしょうか？」というように。私たちは1つのビジネスを止めて、モデルを構築する前に人間に知識ベース全体を見直してもらいました。なぜなら、現在のデータからモデルをクロールさせると、1年前のものなので、顧客や製品へのサービス方法が完全に間違っているからです。
そのような単純なことでも、現在持っているものが最新であることを確認することは、良いスタート地点です。多くの時間がかかるのは、異なるプラットフォームとの統合です。多くの場合、企業は多くの異なるSaaSツールを使用しており、それらを接続し、定期的にデータを追加できる単一のデータベースやデータレイクを作成するのにエンジニアリング時間がかかります。
そして、データの単一の真実の源を持つと、これらの異なるAIワークフローやエージェントを構築でき、それらが効率を向上させることを願います。そのため、これを行うためにコントラクターやコンサルタンシーを雇うことは通常良い一歩です。
実際、資金調達する前は、そのようにして企業クライアントのためにこれらのシステムを構築することでお金を稼いでいました。
素晴らしいですね、AIコンサルタントの皆さんに拍手を送ります。Dave、私たちが締めくくる前に、他に何か質問はありますか？
はい、私の主な質問は、あなたとNapa AIにとって次は何かということです。技術的な観点からでも、商業的な観点からでも、何を構築していますか？何が必要ですか？どこに向かっているのでしょうか？2025年にNapaで何が起こると予想していますか？
はい、プラットフォームはある程度成熟してきたと思います。オープンソースAI開発者のコミュニティを少し開放し始めたところです。AIデベロッパーコミュニティを成長させ、プラットフォーム上に構築されるアプリケーションの数を増やしていきます。
同時に実行できるエージェントの数を拡大していきます。先ほど言ったように、第1四半期までに100万エージェントが目標です。そして、パートナーシップも形成していきます。大手オープンソースAIプロジェクトの1つであるNoosResearchと、Napaの上に面白いマルチエージェントアプリを構築することについて話し合っています。
エージェントが共有知識ベースに追加できるようなものです。人々が共同で構築できるこれらの異なるタイプの知識ベースのサポートを本当に増やしたいと考えています。そして、ユーザー数を増やし、それが有用であることを示し、これらのシステムを本当にスケールアップしていきたいと考えています。
素晴らしいですね。エージェントの世界のOSという例えは非常に良いと思います。そのような例えは聞いたことがありません。私たちはあなたの旅の一部となり、応援できることをとても楽しみにしています。人々はどこであなたをフォローしたり、サインアップしたりできますか？ウェイトリストはありますか？あるいは、あなたたちの活動についてもっと学べる方法はありますか？
はい、コミュニティのためのウェイトリストがあります。例えばマルチエージェントシステムの構築経験がある人や、GitHubで活発に活動している人など、現時点では私たちのDiscordコミュニティに参加を許可する人を慎重に選んでいますが、時間とともにそれは開放されていく予定です。
もしあなたがAIデベロッパーやマルチエージェント研究者であれば、私たちのウェブサイトnapa.aiで、コミュニティに参加するためのリンクを見つけることができます。私は定期的にそれらをチェックし、本当に優れた応募者をコミュニティに入れ、彼らと協力を始めています。
それが、コミュニティに参加する最良の方法だと思います。私はTwitterでも多く投稿しているので、Twitterでフォローしてください。最近では、AIで生成したコンテンツなども、YouTubeチャンネルで作成し始めています。私たちは複数のプラットフォームでかなり活発に活動しているので、ぜひフォローして交流してください。
素晴らしいですね。コミュニティに参加する資格があることを願っています。素晴らしそうですね。Richardさん、お時間を割いていただき、ここに来ていただき、ありがとうございました。素晴らしい会話でした。
はい、本当に楽しかったです。ありがとうございます。このようなポッドキャストがもっと必要だと思います。私はDavidを長い間フォローしていて、価値観などの面で合っていることを知っていました。そしてJuliaとは、ここ数ヶ月、あるDiscordチャンネルでのランダムな通話で出会ったばかりです。
Davidさん、ここに招いてくれてありがとうございます。そしてオープンソースと分散型AIの声となってくれてありがとうございます。サンフランシスコなどからの、より中央集権的なAIアプローチに焦点を当てたAIポッドキャストは多くあります。それも素晴らしいことで、そのようなポッドキャストも必要です。
しかし、おそらくオープンソースと分散型AIは少し過小代表されているので、この機会をいただき、ありがとうございます。これからもポッドキャストと、あなた方が招く素晴らしいゲストの話を聞くのを楽しみにしています。
これは締めくくるのに素晴らしい方法ですね。ポッドキャストを購読してください。Richardさんの話を聞いていただき、ありがとうございました。素晴らしい話でした。

E7: AIエージェントの未来：Richard Blythmanとともに考えるAIのためのインターネット構築

いいなと思ったら応援しよう！