見出し画像

複雑なマルチエージェント構成のコーディング?! Anthropic、Pydantic、TogetherAI

5,380 文字

コミュニティの皆さん、マルチエージェントのコーディングを学び始めるには今が最高の時期です。今日は、AnthropicとPydantic AI、そしてTogether AIの助けを借りて、最も簡単なソリューションをご紹介します。わずか数秒でマルチ構成を構築できるので、一緒に見ていきましょう。
これは12月19日に始まりました。3週間以上前のことですが、Anthropicが素晴らしかったのは、彼らがクライアントのためにAIエージェントを構築する方法を学んだことを、ここで私たちと共有してくれたことです。その知識はGitHubのAnthropicクックブックにもコード化されており、そこにはマルチLLMワークフローの構築方法を示すPythonノートブックがあります。プロンプトトレーニング、並列化、ルーティングなど、すべてが無料で利用可能です。
Anthropicは、並列化のような複数のワークフロー特化型を示してくれました。ユーザークエリを分割して複数のLLMで並列実行し、アグリゲーターLLMでまとめるという、シンプルなマルチエージェント構成が可能です。
もちろん、彼らは素晴らしい要約も提供してくれており、エージェント設計の単純さを維持すること、すべてのマルチエージェントの計画ステップとその依存関係を明示的に示すことで透明性を優先すること、そしてドキュメントとテストを使ってエージェントのコンピュータインターフェースとツールの使用を慎重に設計することなどのアドバイスもしています。
このAnthropicクックブックは、彼らの凝縮された知識と専門性が詰まった素晴らしい出発点ですが、今日ではさらに簡単になっています。Together AIという会社が素晴らしいインタラクティブなデモを構築してくれたからです。
Together AIは、AIアクセラレーションクラウドコンピューティングサービス会社で、Anthropicをベースに、私たちオープンソースコミュニティのために素晴らしい無料リソースを提供してくれています。GitHubのTogetherクックブックには、2日前に更新されたばかりのMITライセンスの新しいコンテンツがあります。
並列マルチエージェントワークフローの例を見てみると、Jupyter NotebookやPythonノートブックで利用できる美しい導入部があり、何をしているのかが説明されています。コードセクションでは、セットアップやユーティリティが正確に示されています。素晴らしいのは、彼らがPydanticを採用していることです。
Pydanticについてよく知らない方のために、「Pydantic AI - 新しい安全なAIエージェントの作り方」という50分の動画があります。これは私が本当に気に入っている最新の開発の1つです。動画の右側にはこのビデオで扱うコード例があり、各ステップが完璧に説明されています。
さらに45分前に、Pydantic AIに新しい機能が追加されていることを発見しました。Pydantic AIエージェントとマルチエージェントワークフローを定義できるだけでなく、Pydantic Graphという新しいPythonライブラリを使用したグラフベースの制御フローが可能になりました。これは、ノードとエッジがタイプピンを使用して定義される非同期グラフおよびステートマシンライブラリです。
ただし注意が必要です。これはまだベータ版なので、初心者が最初に取り組むべきものではありません。少し上級者向けの新しい機能です。Pydantic Graphライブラリは、グラフを使用した独自の制御フローを作成できる機能も提供しており、人間の入力を待つマルチエージェント構成システムなどで活用できます。
さて、2つや3つのエージェントのネットワークを構築したい場合でも、AIエージェントの社会を構築したい場合でも、特定のユースケースに応じたマルチエージェント構成に対処する必要があります。これらの構成の実装は非常に具体的ですが、助けを得る方法はあるでしょうか?
もちろんあります。www.jenic-recipes.comという素晴らしい新しいホームページがあり、並列化を含む多くの可能性のあるマルチシステム構成を提供しています。1つのLLM、2つのLLM、3つのLLM、そしてアグリゲーターLLMがあり、特定のユースケースをどのように構築するかを示しています。
ルーティングでは、ルーターと呼ばれるLLMがあり、これは別の構成です。また、従来の方法では、オーケストレーター(ボスエージェント)があり、以前は「ワーカーエージェント」と呼ばれていた1、2、3、4のエージェントがあり、シンサイザーがすべてをまとめて結果を出します。
プロンプトチェーニングのエージェントも説明されており、評価最適化システムまであります。特筆すべきは、コードだけでなく、インタラクティブで即座に試すことができることです。
並列化構成を例に取ると、3つのワーカーとアグリゲーターLLMがあります。概要と5つのユースケースが提供されており、この方法論が適切な場合を正確に知ることができます。特定の仕事がある場合は、ユースケースを確認し、必要なものが見つかれば、構成とヘルパーを含む完全なコード例があります。
Together AIは、この学習デモのために彼らのクラウドコンピューティングインフラストラクチャを無料で提供してくれています。並列化の使用方法とコードの使い方に興味がある場合、プロンプトチェーニングも同様に、概要、ユースケース、完全なコード例、すべての依存関係が自動的にインストールされます。実行をクリックするだけで、何が起こっているのかを正確に確認できます。
複数のエージェントが通信する場合、完全な結果が表示されます。ルーティング、オーケストレーター・ワーカー(ボスLLM、ワーカーLLM、シンサイザーLLM)がどのように連携するか、オーケストレータープロンプトの仕組みなど、すべてが分かります。これは、このビデオの冒頭で紹介したAntropic AIの経験と知識に基づいています。
すべてが統合され、これが今やあなたのためのインタラクティブな学習プラットフォームとなっています。AIエージェントについて学び始めるなら、これ以上簡単な方法はないでしょう。私はこれを昨日発見し、学習リソースとしてお見せしなければならないと思いました。
オーケストレーター・ワーカー構成を例に取ると、完全なノートブックとTogetherクックブックのエージェント、並列サブタスクエージェントワークフローのPythonノートブックなど、すべてのコードが利用可能です。
素晴らしいのは、このインタラクティブな学習で、実際にコードを実行できることです。ローカルマシンやクラウドマシンに行く必要はなく、すぐに理解するために必要なものがすべて揃っています。
実際の例を見てみましょう。理論だけでなく、実際のデモを見たい方もいるでしょう。マルチエージェントの並列化構成のデモ例を見てみましょう。
ジャンとアダが農場からリンゴを摘みました。シェルは母親の半分のリンゴを摘みました。母親が20個のリンゴを摘んだ場合、二人は合計で何個のリンゴを摘んだでしょうか?
この問題に最低5つのAIエージェントが必要だと思うかもしれません。これはデモンストレーションなので、3つのエージェントで解決できるというコメントは控えてください。これはリファレンスモデルのデモです。Microsoft、Google、その他の企業のモデルがあります。
LLM1、LLM2、LLM3、LLM4というリファレンスモデルがあり、もちろんアグリゲーターモデルも必要です。彼らはDeepSeekのバージョン3を選び、完全な知識をまとめて最終的な回答を生成します。
アグリゲーターLLMのエージェントのプロンプトまで提供してくれています。システムプロンプトには、「最新のユーザークエリに対する様々なオープンソースモデルからの回答セットが提供されています。あなたの任務は、これらの回答を1つの高品質な回答に統合することです。これらの回答の中には偏りがあったり、誤りがあったりする可能性があることを認識し、情報を批判的に評価することが重要です。
したがって、あなたの回答は1から4までの与えられた回答を単に複製するのではなく、指示に対する洗練された、正確で包括的な返答を提供する必要があります。あなたの回答が適切に構造化され、一貫性があり、最高水準の正確性と信頼性を維持していることを確認してください。」
とても簡単で、すべてが既に用意されています。並列化構成のマルチエージェントのライブデモを始めましょう。
この構成は、個別の独立したタスクに分割できるタスクを活用します。ユーザープロンプトは複数のLLMに同時に渡され、すべてのLLMが応答すると、それらの回答は最終的な回答を集約するために呼び出される最終LLMに送られます。これがアグリゲーターLLMです。
具体的なユースケースも提供されており、コード例を見てみましょう。Pythonのヘルパーがありますが、もちろん並列化が興味深いところです。Together AIのプラットフォームには、4つのリファレンスモデルインストラクターが事前にインストールされており、もちろんDeepSeekのアグリゲーターLLMもあります。プロンプトとメイン部分、そして使用するものすべてが美しく配置されています。
実行ボタンを押すだけで結果が表示されます。5つのLLMからの応答があり、中間応答1、2、3、4があり、最終回答が始まります。これらの複雑な問題を解決するために、どのように生成されるかの相互作用が見られ、最終的な答え「ジェンナと母親は合計30個のリンゴを摘んだ」が得られます。
Together AIに感謝します。プロンプトチェーニング、ルーティング、オーケストレーター(ボスLLMがある場合)、評価最適化のための無料デモを提供してくれました。
近日公開予定の自律エージェントにも興味があります。特にPydantic Graphと組み合わせると面白くなりそうです。
2025年現在、これらの企業は、サービスを売りたい場合(彼らは営利企業だと思います)、完全なコードを提供し、多くの可能性のあるマルチエージェント構成があることを示し、各構成の実験用コードを提供することを理解しています。
もちろん、彼らは(このビデオはスポンサーではありませんが)あなたが彼らのプラットフォームを使用することを期待しています。しかし、コミュニティにも無料でサービスを提供している企業が好きです。なぜなら、彼らのコードを使用して、別のプラットフォームやローカルのGPUインフラストラクチャでこのコードを他のマシンに移植するアイデアを見つけることができるからです。それほど難しくありません。
これらの企業は、コードを無料で提供し、その後、ハードウェアサービス(H100や新しいNVIDIA GPUなど)のレンタルを販売したいと考えています。素晴らしいアイデアですが、これは何を意味するのでしょうか。
これは、コード自体の価値が低下していることを意味します。なぜなら、これらの企業はすべて、現時点で利用可能な最高のコードをクライアントや顧客に無料で提供しているからです。彼らは、コードが彼らのプラットフォームへの入り口であることを理解しています。
コードを見ると、すべての安全ガイドレールが実装された完璧な本番コードではありませんが、これを理解し、小規模および中規模企業やスタートアップで、これが会社の中心的な焦点ではなく、単なる機能として必要な場合、プラットフォーム上でマルチエージェントを使用することは信じられないほど簡単です。
商業モデルで考えると、彼らが販売しているのはインフラストラクチャであり、コードは無料で提供されています。
2025年1月半ばの今日、マルチエージェントのコーディングをしたい場合、これ以上簡単なことはありません。多くの無料の構成システムテンプレートが提供され、Pydantic AIという本当に安全なエージェント運用フレームワークがあり、ハードウェアサービスに顧客を引き付けるためにサービスを提供する必要があることを理解している企業があります。
非常に興味深い組み合わせであり、もちろんAnthropicには、彼らが数ヶ月、数年かけて蓄積してきたクライアントとの知識、洞察、専門性を提供してくれたことに感謝します。そのおかげで、オープンソースコミュニティの私たちでも、より小規模な言語モデルに興味を持っているかもしれませんし、ローカルマシンでの実装を選択するかもしれませんが、開発者として、または会社として必要なマルチエージェンシーを構築する上で、何の制約もありません。
もし興味深いと感じ、今日何か新しいことを学んだと思われたなら、チャンネルを購読してみてはいかがでしょうか。次回のビデオの内容は、きっと信じられないものになるでしょう。

いいなと思ったら応援しよう!