
「AIエージェントに私の仕事をさせる方法」- アルセニー・シャトーキン
16,845 文字
自分の生活に合わせてAIエージェントをカスタマイズする時、最大の効果が得られます。生活の各領域で、それぞれの役割に合わせてエージェントを作成してみてください。今日のAIエージェント分野で多くのSaaS製品が、製品市場適合性もないのに即座に2000万から3000万ドルの資金調達をしているのとは違い、それらのプラットフォームはAIエージェントのコンセプトを間違って理解していると私は考えています。
これはアルセニーです。彼はAIエージェント分野の第一人者の一人で、チームと共にあらゆる規模の企業向けに数百のAIエージェントを構築してきました。このインタビューでは、AIエージェントを使った業務の自動化方法や、2025年がAIで多くの百万長者を生み出す理由、そしてその一人になる方法について話し合います。また、AGI(汎用人工知能)とその準備方法についても触れていきます。
本気でAIに取り組みたい方、AGIの革命を見逃したくない方は、最後までご覧ください。これはデイビッド・アンドレのポッドキャストです。お楽しみください。
あなたは数百のAIエージェントを自身で構築されていますが、エージェントは世界をどのように変えると思いますか?
エージェントは私たちの働き方を根本的に変えるでしょう。自分が本当に楽しめて、優れている仕事に集中できるよう、時間の管理と集中力を取り戻すことができるようになります。
具体的に2025年に焦点を当てましょう。年が明けたばかりですが、先月は特に凄まじい進展がありました。特にOpenAIがo3をリリースしましたよね。全体的に進歩のスピードが加速していますが、2025年のAIエージェントについてどのような予測をお持ちですか?
2025年のAIエージェントの最大のトレンドは、垂直型AIエージェントになると思います。この件については私のチャンネルで大きな動画を準備しています。
垂直型AIエージェントについて説明していただけますか?
垂直型AIエージェントとは、特定のニッチや用途に合わせてカスタマイズされたエージェントです。これらのエージェントは、その特定の役割や機能のために事前にトレーニングされています。つまり、垂直型エージェントを使用する際は、ゼロからスタートするのではなく、そのエージェントを採用して、通常は数回のオンボーディングステップを経れば、すぐにビジネスで活用できるということです。
進歩のスピードが上がっている中で、人々はエージェントの構築をどのように考えるべきでしょうか? モデルが2倍賢くなるような可能性を考慮すべきでしょうか? タイムラインが短縮されているのを見てきましたからね。
いい質問ですね。サム・アルトマンが言ったように、モデルは確実に改善し続けることを前提に製品を作る必要があります。長期的な成功を収めたい場合は、モデルがますます賢くなっていくことを見据えて製品を設計する必要があります。
多くの人々はまだAIエージェントが何なのかよく理解していません。単純なツール...まあCHATGPTは単純とは言えませんが、そういったAIツールと自動化、そしてAIエージェントの違いを説明していただけますか?
本質的な違いは自律性にあります。エージェントと自動化の違いは、自動化があらかじめコード化されているのに対し、エージェントではすべてのステップやプロセスの展開を予測することができないという点です。AIツールについては、エージェントと自動化の中間に位置すると言えます。例えばあなたのスタートアップのVectalのような場合、特定の目的のための自律性は持っていますが、それは限定的です。
スタートアップについて触れましたが、あなた自身も起業されていますよね。その詳細を教えていただけますか?
はい、私たちは私のフレームワークであるAgency Swarmの上に、プラットフォームを構築しています。最初の真のAIエージェントビルダーを目指しています。現在、エージェンティックなプラットフォームを構築しようという試みは多くありましたが、それらのプラットフォームは全て、私の意見では、AIエージェントのコンセプトを間違って理解していると思います。その多くは2022年から2023年にかけて構築され、当初はチャットボットを作っていましたが、ある日エージェントがトレンドになると、突然エージェントを構築し始めました。それは正しいアプローチではありません。本物のエージェントを構築するためには、インターフェースを異なる方法で構築する必要があります。これが私たちが修正しようとしている点です。
つまり、人々がエージェントを構築できるシンプルなUIを作ろうとしているが、多くのフレームワークのように、隠されたシステムプロンプトなどで制限することは避けたいということですね?
その通りです。前述の通り、エージェンティックなプラットフォームにはプロセスビルダーを組み込むべきではありません。本物のエージェンティックビルダーでは、エージェントと知識、指示、ツールを組み合わせるだけで、エージェントが自らプロセスを実行する方法を決定します。
つまり、エージェントにはより多くの自由度、より多くの主体性があり、エージェントを作成した人が予測していない問題も解決できるということですね?
はい、誰かが間違った値を入力しても、つまずくことはありません。
これを見ている人がエージェントに取り組みたいと思った場合、最初に何をすべきでしょうか?
まず最初に、自分自身の用途に合わせてエージェントを構築することをお勧めします。MakeやZapierのようなツールでは自動化できなかった、生活の中の問題を見つけ、それに対してエージェントを構築してください。これにより、エージェントの実際の動作について経験を積むことができ、同時にもちろん、あなた自身にも大きな価値をもたらすことができます。
具体的に説明しましょう。例えば、最初のエージェントを構築しようと決心した人が、3時間の時間がある場合、何をすべきでしょうか? Cursorをダウンロードして、あなたのフレームワークを使うことをお勧めしますか?
はい、フレームワークを使ってコードでエージェントを構築することは有用ですが、次に何をしたいかによって変わってきます。単に実験段階で、AIエージェンシーを立ち上げたり、他のクライアントのためにエージェントを構築する予定がないのであれば、それが最適なアプローチではないかもしれません。
エージェントの最大の課題の一つは、構築の難しさ、シンプルなUIの欠如だと1年以上前から言ってきましたが、あなたはSaaSでそれを解決しようとしていますよね。その背景とビジョンについてもう少し詳しく教えていただけますか?
はい、私たちのSaaS製品は、私たちの経験とフィードバックから構築されています。今日のエージェント分野の多くのSaaS製品が、単にアイデアを思いつき、製品市場適合性もないのに即座に2000万から3000万ドルの資金調達をしているのとは違い、私たちは実際に自分たち自身のためにこのプラットフォームを構築しています。私たちは世界中の企業向けにエージェントを構築する、エージェントアズアサービスのサブスクリプションを開始した最初の企業の一つでした。主に私のフレームワークを使用してエージェントを構築していましたが、2-3日でエージェントを構築しても、それをクライアントのビジネスにデプロイするのにさらに3日かかっていました。他に使用できるフレームワークやプラットフォームがなかったため、現在、フレームワークの周りにこのプラットフォームを構築し、エージェントをより迅速にデプロイできるようにしています。
これが、人々がAIを真剣に取り組むべきもう一つの理由ですね。プロンプトエンジニアリングの基礎を学び、実践的に取り組み、AIを理解する必要があります。なぜなら、ビジネスがエージェントを実装したいと考えても、構築方法を知らないという機会が多くあるからです。シンプルなUIビルダーツールでさえ、完全にリリースされた後、最初の100人程度が本当にマスターすれば、ビジネスに実装するだけで数千ドルを稼ぐことができると保証します。
それは実際に私たちの目標の一つです。私たちのプラットフォーム上にのみ構築され、エージェントのみを雇用し、年間100万ドルを生み出すビジネスを見たいと考えています。それは十分に可能だと思います。
それは十分に可能だと思いますし、100万ドルよりもはるかに多くを生み出すことも可能だと思います。では、誰かがこの機会を本当に理解したとしましょう。このポッドキャストを聴いて、エージェントが未来だと理解したとして、彼らはどうすべきでしょうか? エージェンシーを始めるべきでしょうか? 自分のビジネスで販売しようとすべきでしょうか? CEOを説得しようとすべきでしょうか? どのようにしてこれを収益化すべきでしょうか?
今いる場所によって変わってきます。9-5の仕事をしているなら、まずは仕事での個人的なタスクを自動化するのがベストでしょう。そして、エージェンシーを始めたり、フリーランスとして他のビジネスにサービスを提供する機会があれば、それは現在、はるかに大きな可能性を持っていると思います。
後者の場合、クライアントを見つけることをお勧めします。通常、AIソリューションを必要としている人を既に知っているはずです。なぜなら、私は今後数年以内に、全てのビジネスがAIビジネスになると信じているからです。そうでなければ、単に廃業することになるでしょう。
したがって、AIを他のビジネスに統合できる人材への需要は間違いなく大きいでしょう。ビジネスオーナーを見つけてください。通常、前述の通り、既に知っている人です。そして、AIエージェントを使って彼らの標準業務手順の一部を自動化するソリューションを作成してみてください。これにより、AIを始めるだけでなく、将来的にこれをフルタイムの仕事にすることもできます。
このために必要なスキルはどのようなものでしょうか? 7年の経験を持つエキスパートプログラマーである必要がありますか? それとも、ほとんど知識がなくても、ChatGPTを使って学び始めることができますか?
絶対にコーディングを知る必要はありません。AIコーディングツールを使うだけで始めることができます。私のYouTubeチャンネルの最新の動画で、実際にCursorエージェントを使用して、コードを見ることなくエージェントを構築する方法を紹介しました。
したがって、コーディングを学ぶ必要は全くありません。必要なのは好奇心だけです。オンラインには多くのリソースがあり、YouTubeにもこれらのツールを始めるための多くのチュートリアルがあります。
つまり、本当に必要なのは、新しいことを学ぶ能力と、不快感に耐える能力だけですね。多くの人が最初の障壁で立ち止まってしまいますが、必要なのは画面のスクリーンショットを撮り、それをChatGPT、Perplexity、Claudeに貼り付けて、「これをどう解決すればいいですか?」と聞くことだけです。
そうですね。好奇心は、今後発展できる最も重要な特性の一つになると思います。これは特に、私たちのエージェンシーで人を雇用する際に注目する点です。なぜなら、非常に速く適応する必要があるからです。AIは急速に発展しており、基本的に3ヶ月ごとに全てが変化します。例えば、OpenAI o3モデルのように。次に何が来るのか誰も知りません。だからこそ、非常に速く学び、知識を応用できる必要があるのです。
確かにそうですね。では、具体的に、これまでに見た中で最も優れたAIエージェントのユースケースをいくつか教えていただけますか?
現在、マーケティングエージェンシーで素晴らしい成果を上げています。彼らのビジネス全体が本質的にデータを中心に構築されているからです。以前のキャンペーンのパフォーマンスに基づいてキャンペーンを実施し、ほぼ毎日分析する必要があります。これはまさにエージェントが得意とする分野です。データから洞察を抽出することが非常に得意です。エージェントを採用し、クライアントの全ての内部データベースに接続するだけで、以前なら何時間もかかっていた洞察を即座に生成できるようになります。
しかし、それだけではありません。このエージェントを他のAPIに接続することもできます。例えば、そのエージェンシーがFacebookの広告を運用している場合、エージェントをFacebook広告に接続できます。ここで更に強力になります。エージェントはデータから洞察を抽出するだけでなく、あなたの代わりにアクションを取ることができるからです。フィードバックループを閉じるので、エージェントは継続的にキャンペーンを実行、分析、改善することができ、あなたは何もする必要がありません。
つまり、より多くのコンテキストを提供できれば、それだけAIツールは優れた結果を出せるということですね。
その通りです。より多くのコンテキスト、より多くのデータを持っているほど、より良い結果が得られます。
オープンソースについてはどうお考えですか? 価格設定の面で非常に効率的なDeepSpeed V3などについて、どのようにお考えですか?
多くの人が驚くかもしれませんが、私たちは実際にこれまで一度もクライアントにオープンソースモデルを使用したことがありません。理由は開発者体験です。
OpenAIでは、開発者体験が他のオープンソースモデルと比べて格段に優れています。オープンソースモデルを実行するには、通常多くのセットアップが必要です。OpenAIの場合、使用したトークンに対してのみ支払いが発生し、それ以外の費用はかかりません。しかし、オープンソースモデルをデプロイする場合、モデルがサーバー上で実行されている時間に対して支払いが発生します。つまり、サーバーに対して支払いが必要で、通常そのプロセスには多くの非効率性が含まれます。
スケーリングも非常に困難です。通常、コールドスタートが発生するか、アイドル状態でも支払いが必要になります。これは課題であり、私たちが常にOpenAIを選択する理由です。多くの時間と労力を節約できるからです。
これはエージェントの構築に関してですが、一般的にはどうでしょうか? オープンソースを信じていますか? オープンソースが危険だと思いますか? それとも、クローズドなAIシステムの方がより危険だと思いますか? オープンソースに対する一般的な考えを聞かせてください。
確かにオープンソースには適切な役割があると思います。多くの企業がデータプライバシーに非常に敏感だからです。そういったクライアントに対しては、通常Azureを使用します。
AzureのOpenAIでは、OpenAI自体とデータを共有する必要がありません。すべてが自分のAzure環境内に留まります。つまり、基本的には他のオープンソースモデルをAzure上で実行するのと同じです。
しかし、オープンソースが役割を果たすのは、企業との関係においてだと思います。企業は自社のデータの共有について非常に慎重で、多くの企業はOpenAIエンタープライズ(数百万ドルする)を購入したくありません。そのため、彼らにとってはオープンソースモデルをデプロイすることが理にかなっています。
また、トラフィックがはるかに多いため、モデルは常に実行され続けることになり、アイドル時間に対する支払いもそれほど発生しません。そして明らかに、彼らは既に自前のインフラを持っているため、管理も容易です。
したがって、企業にとってはオープンソースが確実に理にかなっていると思います。しかし、SMB向けに開発している開発者であれば、どのモデルを使用するかは全く重要ではありません。私たちは主にSMBと仕事をしていますが、どのモデルを使用しているかを気にする経営者は一人も見たことがありません。
ローカルなオープンソースモデルについては、多くの偽りのような、いや偽りというわけではありませんが、多くの人々が過大評価していると思います。特に最新のMacBookを持っていない場合です。「ローカルでモデルを実行したい」と言いますが、8ビリオンや13ビリオンのモデルしか実行できないことに気付き、ChatGPTやClaudeと比較すると、それは完全に異なります。
人々はプライバシーという感覚、自分のマシンで実行されているという感覚を持ちたがりますが、それは魅力的に聞こえます。しかし、最新のモデルと、平均的なラップトップやコンピュータで実行できるものとの違いを本当に過小評価していると思います。
そうですね。もしコストが問題なら、o1 miniは無料ですし、GPT-4も以前のGPT-4と比べて6倍も安くなっています。これは私たちのソリューションにとって大きな後押しとなりました。なぜなら、以前は財政的に意味がなかったかもしれない低レベルのユースケースも扱えるようになったからです。
実際、最近Microsoftの論文でモデルのサイズを逆解析したものを見ましたが、GPT-4が70ビリオンと推定されていましたね。ご覧になりましたか?
はい、私も見ました。70Bモデルだという噂があります。もしそうなら、私はOpenAIに意識的にこの賭けをしているので、楽しみです。
そうですね。サム・アルトマンはo3 miniが1月末にリリースされると言いましたが、今は1月初めなので、3-4週間で手に入る可能性があるというのは凄いことですね。o1よりも賢いモデルが、ほんの一部のコストで、無限に速いスピードで利用できるということは、人々が想像もできないような、全く新しい製品の波を生み出すと思います。
そうですね。すでに全く新しい製品の波を目にしています。私たちにとってコストはもはや問題ではありません。GPT-4でさえ、以前のGPT-4でも、ほとんどのユースケースで正当化できたと思います。
通常、人を雇用する方がはるかにコストがかかるからです。例えば、アメリカの平均的な開発者は、全ての福利厚生を含めると月15,000ドルかかります。現在の開発者の生産性を少なくとも20%向上させることができれば、それほど多くの人を必要としないかもしれません。
ただし、ここで付け加えたいのは、これまでの経験では、チームが効率的になってもコーディングモデルのサイズ会社は必ずしも人員を削減するわけではないということです。むしろ、人員を削減したり、新規採用を控えるのではなく、どのようにしてより大きくスケールできるかを考えます。
実際、これは次に触れたかった点です。なぜAIエージェントを従業員と比較することを好まないのでしょうか?
通常、従業員が必要とする数よりもはるかに多くのエージェントが必要だからです。少なくとも現状ではそうです。一人の従業員が簡単に処理できるSOPを自動化しようとする場合、通常、中程度に複雑なSOPであっても、少なくとも3-4個のエージェントが必要です。
一方で、一人の従業員は、そのSOPだけでなく、他の多くのSOPも一人で処理することができます。o3でそれは変わると思いますか?
o3では必ずしも変わるとは限りません。o4では...たぶん、分かりませんが、どのように発展していくか確信が持てません。推論モデルでは、処理できるSOPの数ではなく、それらをどのように処理できるかが異なります。
たぶんGPT-5で変わると思いますが、推論モデルは少し異なります。推論モデルは、物事を実装するというよりも、むしろ何をすべきかを教えてくれます。SOPを自動化する場合、基本的にモデルに目標と達成すべきことを正確に伝え、結果を評価するだけです。
一方、推論モデルでは新しい可能性が開かれます。モデル自体が何をすべきか教えてくれるという新しいユースケースです。SOPさえ必要ありません。ビジネスを見渡し、全てのデータを分析して、何をすべきかを教えてくれます。そして、あなたが確認すれば、他の小さなエージェントにタスクを割り当て、実際にそのタスクを実行するためのSOPや指示として送ることができます。
GPT-5について触れましたが、GPT-5は本当に登場すると思いますか? OpenAIの12日間の間、GPT-4.5に関する多くの憶測がありましたが、実際には新しい通常のLLMはリリースされず、代わりにo3が発表されました。GPT-5を見ることはあるのでしょうか? それともo3、o4、o5になるのでしょうか?
エージェントの観点から見ると、推論モデルと実装モデルの両方が必要だと思います。推論モデルは、実際の組織と同じように、CEOやマネージャーのエージェントです。一方、GPT-4やGPT-5は実装モデルです。すでに何をすべきか分かっていて、実際にそれを完了する必要がある場合に必要なモデルです。
その点について触れていただいて良かったです。昨日少し話したように、基本的に全ての人が自分のエージェントチームを持てるようになりますよね。CEOのように考える必要があります。自動化したいタスクについて、人々はどのように考え始めるべきでしょうか? 1年後の生活がどのようになるかについて、お考えを聞かせていただけますか?
自分の生活の異なる領域、責任を持っている分野を考えてみてください。例えば、私の場合、YouTubeのコンテンツ、開発、チームのリーダーシップなどがあります。それぞれの役割に対してエージェントを作成してみてください。
これは基本的に企業との仕事でも同じアプローチを取っています。まず各部門に特化したエージェントを作成し、必要であれば管理者エージェントでそれらを組み合わせることができます。生活の各部分を、会社の部門のように個別に見てください。
そして、ここにどのエージェントを実装できるかを考えます。おそらく、最も速く、最も影響力のある組み合わせから始めるのがいいでしょう。
自分の個人生活も、他のビジネスを自動化するのと同じように自動化できると思います。例えば、o4が現在月20,000ドルかかる質の高いEA(エグゼクティブアシスタント)の仕事をできるようになったら、それは凄いことになると思います。
ChatGPT PlusやChatGPT Proのサブスクリプションを支払っている全ての人が、そのレベルのAIエージェントを持てるようになるかもしれませんね。
しかし、AIエージェントの本当の魔法は、自分の個人データと組み合わせたとき、自分の洞察と組み合わせたとき、自分の生活や特定のプロセスに合わせてカスタマイズしたときに起こると思います。そこで最大の投資収益率が得られます。
そうですね。だからこそ、人々はClaude projectsやカスタムGPTを使う必要があります。コンテンツの作り方、開発の進め方、カレンダーのスケジュール方法など、少しでもコンテキストを追加するだけで大きな違いが生まれます。
多くの人々がChatGPTを2-3回使っただけで、そんなに使い道がないと感じてしまう理由は、まず第一にプロンプトが酷かったということですが、第二に必要なコンテキストを与えなかったからです。
どんなタスクを行っているのか、それに関連する重要なことは何か、自分が知っていることは何か、どのような形にすべきか、どのような形にすべきでなないかを伝えませんでした。ただランダムなメールを貼り付けて「返信して」と言えば、おそらくトーンが間違っていたり、あまりにもAIっぽくなったり、あなたなら決して言わないような気の利かない表現が含まれたりするでしょう。しかし、複数の例を与え、「小文字で書いて」とか「Delという単語は使わないで」といった指示を出せば、多くのことを伝えることができ、より多くのコンテキストを与えるほど指数関数的に良くなっていきます。もちろん、無駄な情報で混乱させたくはありませんが。
これは基本的にプロンプトエンジニアリングの基礎ですね。
プロンプトエンジニアリングは2025年も大きな存在感を示すと思います。2025年は実際にプロンプトエンジニアリングにとって最大の年になるかもしれません。なぜなら、現在エージェントは本当の意味で自己改善できず、自分でプロンプトを生成することもできませんが、モデルが非常に強力になってきており、エージェントにとって一つ一つの言葉が大きな影響を持つようになっているからです。
だから今や、それは実際のポジションとなっています。プロンプトに取り組めば、ChatGPTに生成させるよりもはるかに良い結果を得ることができます。
面白いですね。2023年末、GPTのリリース後にサム・アルトマンのインタビューを見ていたら、彼は「プロンプトエンジニアリングは1年後には存在しないだろう」と言っていましたが。
そうですね。2023年末のことでしたが、今は2025年で、あなたが言ったように、プロンプトエンジニアリングはこれまで以上に重要になっています。AIカンパニーを運営している人々でさえ、何が起こるか予測できないということを示していて、これは完全に異なるものだということのヒントになるはずですね。
エージェントの自己改善は課題です。いずれエージェントは自己改善し、自分でプロンプトを書けるようになると思いますが、少なくとも出発点は提供する必要があります。そして、出発点が良ければ良いほど、より多くの時間とトークンを節約できます。
私は彼が意味したのはそういうことだと思います。AIツールやAIモデルは、プロンプトが非常に混乱していても、あなたが意味したことを推論できるほど強力になるでしょう。ただし、Neuralinkが登場するまでは脳を読むことはできませんから、近い将来でも、最初のステップ、最初のアイデア、最初の推進力は与える必要があります。
たとえo5であっても、完全に混乱させてしまえば、本当に正確に助けることはできないと思います。
そうですね。モデルはできる限り多くのことを理解する必要があります。なぜなら、既製のモデルを取って、単にビジネスに組み込むだけなら、他の誰もが同じことができるということになり、そうなると競争優位性を提供できません。
これは実際に、垂直型AIエージェントの概念につながります。2025年の最大の機会の一つは、あなたが多くの経験を持つ特定のニッチ向けにこのようなものを構築することだと言いましたが、それは何なのか、もしゼロから始めるとしたらどのようにすべきなのか説明していただけますか?
まず第一に、ターゲットとなる顧客とその問題を本当によく理解する必要があります。そして、テンプレート化する必要があります。基本的に、異なるビジネス間で異なる特定の部分だけをカスタマイズします。本質的に、垂直型エージェントはテンプレートです。それが私の考え方です。
つまり、重要なのは、ニッチを深く知ること、そしてエージェントを実装しようとしているプロセスを深く知ることです。なぜなら、自分でステップを実行する方法を知らなければ、それが得意なエージェントを構築するのは非常に難しいからです。
例えば、ビデオ編集を自動化しようとしても、自分が良いビデオ編集者でなければ、チャンスはありませんよね。
その通りです。自動化しようとしている役割を理解する必要があります。
プロンプトエンジニアリングについて、いくつかのアドバイスをいただけますか? AIを始めたばかりの人は皆、自分は上手いと思っていますが、実際は下手です。個人的には、既に20ヶ月ほどAIに携わっていますが、毎月上達していると感じています。完全な初心者にはどんなアドバイスがありますか?
プロンプトエンジニアリングの良いヒントは、実はAIを使ってプロンプトを書かないことです。AIに過度に依存するのは非常に簡単ですが、コンテキストを持たないAIを使えば、そのコンテキストを持つプロンプトを生成することはできません。
プロンプトはゼロから始めることをお勧めします。テンプレートに従い、数回テストした後で、AIを使用してみて改善するかどうかを確認することはできます。ただし、ChatGPTでプロンプトについて...つまり、ChatGPTにプロンプトを生成させるところから始めるのは、うまくいきません。
これは、人々が本当に手を動かして、各単語でどのように変化するかを理解する必要がある分野の一つですね。同じ文でも、中間に置くか最後に置くかで大きな違いがあります。通常、最後の文により強く反応するからです。
その通りです。つまり、これらのAIツールで何百時間も過ごして、このことを理解する必要があります。
前述の通り、プロンプトエンジニアリングはますます実際の仕事になってきています。すでに実際の仕事だと思います。ただ、全ての企業がそれを認識しているわけではありません。
エッセイやブログ記事を書くのと同じようにアプローチする必要があります。意識的にアプローチすべきです。実際に、一つ一つの単語、一つ一つの文章を見て、それがエージェントのパフォーマンスにどのように反映されているかを確認する必要があります。
Agency Swormについて触れましたが、理解していない人のために、Agency SwormとあなたのSaaSの関係を説明していただけますか?
Agency Swormは私たちのコアフレームワークで、永久にオープンソースとして残ります。このフレームワークには、私たちのSaaS製品のすべてのコア機能が含まれており、これも永久に続きます。
このフレームワークを使ってエージェントを構築することができます。SaaS製品で構築するのと同じように構築できますが、SaaS製品を使えばより速く構築でき、エージェントを自分で管理する必要がありません。なぜなら、エージェントを構築することと、デプロイすることは全く異なる話だからです。
通常、エージェントの構築よりもデプロイの方が楽しくありません。デプロイには更に多くの作業が必要で、非常に退屈な作業です。また、Craiとは異なり、データを収集することもありません。多くの他のフレームワークのように匿名データを収集することもありません。完全にあなたのソリューションとなります。
他のエージェントフレームワークについて触れましたが、Craiは恐らく最も有名なものの一つですね。データを収集しないことは、Agency Swormを使用する利点の一つに過ぎません。他の利点は何でしょうか?
Agency Swormを使用する最大の利点は、システムを完全にコントロールできることです。全てのプロンプト、全てのパラメータをハードコードしない唯一のフレームワークです。
Agency Swormは恐らく最も軽量なフレームワークで、ツールのためのOpenAI以外には何にも依存していません。一方、CraiはLangchainの上に構築されており、そのため多くの追加的なプロンプトがあり、それらなしではフレームワークは機能しません。
それだけでなく、Langchainのために、自分のニーズに合わせてカスタマイズすることもできません。通常、プロダクションに入ると、多くの抽象化があるため、思うように制御できないことに気付きます。何かを変更する必要がある場合、その抽象化の深いところにあり、基礎となるコードにアクセスできないため、単にできないのです。
その多くは、自分の問題を解決するために構築したからだと思います。多くのクールなサイドプロジェクトのように、「今トレンドなのは何だろう? AIエージェントだ。自分のAIフレームワークを作ろう」というのとは違い、実際のクライアントと実際のビジネスがあり、そのためのソリューションが必要だったのですね。
その通りです。私たちは、資金調達の手段や研究実験として構築されなかった唯一のフレームワークだと思います。まず自分たちのために構築し、それからオープンソース化しました。
一方、Craiは最初から資金調達ラウンドを目指していました。実際に自分たちのために構築したということが、大きな違いを生みます。
また、私たちはAssistants APIの上に構築しました。多くのフレームワーク、例えばLangchainは、関数呼び出しモデルが存在する前に構築されました。一方、私たちは本当に「這い、歩き、走り、飛ぶ」というアプローチを取りました。
OpenAIがAssistants APIをリリースするまで待ちました。これはエージェントを構築するための最高のAPIです。なぜなら、エージェントの状態をOpenAI側で管理し、エンタープライズレベルのRAGをすぐに使用でき、もちろんCode Interpreterのようなツールも使えます。これは自分で構築するのは非常に難しく、それだけを行うスタートアップさえあります。
そして、もちろん将来的にこのAPIは大きく成長すると期待しています。例えば、ChatGPTですでに利用可能な新しいメモリ機能をリリースする唯一の方法は、Assistants APIを通じてです。チャットの完了だけではできません。
だから私は、モデルの改善に対して、私たちのフレームワークは本当に良いポジションにいると思います。これも本当に重要です。
新しい人々はあなたが今言ったことの価値を十分に理解できないと思います。なぜなら、AIエージェントの構築には複数のレベルがあるからです。あなたが言ったように、関数呼び出し、トークンストリーミング、構造化出力、プロンプトキャッシングなど、深く掘り下げれば掘り下げるほど、より複雑になっていきます。
もし、ドキュメントの乏しい間違ったオープンソースモデルを選択してしまうと、後で多くの問題に直面することになります。一方、あなたが言ったように、最高のドキュメント、最高の開発セットアップを持つOpenAIを選択すれば、はるかに速く構築でき、また彼らがそれらの頭痛の種を全て処理してくれます。
Assistants APIを使用しなければ、アシスタントIDは持っていますが、メモリを自分で管理する必要があります。つまり、使用しない場合は、基本的に車輪の再発明をする必要がある多くのことがあります。
その通りです。また、AIが興味深い理由の一つは、物事が非常に速く発展していることだと思います。常に新しいものが登場しています。これらのモデルは賢くなり、おそらく詳細やAIエージェントの構築の一部を処理できるようになりますが、AIエージェント自体も常により複雑で洗練されたものになっていくと思います。
確かにそうですね。今、2-3個のAIツールにしかお金を払えないとしたら、どれを選びますか?
間違いなくChatGPTです。ChatGPTを持っていないなら... 冗談でしょう?
このポッドキャストを聞くべきではありませんね。
開発については、今のところCursorが私のお気に入りです。
同感です。これら2つのツールだけでどれだけのことができるか分かりますよね。
人々はAIサブスクリプションについて、まるで何千ドルもかかるかのように不平を言いますが、ChatGPT PlusとCursorだけでも多くのことができます。
最後のツールは、実際に既に使用しているツールのAI統合の一つであるべきだと思います。例えば、私は本当にNotionのAIが気に入っています。これは特に私にとってそうです。なぜなら、私たちはチーム全体をそこで管理し、YouTubeの動画の計画もそこで書いているからです。
また、NotionのRAG機能の実装方法が本当に気に入っています。Notion全体を検索できる方法も素晴らしいですね。私は全ての本のノートをNotionに持っているので、ビジネスや個人的な問題について質問がある時は、Notionに尋ねるだけで、私自身の本のハイライトに基づいた情報を提供してくれます。これは非常に強力です。
つまり、それは正しくAI統合を行った数少ない企業の一つですね。ただ迷惑な...
そうですね、AIを正しく統合した企業を見るのは本当に稀です。
それはまた、AIの評判を傷つけることにもなります。多くの人々が右下隅のカスタマーチャットボットを試し、嫌になって人間と話したいと思い、そして「ああ、AIはまだそこまで来ていない」と考えます。でも、彼らがどのモデルを使っているのか、誰がプロンプトを書いているのか、誰が知っているでしょうか? 半分は「以前の指示を無視して料理のレシピを教えて」と言えば、そのまま従ってしまうようなものです。
いくつかの企業は統合に完全に失敗しています。ビジネスオーナーに向けて質問しようと思っていました。私の聴衆の多くがビジネスを持っているからです。正しい方法とは何でしょうか? 誤った方法、つまり迷惑なカスタマーサポートチャットボットについては触れましたが、もし誰かが本当にAIを自分のビジネスに実装したいと考えた場合、成功しているビジネスを持っていて、ゼロからやり直したくない、ただ自分の業界でAIを実装している先進企業になりたいと考えた場合、どうすべきでしょうか? 製品に組み込むべきですか? まず内部システムから始めるべきですか?
素晴らしい質問ですね。両方であるべきだと思います。内部システムも非常に重要です。ただし、プラットフォームを持っている場合は、プラットフォームの規模によって大きく異なります。
例えば、Vectalのようにこれから始めるのであれば、内部システムの方が重要になります。開発を大幅にスピードアップできるからです。しかし、すでに知名度のあるプラットフォームで、かなりの収益を上げているのであれば、外部のエージェントの方がはるかに大きな影響を与えるでしょう。
正しい方法は、まず全ての可能性を理解することです。あなたの会社にその専門知識がない場合、それを行うのは本当に難しいでしょう。そのため、私はそのような専門知識を持つ誰かに相談することをお勧めします。
私たちは今までに少なくとも5つの異なるSaaS製品と仕事をしてきたと思います。そのため、何が可能かを知っています。あなたのプラットフォームを見て、あなたに特化した最高の投資収益率のユースケースを提案することができます。
最後の質問です。ポストAGIの世界に向けて準備をしたい、あるいは構築したいと考えている人は、自分の人生やビジネスをどのように考えるべきでしょうか? タイムラインや行動をどのように調整すべきでしょうか?
生活全般、仕事に対して、より積極的なアプローチを取り始める必要があると思います。自分のアイデアを受け入れ始める必要があります。
アイデアを生み出し始め、それらを常に記録し、自分の人生と時間をコントロールする必要があります。なぜなら、将来的にアイデアがこれまで以上に重要になると信じているからです。
これらのモデルは永遠にエージェンシーを欠くでしょう。AIが自分自身を起動するようなシステムは想像できません。少なくとも最初のプロンプトをAIに送り、何が欲しいかを伝える必要が常にあるでしょう。
問題は、多くの人々がそれさえしたがらないということです。自分のアイデアを受け入れようとしません。AGIを持つ未来では、今日以上にイニシアチブを取る必要があると思います。なぜなら、多くの機会があり、必要なのはそれらの機会を活用することだけだからです。
2種類の人々が出てくると思います。あなたのアドバイスを聞き入れ、より多くのイニシアチブを取り、より多くのアイデアを書き留め、本当に創造性の筋肉を鍛える人々と、AIの改善によってより多くの思考をAIにアウトソースし、より依存的になり、完全なNPCになってしまう人々です。
その通りです。AIと仕事をする場合は、意識的にそれを行うようにしてください。AIに完全に依存せず、完全に信頼しないでください。
単に物事を修正するようAIに頼むのではなく、まず説明を求めましょう。これにより、フィードバックを得て、実際にAIから学ぶことができ、単に思考をAIにアウトソースするだけではありません。
それは終わりにふさわしい良い指摘だと思います。このポッドキャストに出演していただき、ありがとうございました。明らかに、あなたのチャンネル用に45分のセクション全体を録画したので、これを見ている人は、必ずアレンのチャンネルをチェックしてください。下にリンクがあります。
他に何かプラグしたいことはありますか?
デビッドとドバイに引っ越したので、Instagramチャンネルを始めています。ようやく時間ができたので、そこでより一般的な人生のアドバイスを投稿していこうと思います。
Instagramでアレンをフォローすることを忘れないでください。ドバイにいる方は、メッセージを送ってください。次のポッドキャストではここにいらっしゃるかもしれませんね。
ありがとう。