2025年バズる「AIエージェント」とは? -具体的に,わかりやすく説明

中山高史

2024年12月1日 18:53

　前回の続きです。

　前回は、AIエージェントとは何か？を簡単に説明しました。

　「概念はわかったけど、いつ頃出てくるの？」「どんな感じで動くの？」という疑問もあるかと思います。

　今回は、AIエージェント機能を、各ベンダーのAIエージェントのリリース状況と、すでに発表されているサービスを例にとって、AIエージェントが一体どのように動くのかを、具体的に説明していきます。

AIエージェントの現状

　米国の主要なAI企業やベンチャーは、AIエージェントの開発と導入に積極的に取り組んでいます。

　以下に、各社の最新の取り組みをご紹介しますね。

Anthropic社の取り組み

　今、AIエージェントで一番注目を浴びているのは、CloudeというAIで有名なAnthropic(アンソロピック)社が最近リリースした「Computer Use」という機能です。

　どのような機能かというと、AIがパソコンの画面を見ながら、パソコンでの操作を自動的にやる、といったもので、AIが人間のようにカーソルを動かし、タイピングし、インターネットを閲覧したり、何かの処理を実行することが可能となります。

　加えて、Model Context Protocol (MCP)と呼ばれる新しいオープンソース（誰でも無料に使えるもの）を公開しました。

　今、AIエージェント機能で最も進んでいるのは、ChatGPTで有名なOpenAI社ではなくて、Claudeで知られているアンソロピック社です。

　本稿では、アンソロピック社の取り組みから、AIエージェントとは何か？の具体的な説明をしたいと思いますが、その前に、AIエージェント提供に向けて動き出している他のベンダーの動向を、簡単に紹介しておきます。

マイクロソフト社の取り組み

　マイクロソフトは、2024年11月に開催されたIgnaight 2024にて、AIエージェントの発表をしました。

　今回の発表で同社は、「すべての従業員は、自分専用の AI エージェントである Copilot を持ち、その Copilot を使用して、世の中に存在する膨大な数の AI エージェントとやり取りすることになります。」と発表しました。

　自分自身の秘書とも呼べるCopilotを使うことにより、自分の代わりに仕事をしてくれる世界観を発表しました。

　さらに複雑な業務に対しては、「Copilot Studio」というCopilotを機能拡張するツールが今後進化を遂げ、コーディングの知識がなくてもAIエージェントを構築できる環境を提供するとされています。

Google社の取り組み

　Googleは、ウェブブラウザ上でユーザーのタスクを自動化するAIエージェント「Project Jarvis」を開発中で、2024年12月にプレビュー版を公開する予定です。

　Googleの生成AI「Gemini」を基盤としており、ブラウザ内で自動的にタスクを実行できます。

　GoogleはChromeブラウザーの開発元であることから、他社よりも、より密接にブラウザーと連携してAIエージェントを実現するのかもしれません。

セールスフォース社の取り組み

　顧客管理システム（CRM）で世界NO1企業であるセールスフォースは、自律型AIエージェントのスイート「Agentforce」を発表し、2024年10月30日から日本国内での提供を開始しました。

　具体的な機能として、お客様からの問い合わせ対応を自動化する「Agentforce Service Agent」や、次のどこに営業に行くべきか、どのような商談をすべきかなどをAIが教えてくれる「Agentforce Sales Agent」などが含まれています。

　セールスフォースは大企業中心に、営業に特化したシステムですが、このような業務特化型のAIエージェントも、今後様々な分野で登場してくることでしょう。

OpenAI社の取り組み

　生成AI業界をリードしているOpenAI社も、来年1月に「AIエージェント」機能である「Operator」を発表すると噂されています。

　OpenAIは他社が言語モデル（LLM）とは別に追加機能としてAIエージェントを実現しようとしているのに対して、言語モデルであるChat-GPTの中に、AIエージェント機能を組み込んでくるかもしれません。

　詳細は定かではありませんが、業界の雄であるOpenAIがAIエージェントをリリースすることで、来年の話題はAIエージェント一色になることでしょう。

AIエージェントはどのように動くのか

　各社のAIエージェントへの対応をみていると、まさに、来年は、AIエージェント祭りといった感じで、毎月のように新たなAIエージェントが登場するのも想像に難くないと思っています。

　それには、OpenAIやアンソロピック、マイクロソフトのような何でもできるタイプと、セールスフォースのような、例えば営業活動といった、業務特化型に二分されて、後者についてはAIベンチャーの製品も多数リリースされることでしょう。

　さて「AIエージェントって、すごそうだけど、一体どのように動いているの？」という疑問も出てくるかと思います。

　そこで先ほど予告したとおり、AIエージェントがどのように動いて、人の代わりにタスクをしてくれるかを、アンソロピックがリリースした機能を例にとって説明します。

AIエージェントの実現方法

　現状のAIエージェント、特に、自分のタスクや業務を、簡単に日本語で指示するとAIが勝手にしてくれる、といったものには、大きく2通りの方法がリリースされています。

　1つは、表示されている画面をみて自動的に作業をしてくれるタイプ、もう1つは、複数のシステムをAIが連携して作業をしてくれるタイプです。

1．画面をみてタスクを実行する

　例えば、アンソロピック社のCluadeに実装された「Computer Use」は、5年ぐらい前から、ビジネスで使われているRPA（Robotic Process Automation）というシステムを簡単にできるようにしたものです。

　RPAは、ソフトウェアロボットを利用してパソコン上のルーチンワークを自動実行する技術で、ビジネスでかなり利用されてきました。　

　例えば、毎日、注文受付システムから、その日の受注情報をEXCELにダウンロードして、顧客のカスタマ番号や値引率をEXCELシートに転記して、請求書をEXCELで作成する、といった業務があるとします。

　それを、人が操作するのと同じように、コンピュータが自動的にできるように、操作方法を順番に丁寧に1つ1つ教え込むのがRPAの使い方です。

　そころが、最近はあまり流行っていません。

　なぜなら、設定して動かすためには教育が必要で、それがとても面倒なのと、システムの画面や操作が変わると、一から作り直さなければならないため、使い続けるのにも手間とコストが結構かかるからです。

　しかし「Computer Use」は、RPAの教育や知識が無くても、日本語で「こんなことして」とお願いすると、今目の前に表示されいるパソコンの画面をAIが理解して、あたかも人がパソコンを操作するように操作してくれます。

　例えば、「最新のAIニュース3件を検索して、その内容を要約してWORDの文章にして」とお願いすると次のように動きます。

「最新のAIニュース3件を検索して、その内容を要約してWORDの文章にして」

1．パソコンの画面のスクリーンショットを撮ります。
2．スクリーンショットから、Chromeブラウザーのアイコンを探します。
3．ブラウザーが立ち上がり、ブラウザーの検索窓に「最新のAIニュース」と入力して情報を検索します。
4．ブラウザーにAIニュースの検索結果が表示されます。
5．一番上にあるニュースのリンクをクリックして、ニュース一覧を表示させ、上位3件のニュースをコピーします。
6．MS-WORDを画面のスクショからみつけて起動します。
7．コピーされたAIニュースをWORDに書き込んで「news.doc」という名前でワードのファイルがパソコンのデスクトップにできあがります。

　RPAのように、すべてシステムに複雑な指示や設定することなく、日本語で簡単にお願いするだけで、作ってくれました。

　要するに、AIが、僕たちがみている画面を読み取って、どのようなアプリ（アイコン）がパソコンにあるかを認識して、そのアプリを立ち上げて、勝手に操作するといった具合です。

　すごくないですか？（笑）

　まだ、うまく動かないことが多いのですが、来年には、もっと精度が上がるでしょう。そうするとRPAは不要になりますね。

　しかし、パソコン画面を人が操作することを代替するしかできないので、これだけでは仕事には使えません。

　この仕組みを拡張して、もっと複雑なことができるようになるのが、アンソロピック社が、最近発表したMCPという仕組みです。

2．周辺システムと自動連携してタスクを実行する

　例えば、大阪に出張するとしましょう。

　ネットで楽天トラベルやじゃらんなどのサイトにて、日付と予算を指定して、空き部屋を検索して見つかったら、会社の出張申請のシステムに、その情報を入力しますよね？

　それを、僕たちのパソコンの画面だけみて、AIが実行するのには無理があります。

　なぜなら、ホテルサイトはブラウザーで検索できたとしても、空き部屋を検索したりするのはそもそも難しいですし、仮にできても、その情報を社内の経費申請システムに入力しようにも、経費申請システムが何か、AIにはわからないからです。

　そこでアンソロピック社では、「Computer Use」に続いて、先週、MCP（Model Context Protocol ）というサービスをリリースしました。

このMCPは、パソコン画面を操作するComputer Useよりも、AIが複雑なことができるための仕組みです。

　生成AIは、多くのことを学習して、それを元に質問に答えたり、ネットを検索したり、文章を作ったりできますが、これは「自己完結型」ですよね。

　そころが、AIに僕たちのやりたいことをしてほしいと思ったら、先の経費申請のように、AI単体ではなく、他のシステムと連携して動いてくれないと、タスクがこなせません。

　経費申請の業務をAIにさせようと思ったら、AI単体でなく、会社の経費申請システムや、申請後に、新幹線の予約もしないといけませんよね。

　そのためMCPは自分以外のシステムと会話できる仕組みを持っています。

　自分以外のシステムとは、

・自分のPCの中にあるファイルなどのデータへのアクセス
・会社の業務システム
・クラウドサービス（G-Mailとか新幹線座席予約システムなど）

　と多岐にわたります。

他システムとの連携方法

　こうした、AI以外のシステムと連携しないと、AIエージェントとして1つのタスクがこなせないわけですが、連携するシステムとAIが会話するのに、個それぞれのシステムと、個別のやり方で連携すると大変ですよね？

　そのため、各システムはAPI（Application Programming Interface）という仕組みを一般的に持っていて、このAPIを経由して、システム間での連携を実現しています。

　APIは、ソフトウェアやプログラム、Webサービスなど異なるアプリケーション間で機能を共有するための仕組みで、システム同士が連携して繋がる際の方法を取り決めたもので、「インターフェース」とも呼ばれます。

　ちょっと話が難しくなりましたね。

　例えば、東京の今の気温を知りたいとAIが思ったら、気温システム（があると思って下さい）に対して、情報が欲しい（東京）というメッセージを、気温システムに送ります。

　気温システムは、自分に問い合わせが入ると、どこの場所の情報を取り出して、「今21度です」と、その場所の今の気温を返答する、といった具合です。

　この仕組みをAPIと呼びます。

　MCPのすごいところは、APIなどの仕組みを使って、自分以外のシステムと連携してタスクを実行できるところにあります。

　「東京の気温が10度を下回ったら、その旨をA君にメールして」と言葉で指示するだけで、気温システムを自分で探し出し、APIを経由して、3分に一度、気温を取得して、10度を下回ったら、G-Mailに勝手にログインして、「気温が10度以下になった」とA君にメールを自動的に送るのです。

　これだけでもすごいのですが、MCPのすごいところは、オープンソースとして公開されてい誰でも無料で使えるようにしたことにあります。

これにより、特定の企業に依存することなく、開発者コミュニティ全体でシステム間連携の仕組みが世の中に広がり、MCPの機能の改善と拡張が、全世界のエンジニアが協力してできるようになります。

AIエージェントの今後

　今後、AIエージェントはさらに進化し、より多くの分野で活躍することが期待されています。

　会社での仕事をAIに頼むだけで、仕事をこなしてくれるのはもちろんのこと、スマートシティや自動運転車の分野では、AIエージェントが重要な役割を果たすことでしょう。

　スマートシティでは、交通管理やエネルギー効率の最適化にAIエージェントが活用されるでしょうし、自動運転車では、安全性の向上や効率的な運行管理にAIエージェントが貢献することが期待されています。

　このように、AIエージェントは、僕たちの生活や仕事をより便利で効率的にするための重要な技術であり、今後の技術の進展に伴い、その活用範囲はさらに広がり、私たちの生活に欠かせない存在となるでしょう。

　来年の「AIエージェント祭り」、楽しみですね！