
2025年はなぜAIエージェントの年だと言われるのか?AIの発展方向性からその必然性を考察
2025年2月3日、OpenAIがChatGPTのDeepResearchを発表しました。DeepResearchは、ユーザーが質問を入力すると、数百のオンラインソースを検索・分析・統合し、包括的なレポートを作成してくれるという機能です。投げる質問が曖昧でシンプルだったとしても、背景や行間をAIが推察して(場合によってはユーザーに質問し返して)リサーチを実行、高精度なレポートを作成します。この「人間が目標を与えると、適切なタスクを定義しながら必要なデータを自ら収集し、目標を達成する」AIのことを「AIエージェント」と呼びます。DeepResearchはリサーチ用途のエージェントですが、システム開発用途ではReplit Agent、カスタマーサポート用途ではAgentforce Service Agentなど、既に様々な業務分野でAIエージェントの開発が進んでいます。
2025年は、この「自律的なAI」であるAIエージェントが飛躍する年だと多方面で言われています。本記事では、「なぜこのタイミングでAIエージェントという概念が注目され始めたのか」という背景についてAIの発展方向性から解説すると共に、「実ビジネスにおいて今後どのようにAIと関わっていくべきなのか」についても考察していきます。
12 days of OpenAI
2024年12月6日からの12日間、OpenAIは連日、新機能や新プロジェクトを発表しました。どれも興味深いものばかりですが、その中でも特にAIの発展方向性を示す重要な3つの発表について解説します。
推論型AI「o1」の登場
まず初日に発表された「o1」は、「Reasoningモデル(推論型モデル)」を搭載しており、従来のAIとは異なるアプローチで問題解決を行います。
これまでのGPT-4o以前のモデルは、ユーザーの質問に対して、事前学習したデータから該当する情報を瞬時に参照し、反射的に回答を生成する仕組みでした。しかし、この方式では、学習データに含まれていない情報には対応できず、「わからない」と答えるか、ハルシネーション(でっち上げ)が発生するという問題がありました。
o1はこの課題を解決するために、質問を受け取った後、まず「解くためのステップ」を思考するというプロセスを導入しています。例えば、「2000年から2023年にかけての日本のドラマ制作本数の推移を教えて」といった質問に対して、o1は即座に答えを出すのではなく、以下のような解決ステップを組み立てます。
1. 信頼できる情報源を特定する
2. 各情報源から年度ごとのドラマ制作本数を収集する
3. 収集データを整理し、年度ごとの本数を算出する
4. 結果をグラフや表にまとめる
5. 制作本数の変動要因を分析する
6. 1-5で集めた情報を元に、最終的なレポートをまとめる
このように、o1は単なる「知識の再生装置」ではなく、論理的な推論を行いながら情報を整理・分析する能力を持っています。
この推論プロセスを挟むことで、o1は特に複雑なタスクにおいて、GPT-4oを大幅に上回るパフォーマンスを発揮しています。実際、2024年のアメリカ数学オリンピック予選では、GPT-4oの正答率が13.4%だったのに対し、o1は83.3%を記録しました。さらに、コーディングや物理学などの高度な領域においても、o1はGPT-4oを大きく凌駕する結果を示しています。

リアルタイムで状況を理解し対話する「Advanced Voice Mode with Video」
2つ目の重要な発表は、「Advanced Voice Mode with Video」です。これは、音声と映像を組み合わせてリアルタイムにAIと対話できる機能です。
OpenAIが公開した以下デモ動画の4分7秒あたりを確認すると、どのような機能なのか分かりやすいです。動画では、スマートフォンのChatGPTアプリを起動し、カメラでコーヒードリッパーやマグカップを映しながら、ユーザーがAIと対話する様子が示されています。
動画では、ユーザーが「今何が見えているか?」と尋ねると、ChatGPTはカメラの映像をリアルタイムで解析し、「コーヒードリッパーとマグカップがテーブルの上に置かれています」と言い、目の前の状況を正確に説明しています。次に、「コーヒーの淹れ方を教えて」と指示すると、AIはその手順を音声で説明しています。
このように「Advanced Voice Mode with Video」は、映像と音声の情報を統合し、リアルタイムで状況を認識しながら自然な対話を行うという機能です。
サードパーティアプリと連携する「Work with Apps」
3つ目は「Work with Apps」です。これは、ChatGPTがサードパーティアプリと連携し、情報の送受信を可能にする機能です。
この機能の詳細は、OpenAIのデモ動画12分55秒あたりを見ると理解しやすいです。
動画では、ChatGPTがNotionと連携し、Notion内のToDoリストを読み取ったうえでWeb検索を実行し、各ToDo項目に対する回答を生成する様子が紹介されています。現時点では対応しているアプリは限られていますが、今後どんどん増えていくことが予想されます。ビジネスシーンにおいて、ChatGPTがSlackやGoogle Docs、Trello、Salesforceなどの業務ツールとシームレスに連携するようになれば、タスク管理や情報整理がさらに効率化されるでしょう。
さらに、2025年1月23日には「Operator」機能がChatGPT Proに追加されました。これは、ChatGPTが独自のブラウザを使用し、ウェブ上で自動的に操作を実行する機能です。例えば、フォーム入力やオンライン注文手続きといったタスクをAIが代行できるようになります。従来のChatGPTはあくまでアプリ内でのやり取りにとどまっていましたが、「Operator」の登場により、AIの能力がアプリの枠を超えてインタラクションできるようになったのです
。例えば、ユーザーが「この商品の最安値を調べて注文してほしい」と依頼すると、ChatGPTは価格比較サイトで情報を収集し、最も安いストアを見つけたうえで、必要なフォームに入力し、注文プロセスを完了させるといったことが可能になります。
これらの3つの発表は、OpenAIが単独で進めている独自の取り組みではなく、AI業界全体のトレンドとして重要な進化を示しています。特に、OpenAIと並んでAI開発のリーダー的存在であるGoogleも、先行あるいは追随する形で同様の技術を開発しています。
まず、o1のReasoningモデルに関しては、Googleも同様の技術を「Gemini 2.0 Flash Thinking」として開発しています。Advanced Voice Mode with Videoに相当する技術として、「Multimodal Live API」を、Work with AppsやOperatorといったサードパーティアプリとの連携に関しては、「Project Mariner」などで研究を進めています。

生成AIの発展方向性
この3つのトレンドから、生成AIの進化は「1. 出力精度の更なる向上」「2. 干渉範囲の拡大」「3. メディア種類の多様化」という三つの軸に沿って進んでいくと考えられます。

出力精度の更なる向上
o1やGemini 2.0 Flash ThinkingのようなReasoning Model(推論型モデル)は、生成AIの進化における「第三の波」と位置づけられます。
過去の進化を振り返ると、第一の波は事前学習データの増加による性能向上でした。モデルの規模を拡大し、大量のデータを学習することで、より高度な回答が可能になりました。次に、第二の波として強化学習やファインチューニングといった後付けの最適化が導入され、出力の精度がさらに向上しました。

しかし、実は第一の波と第二の波による性能向上はすでに頭打ちになりつつありました。実際、2020年から2024年初頭にかけて登場したAIモデルは飛躍的に性能を進化させていましたが、それ以降は明らかに成長が鈍化しています。単にデータを増やすだけでは、AIの精度が飛躍的に向上することはなくなってきたのです。

この限界を打破するものとして登場したのが、第三の波であるReasoning Modelです。Reasoning Modelであるo1は、前述の通り複雑なタスクにおいて4oのパフォーマンスを大きく凌駕しています。さらに、o1と現在開発中の次世代モデルo3を比較しても、o3はo1より高い性能を発揮しています。このように、Reasoning Modelの進化により当面の間AIのパフォーマンスは向上し続けることが予想されます。

干渉範囲の拡大
これまでのAIは、基本的にアプリ内での処理にとどまり、仮に外部と連携できたとしても同一サービス群の範囲内に限定されていました。例えば、ChatGPTはChatGPT内での処理が中心であり、ChatGPTの出力を別のアプリへ移す場合には、ユーザーが手動でコピー&ペーストを行う必要がありました。MicrosoftのCopilotはOffice 365と連携し、WordやExcel、Outlook間ではデータをやり取りできるものの、それ以外のアプリケーションとの直接連携は実現されていませんでした。
※ただし、一部機能としてGPTsのActionやCopilotのプラグインなどを活用すれば、限定的ではあるものの外部アプリとの接続が可能になっていました。
しかし、この状況が大きく変わりつつあります。前述のWork with AppsやOperatorのような機能によって、AIがサードパーティアプリやブラウザの他タブにもより直接的に干渉できるようになっています。
例えば、以下の動画では「MultiOn」というAIが、ユーザーのGoogleカレンダーから次の予定の目的地を取得し、現在地から目的地までのUberを自動で配車・予約する様子が紹介されています。
メディア種類の多様化
これまでのAIは、主にテキスト、画像、音声の処理が中心でした。3Dや動画に対応できる特化型AIも存在していましたが、今後はChatGPTのような汎用型AIでも、動画、ライブ配信、3Dモデルといったデータ容量が大きいコンテンツの処理が可能になっていきます。
例えば、動画の内容をリアルタイムで解析してテキスト要約を生成したり、映像の特定シーンを識別して必要な情報を抽出することができるようになります。また3Dモデルに関しても、設計データの最適化や、視覚的なシミュレーションの支援が可能になると考えられます。
AIエージェントの発展へ
AIが「出力精度の向上」「干渉範囲の拡大」「メディア種類の多様化」という三つの軸に沿って進化していくと、現在と未来のAI活用においてどのような変化が生じるでしょうか。
まず、出力精度の向上という観点では、これまでAIの出力には誤情報が混入したり稚拙な表現で出力するリスクがあり、必ず人間が最終的な確認・修正を行なっていました。特に専門的な領域では、AIの回答の信頼性が十分でないため、エキスパートによるチェックが必要でした。しかし、今後は特定分野においてAIの出力が一般人を遥かに凌駕する品質に達し、人間による確認や修正が不要になる可能性があります。
干渉範囲の拡大という点では、これまでAIは基本的にサービス間を跨ぐことができず、人間が情報をコピー&ペーストする必要がありました。しかし、サードパーティアプリとの連携や、ブラウザの複数タブの操作が可能になることで、AIが人間の介在がなくても異なるアプリ間のデータの橋渡しを自動で行うようになります。
最後に、メディアの種類の多様化という点では、これまでテキストや画像、音声以外のメディアの処理は人間が行う必要がありました。たとえば、動画の編集や3Dデータの解析は、AIでは対応できず専門スキルを持つ人間が実施している場合がほとんどでした。しかし、今後はAIがあらゆるメディアを処理できるようになり、動画の要約やリアルタイム編集、3Dモデルの自動最適化などが可能になります。

こうした変化を総合的に見ると、最も大きなポイントは「AIとの協働において、これまで人間が担っていた役割の一部をAIが実行できるようになる」という点です。この進化は、まさにAIエージェントの誕生を意味します。AIの発展を考えると、最終的に「AIエージェント」という形に行き着くのは必然的な流れといえるでしょう。
ただし、AIエージェントの普及がどれだけ進んだとしても、AIが人間を完全に置き換えることはないと考えられます。特に、営業、人事、カスタマーサポートといった領域では、AIエージェントの導入が進むと予想されています。しかし、それでも業務全体をAIが担うのではなく、AIが担うプロセスが拡大していくという形になるでしょう。
たとえば、非対面系の業務では、特にAIエージェントの役割が大きくなっていくと考えられます。営業であれば、アタックリストの作成や顧客情報の収集、コールドメールの送信など、人事であれば応募者のスクリーニングや面接の日程調整、カスタマーサポートであればFAQ対応や簡易なトラブルシューティングなどはAIエージェントによって完全に自動化される余地があります。
一方で、対面系の業務やセンシティブな情報を扱う業務は、引き続き人間が担う必要があります。例えば、営業の交渉やクライアントとの関係構築、人事における採用面接や人事異動の(特に政治的意図を持つ)調整、カスタマーサポートにおけるクレーム対応などは、単なる情報処理だけでなく、人間の感情や状況判断が求められるため、AIが完全に代替するのは難しいでしょう。

実ビジネスにおいて、AIにどう向き合っていくべきか
ここまで、AIの発展方向性やAIエージェントの可能性について考察してきましたが、現時点では多くのAI技術がビジネスニーズに対してオーバースペックであり、企業での活用には慎重な検討が必要と考えています。

例えば、o1やo3が主張する「数学オリンピック候補クラスの推論能力」「博士号レベルの化学・物理知識」「世界トップレベルのプログラミング能力」といった高度なスキルは、一般的なビジネスシーンではほとんど必要とされません。企業の多くは業務を仕組み化し、標準化されたオペレーションの中で価値を生み出すことが基本です。そのため、o1やo3レベルの能力が求められる場面は、ごく一部の専門職を除きほとんど存在しないのが実情です。
また、ライブ配信をしながらAIと対話する機能や、テキストから動画を生成する機能、電話でChatGPTと会話する機能といった技術は、確かに興味深く、日常生活の中では役に立つシーンがあるかもしれません。しかし、企業の業務フローに組み込むことを考えた場合、これらの機能が実際の業務にどれほどの価値を提供できるかは疑問です。
加えて、現在のAIツールの価格設定も、ビジネス導入の大きな障壁となっています。例えば、o1やDeep Researchを使用できるChatGPT Proは月額3万円です。一般的な業務において、一人あたり月3万円のデジタルツールを導入するケースは極めて稀であり、このコストを企業が正当化するのは容易ではありません。ビジネスに必須なMicrosoft365でも、月額1000~5000円程度です。中小企業にとっては、月額3000円のChatGPT Plusでもほとんどのデジタルツールより高価でしょう。ChatGPTは、果たしてOutlookやExcel、Sharepoint以上の価値を出せるでしょうか。
もちろん、今後AIエージェントの市場が成熟するにつれ、コストと性能のバランスを適切に取った製品が登場する可能性は十分にあります。しかし、企業がAI導入を検討する際には、最先端技術や流行に振り回されるのではなく、本当に解決したい課題に対して最適なAIエージェントやツールを選定し、活用することが重要です。
本noteについて、ぜひAIに関わっている方とディスカッションを行えれば幸いです。以下メールアドレスまでご連絡をお待ちしております。

Haruは、新規事業の創出と既存ビジネスの改革、それに伴うAI及びDXツールの活用に関する伴走型コンサルティングサービスを提供しています。豊富な業務経験と支援実績に基づく確かな方法論をベースに、お客様の想いをカタチにすることを第一としたご支援スタイルを重視しています。