複合 AI システムと AI エージェント

2024年12月24日 13:05

IVRy の AI エンジニアの稲村と申します。
IVRy では複合 AI システム(Compound AI Systems)という概念に有望性を見出してこれまでシステム設計が行なわれてきたのですが、この概念が多面的で少し調べただけだとなかなか掴みづらかった経験から、2024年末に流行っている AI エージェントの動向と絡めてまとめて考察してみました。また、新しい情報に振り回される日々の中で、ある程度長い時間軸でもぶれにくい洞察を得たい欲求も盛り込まれていると思います。お気持ち全開の記事ですが、暇つぶし程度にご覧いただけると幸いです（引用資料はいずれも興味深いものだと思います）。

このnoteは 株式会社IVRy 紅組 Advent Calendar 2024 の24日目のnoteです。紅組の昨日の記事はマーケターの吉田さんの『2ヶ月で成果！メール経由の資料請求数を2.45倍に改善した施策の考え方』でした。明日の記事は広報うとさんの記事の予定です。白組の記事とあわせて、是非ご覧ください！

1. 複合 AI システムと AI エージェント

複合 AI システムの定義と背景

近年、AI の分野では単一のモデルによるアプローチから、複数のコンポーネントを組み合わせた「複合 AI システム（Compound AI System）」へと移行しつつある。このシフトは、UC Berkeley の BAIR ラボが 2024 年初頭に発表したブログ記事 "The Shift from Models to Compound AI Systems" で指摘されている。複合 AI システムとは、大規模言語モデル (LLM) を複数回呼び出したり、外部ツールや検索、リランキングなど、複数のコンポーネントを組み合わせたシステムを指す。記事内にある AlphaCode 2 や AlphaGeometry のような、深い専門知識だけでなく、事実に立脚した深い推論を必要とするタスクで高い性能を示す AI システムは、この複合 AI システムとして実現されていることがほとんどだという。

AI エージェントとの関係性

複合 AI システムは、近年注目を集めている AI エージェントの定義と類似している。実際、多くの AI エージェントは、LLM が外部 API やツールへアクセスしてタスクを実行する複合 AI システムとして実装されている。しかし、2024 年末時点での AI エージェントの多くは、実行の制御が人間に多く委ねられている「AI ワークフロー」的なシステム (RPA 的システム) といった方がしっくりくる。このような複合AIシステムの側面は、フローエンジニアリング(Flow Engineering)と呼ばれることもある。

AI エージェントと AI ワークフローについては Anthropic の AI エージェントに関する記事で詳しく説明され、以下のような対比で説明されている:

AI ワークフロー: 固定フロー、仕様通り or 人間主導で動く。ツールや LLM を呼び出す使い方が主で、呼び出し手順はコードによって定義。
AI エージェント: 柔軟な非固定フロー、LLM (AI モデル) 主導で動く。 LLM がその時々の状況に応じて、どのツールをどう使うかを自律的に決定しながらタスクを進める。

この対比から見えてくるのは、 LLM の役割が、タスク実行する要素としてか、タスク実行を制御するルーター/オーケストレーターとしてあるのかという違いだ。 Anthropic の記事ではこれらの構成のトレードオフを詳しく議論されており、複合 AI 的エージェントの現在地を理解する上で非常に参考になった。

本稿の構成

本稿では、複合 AI システムについて、システム面と長期的な発展の両方から検討を加える。2章では、複合 AI システムの基本構成と課題点について、システム的な側面から検討する。3章では、 AI システムが長期的にどのように進化してきたかを概観する上で、 AI 分野の "The Bitter Lesson" とスケール則を振り返る。4章では、AI システムの事前学習の限界と超知能への道筋について Ilya Sutskever 氏の講演から想像を巡らせる。最後に5章では、これまでの話題を踏まえつつ複合 AI システムが AI エージェントのような形に向かっていくかについて考えてみる。

2. 複合 AI システムの構成と課題点

複合 AI システムの基本構成

記事冒頭で複合 AI システムとは、「LLM を複数回呼び出したり、外部ツールや検索、リランキングなど、複数のコンポーネントを組み合わせたシステム」であると述べた。その複合性は大きく以下の類型を持ち、それぞれの利点を提供する:

AI モデル同士の連携
- 複数の AI モデルを多段化やアンサンブルすることで性能向上を制御
  - モデルを段階ごとに検証可能にし、交換可能な処理パイプラインを構築
  - 単一モデルのスケーリングやチューニングに比べて、コスト効率良く性能を達成
AI モデルと外部ツールとの連携
- AI モデルが原理的に獲得できない能力を統合する
  - 例1. 最近情報などの動的な知識へのアクセス能力を得る
  - 例2. 社内資料やマスタ情報など、一般知識でないローカル文脈の限定を可能に
AI モデルと人間の連携
- 結果のコードによる検証や Human-in-the-Loop 的な制御を導入
  - ハルシネーションの抑制を実現する
  - 複数の解がある場合に人間の好みや文脈情報で誘導する

何を目的とするかに応じて複合性の導入要否や重みづけは異なってくる。特に、BAIR が提唱するような AI 自体の能力拡張という R&D 的な文脈と、各種 AI ベンダーが推進する制御性や柔軟性、変化対応といったエンタープライズシステム要求の文脈とでは、重点の置かれ方が大きく異なることも多い。

開発上の課題と対策

複合 AI システムの開発には、いくつかの固有の課題が存在する。まず、 AI モデル同士の組み合わせに関して、考えうるパターンの膨大さからくる設計空間の広さがある。特に、一つの AI 要素が担うべき役割の限界や、性能のコスト効率上のスイートスポットを事前に知ることは不可能だ。対策としては、モジュール性の高い設計をとって単体テスト検証を担保することで、要素の変更耐性を上げることができる。

AI 要素の最適化にあたっては、ユーザー満足度などのエンドツーエンドの評価指標だけでなく、個別のコンポーネントの性能（例：検索精度、生成品質）を評価することも重要となる。過去の MLOps の知見を活かし、複合システム内の個別処理ステップ毎の評価、測定、比較、実験追跡を行うことが今でも有効である。余談だが、 LLM 自体が評価を担うアプローチ(LLM-as-a-judge)も盛んに研究と実践事例が広がっているため、今後は過程の評価自体も複合 AI システムの要素として普及してくるかもしれない。

また、 AI モデルや外部ツールの複数にわたる統合により、運用監視が複雑化する。従来よりパイプラインシステムの運用監視の難易度は高かったが、さらに LLM という挙動の予測がしづらい要素が追加される形となるためだ。コストや性能上のボトルネックがどこにあるかの同定も、改善の上では必須となる。対策としては、従来の監視に加えて可観測性を強化することにより、エラー検知に加えてデバッグや改善を容易にする努力が必要となる。

他にも、コンポーネント間の依存関係/相性問題が E2E の最適化を難しくする。あるモデルが特定の処理要素と相性が良くても、別のモデルでは相性が悪いことがあり、全要素を適切に組み合わせ、調整するのは複雑である。ここは明らかな対策はなく、なるべく疎結合を保つ努力に加えて、重要な要素に関しては効率的に試行錯誤できる仕組みづくりが重要になるだろう。

相性問題に関しては、AI モデルと外部ツールとの連携インターフェースが統一されることによる恩恵は今後得られるかもしれない。任意の外部ツールはバラバラのインターフェースを持つため、AI モデルが連携する形式を制限することで、相性問題のチューニングを LLM ベンダー側に委ねることが期待される。Anthropic は Model Context Protocol という標準を先んじて提示しているが、他ベンダーがどういった形式に準拠・提示してくるかの動向には注意する必要がある（Microsoftの Satya Nadella CEO も、全てのビジネスロジックは Agent に連携・吸収されていくと述べている）。

3. The Bitter Lesson と、スケール則に駆動される進化

"The Bitter Lesson" という Richard Sutton が2019年に発表した有名なエッセイがある。そこでは、AI の歴史を振り返ると、人間の知識を活用して作られた AI よりも、「計算」に AI システムの実体を発見させるアプローチの方が長期的に見れば勝利を収めてきたという主張がなされている。これは、単位計算あたりのコストが指数関数的に低下してきたムーアの法則に基づく主張で、有限の時間では人為的な設計は計算で獲得させる設計のパフォーマンスに勝てないという主張だ。人間はタスクを解く AI モデルそのものをあれこれ開発するのではなく、タスク解決の方法を自動で見つけさせる仕組み (メタメソッド)を開発するべきだという主張が興味深い。また、 AI をスケールさせる汎用的な方法は「学習または探索」であると説明されている点も興味深く、 AI 能力が進化しうる方向性の指針を与えているように読める。

人間のAI設計は悉く計算に乗り越えられてきた苦い教訓 (https://gwern.net/scaling-hypothesis より)

近年の AI の発展は、この The Bitter Lesson を裏付けている。特に、GPT シリーズの成功は、事前学習のスケール則を指針として実現されてきた。Kaplan らのスケール則 ([Kaplan+, 2020]) によれば、

「学習の計算量 = N (パラメータ数) x D (データのトークン数) x 計算コスト」を増やせば、認識性能はべき乗則で上がり続ける。

GPTシリーズの基礎を支える、Decoder-only Transformer が他のアーキテクチャに比べて学習スケーリングに優れていたのは、現在の事前学習タスク/データ量/計算能力に対して、不要な「構造」をスイートスポット的に減らすことに成功したからだと理解されている（この点の詳細な解説は Stanford 大の講義資料 "Shaping the future of AI from the history of Transformer" が非常に参考になった。）

4. 事前学習の限界と超知能への示唆

2024年には、 OpenAI の o1 シリーズが登場する中で、計算のスケーリング対象が「学習」から「推論」へとシフトしてきた。The Bitter Lesson でいうところの「学習」に対する「探索」、すなわち実行時の「推論能力」を「計算」で増強していくトレンドというわけだ。

事前学習の限界がきているという観点は、 NeurIPS 2024 における Ilya Sutskever 氏の講演でも言及されていた。そこでは、「推論/探索の能力」の増強にとどまらない「超知能」に関する言及があったのでその内容を振り返りたい。

Ilya Sutskever: "Sequence to sequence learning with neural networks: what a decade", NeurIPS2024

Sutskever 氏は、AI 分野が「超知能」に向かっていると主張し、超知能は以下の特徴を備えると述べている:

agency (主体性)
reasoning (推論能力)
understanding (限られたデータからの理解)
self-awareness (自己認識)

現在の AI は事前学習のスケール則に従って、人間が「瞬時に直観的に答えられる」知的処理を達成するまでに進化を遂げた。しかし、存在するデータ量の総量がボトルネックとなり、事前学習のスケール則は限界を迎えようとしているとのこと。したがって今後は、既存の N×D で表現されるものとは「異なるスケール則」の探求が重要となる。これは、人類の脳が体重に対して不釣り合いに大きくなっていくことで、生物全体でみられる体重と脳の質量のスケール則を脱して、別のスケール則にシフトしたことと似ているとのことだ。

この講演に対する反応の中には、（ポストトレーニングを含む）「学習」のスケーリングの効率性/密度を上げるアイディアはまだまだ研究・提案されているというものも見られた。とはいえ現在のモデルスケールを超えた（兆スケールの）パラメータの性能限界の真相を知っているのは計算資源と人材を有する OpenAI や Google のみであろうし、兆超えスケールのパラメタの性能に現行の数千億以下スケールで到達するためにも新しいスケール則が必要なのだろう。 o1 シリーズ以降の路線が分かれたのも、モデル性能の限界を追求する超知能(ASI)ラインと、経済性が許す範囲で汎用性を追求するような民主化 AI ライン(AGI)とで棲み分けられてのことかもしれない (※定義は無く雰囲気です)。Googleでも行われているらしいようなモデル蒸留の戦略で、超知能ラインで得られた成果から民主化ラインへと時間差で知性の増強が転移されるような進化も今後起こり得るだろう。（ o3 から GPT-5 へ…, etc.）(ちなみに Hinton 教授の過去のざっくり予想では、宇宙の真理は4.398兆パラメタに収まるだろうとある。)

Sutskever 氏の主張を深読みすると、1-4の能力が「人間なみ」に達成できさえすれば、あとは計算のスケーリングによって自ずと「超知能（人間越え）」が実現されるのではないか？といった主張に映った。生物の脳のアナロジーのように、スケール則を脱する方法論に達したのちには、再度計算を投下すればするほど、人の脳の処理スケールをより広く深いタスクで超えていくことも十分可能だろう。2025年にかけてはこれらの能力を評価する公開タスクなども現れて、超知能実現に向けた基礎能力の足固めとスケーリング方針が探求されていくことだろう。（個人的に self-awareness のタスクは今ひとつ捉えどころがないが、リフレクションや仮説検証などのメタ認知や、より繊細な感情的認知、創造性などには寄与する能力かもしれない。）

5. 複合 AI システムは AI エージェントに向かうか

AI 開発の歴史では、複雑な情報処理パイプラインを可能な限り単一モデルが内包・吸収していく流れが繰り返されてきた。この流れは「単純なタスク」を解く AI に対しては一定の極致に至ったが、現在の「複雑なタスク」を解くよう実装されている複合AIも、ある時点で複合 AI システムの段階を脱してより「深い」モジュールと化し、さらに抽象レベルの高い目的を遂行できるような複合 AI システムに組み込まれていくだろう。ただし、その「深い」モジュール性はインターフェースの話であり、実装は MoE や Memory Layers といった個々の特化モデルの疎な活性化をモデル内で統合/ルーティングするような仕組みかもしれない（本稿的な論点からは、 AI 内部で複合 AI的な機能が計算でバンドルされるような形にモデリング階層が上昇中?）。いずれにせよ外からの見た目としては、 AI が原理的に提供できない能力や制約に関する要素だけが残っていく形に向かっていくだろう。

複合 AI システムが実体として一枚岩の AI エージェントになっていくほど現実の要件は簡単ではないが、 AI がこなすことのできるタスクの幅と深さが広がることによって、人間の関与する割合がどんどん減っていく傾向にあることには疑いを持っていない。それこそ承認やセキュリティの機能、ガイドライン定義や連携仕様といったメタレベル（責任レイヤ）の関わり方だけが残り、タスク遂行の部分には最終的には人の手は残らない形まで突き詰められていくだろう。あるいは説明可能性を高めることで責任自体も間接化していく領域も出てくるかもしれない。

6. 終わりに

複合 AI と AI エージェントというテーマが（結論の持って行きどころが困難にも関わらず）琴線に刺さったのは、過去 AI 分野で自身が関わった仕事や尊敬していた世の中の仕事の多くが、悉く時間差で新しい AI アーキテクチャに上塗りされてきたという体験に整理をつけたかった気持ちがありました（加えて、 AI エージェントの動向に追いつきたかったというのもあります）。

IVRy では複合 AI システム的な形から始めて現実の需要に AI システムを合わせていく仕事が山ほど生まれています。個々の AI システムを立ち上げることに加えて、基盤整備なども通じてそれらをスケーラブルに運用可能な形に持っていく挑戦を行う環境としてはうってつけだと思うので、ご興味のある方はぜひご応募 or お声がけください！