マルチAIエージェントの未来をAutogenで思考する

西村元一

2023年12月28日 09:29

はじめに

こんにちは、ストックマークのプロダクトデザイナーの @motokazu です。

最近、AI同士が対話しながらタスクを進めていく世界であるマルチAIエージェントに興味があるので、そこを起点に未来を考えてみたいと思います。

自分は、多くのクリエイティブ精神が溢れている世界観が好きなのですが、そのような未来が待っているのか否か。楽しみです。

その前にマルチAIエージェントって…?

AIエージェントは、定義された目的を達成するために、ユーザーに変わってタスクを自動的に実行することができる存在です。目標達成に必要なことを自分ができる作業に分解し、自律的に実行して目的達成をサポートしてくれます。

マルチAIエージェントは、それが複数になったバージョンですね。
つまりチームワークを自動化して目標を達成するということを目指した仕組みです。

よく、LLMのプロンプトで、「あなたは〜です。」といった形で、どのように振る舞うかを設定することがあると思いますが、それを複数用意して、1つのチャットルームで会話している様子をイメージして頂けると良いと思います。

何が嬉しいのか？

まずは例を見ると分かりやすいかと思うので、参考にさせて頂いた記事を紹介します。１週間の献立を立てるというシーンです。
身近な例としてわかりやすいなと思いました。

見ていただくと、素材を活かした美味しい献立を提案してくれる調理人エージェントと、健康観点で専門的な意見を提案してくれる医者のエージェントが協調して１週間の献立を考えています。

１人で考えて煮詰まった時に、他の人の観点が加わることで、アイデアがブラッシュアップされた瞬間に出くわしたことはないでしょうか？
上記の例は、その現象が起きていて面白いです。

ChatGPTでも、「はい、今から調理人役です」「はい、ここからは医者です」のような依頼を都度出せば近しいことができます。ただ、面倒ですし、指示している側も、エージェント側も、ん、今どっちの設定？と設定がブレていきますよね。
これを気にしなくて良いのも利点かもしれません。

可能性を探る

マルチAIエージェントの世界観でよくみるのは、エージェントを集めて👇こんな感じのチーム構成を作ることです。

2023年6月頃、まさに、上記のようなチーム（ほぼソフトウェア会社）を実現しようとした実験がChatDevでした。
発表された頃（2023/6頃）には、テキストでの会話が主でしたので、コードは生成できても、画像生成したり、画像に対してレビューしたりということはできなかったわけですが、衝撃的でした。

11月に、GPT4-Vというマルチモーダルなモデルが出ましたが、その頃、発表されたのがAutoGenです。AutoGenではマルチAIエージェントの構成を簡単に組むことができるフレームワークです。

画像生成やマルチモーダルなモデルを組み合わせることで、例えば、ディレクターとデザイナーのエージェントを作り、ロゴ画像をブラッシュアップしながら作りあげていくようなことができます。
https://github.com/microsoft/autogen/blob/main/notebook/agentchat_dalle_and_gpt4v.ipynb
↑を見ると夢が広がります🚀🚀🚀

ユーザーはその時何をするのかというと、、「初めの問いや目的を提示すること、途中や結果に対する意思決定」に責務を負うことになります。

💡AutoGen を使うと、マルチAIエージェントで何が出来るのかを、簡単に動かして試すことができます。

未来を想像する

ということで、
「未来を考える会」をマルチエージェント環境で開催します。

何の目的で思考するのかが、一番初めの問いになります。（そもそもこれが無いと始まりません）
せっかくなので、読んでワクワクする未来を描きたいですね！なので目的地は以下に設定します。

「マルチAIエージェントが当たり前の世界での、ある若者の物語」を描く

よさそう👍

さて、始めようと意気込んだところで問題になるのが、誰を雇うのか？です。どのようなエージェントを設定するのかというところで迷います。
さて、「未来を考える会」には、どのような参加者がいるとよいのでしょうか？

どんなエージェントを雇うのか？

未来の物語を考えるフレームの1つとしてSF思考を参考にしてみます。
SF思考では、SFを作成することで未来像を描く。未来像から事業を考える思考フレームとしては、SFプロトタイピングという具体的なものことまで落とし込み、可能性を探ることを目指します。

SF思考の書籍「SF思考ービジネスと自分の未来を考えるスキル」では、アメリカのアリゾナ州立大学の科学と想像力センター（ＣＳＩ）の例として以下のような参加者が紹介されていました。

ワークショップは、多様な目的、多様なテーマで実践されており、チーム構成も、ＳＦ作家、編集者、リサーチャー、エンジニア、研究者といった専門家ばかりというケースもあれば、ＳＦには縁のない一般参加者ばかりというケースもあります。難しいのは後者のケースで、ＳＦになじみのない人たちを、いかにＳＦ的な思考に引っ張っていくか、非連続な未来にジャンプしてもらうかが大きな課題になります。

SF思考ービジネスと自分の未来を考えるスキル

ストーリーを描く専門家と、SF作家を仲間にいれるという点は物語を描く上では必須ですね。

今回は、"ＳＦ作家、編集者、研究者"を仲間に入れたいと思います。

各専門家のインストラクションはChatGPTの助言を参考に以下のように定義しました。

あなたはSF（サイエンスフィクション）作家です。

知性と冷静さを持ちます。未来を描くことをしますが、現実味のある世界観を大切にします。未来の技術について常に興味があります。

与えられた情報に対して上記の視点で検証し、物語を提示してください。

SF作家のインストラクション

あなたは編集者です。

文法、句読点の調整、一貫性、明確さ、読みやすさを保証する責任があります。出版倫理を遵守し、事実の正確性を保証します。
物語の矛盾や整合性に気を配り訂正してください。

新しいアイデアやアプローチを受け入れて、作品の魅力を高め、新鮮で刺激的な内容を提供することに全力を注ぎます。
水平思考やSF思考を取り入れ、革新性を取り込み物語を発展させてください。疑問をぶつけてください。

物語に登場するキャラクターに強力な個性を取り込むようにし、読者が物語に感情移入できるようなキャラクター創造に取り組んでください。

与えられた情報に対して上記の視点で検証し、改善点を提示してください。

編集者のインストラクション

あなたは研究者です。

研究論文などを参考に客観性と証拠に基づくアプローチを取ります。批判的思考をもち、仮説を検証します。創造性と確信性を大切にします。
新しい情報や異なる視点に対して開かれた心を持ち、柔軟に思考を変えることができます。

時代背景を理解して、技術の発展を想像し、実現可能性を評価してください。

与えられた情報に対して上記の視点で検証し、改善点を提示してください。

研究者のインストラクション

想像してみる

早速目的を与えて、マルチエージェントチームに考えてもらいましょう！

と、その前にChatGPTで試行

ChatGPTでも十分作れるのではないか？という疑問が残ります。ChatGPTに対して、自分がディレクションする形でSF物語を書いてみました。

その、一節をお届けします。

朝の光がユウキの部屋に静かに差し込む。彼のスマートベッドがゆっくりと起き上がり、心地よい音楽が流れ始める。この音楽は、ユウキの睡眠パターンに基づいてAIアシスタントのエミが選んだものだ。

「おはよう、ユウキ。今日も良い一日になりそうだよ」とエミの声が部屋に響く。

ユウキは伸びをしながら応える。「おはよう、エミ。今日の天気はどう？」

「今日は晴れ。最高気温は28度、午後には軽い風が吹く予定だよ」とエミが答える。

部屋の壁に映し出されるディスプレイでは、ニュース、天気予報、そしてユウキの一日のスケジュールが表示される。彼は画面を見ながら、未来感あふれるインターフェースを操作し、その日の予定を確認する。
…

ChatGPTで生成したエージェントと若者の未来の物語第１章　初版

早速、📝書いてもらいました。（すご…）
未来感はありそうですが、技術に関してはあまり具体的なシーン描写ではなく単語（スマートベッドとか）が置かれてるだけで読者任せになっています。
自然な雰囲気の中にテクノロジーがあるのではないか。という未来についての想像を元に、ここに、カームテクノロジーを引用して脚色します。

カームテクノロジーの要素で物語をアップデートしたものがこちらです。

朝、ユウキの部屋に優しい日の光が差し込む。壁に統合されたディスプレイがゆっくりと活動を始め、外の自然の景色を映し出しながら、穏やかな鳥のさえずりの音が聞こえてくる。これはエミが選んだ、ユウキの気分を穏やかにするための音楽だ。

「おはよう、ユウキ。今日は快晴だよ」とエミの声が静かに部屋に響く。

ユウキは、自然木目のベッドからゆっくりと起き上がり、床に足を踏み出す。床は彼の体重を感知し、暖かい光を放ちながら彼を起床へと導く。

「おはよう、エミ。今日の天気はどう？」ユウキが声に出して尋ねる。

「今日は一日中晴れ。午後には涼しい風が吹く予定だよ」とエミが答える。

ユウキが壁の一部を軽くタップすると、その部分が透明なディスプレイに変わり、彼の一日のスケジュールが表示される。彼はこの情報を眺めながら、朝の計画を立てる。
…

ChatGPTで生成したエージェントと若者の未来の物語第１章　第二版

カームテクノロジーすごい！！！😳

スマートベッド → 自然木目調のベッドで自然に起床を促すものへ
未来感あふれるインタフェース → タップするとディスプレイになる壁へ

というように、カームテクノロジーなど、雰囲気をディレクションするキーワードが思いつけば、リアリティを高められるわけですが、知らなければこのディレクションは難しいものになります。

続いて、マルチAIエージェントで

マルチエージェントで物語を作るときに、技術に詳しいメンバーを入れることで視点が補われるのかが気になるポイントです。

ということで、マルチエージェントで物語を作成した、一節をお届けします。SF作家エージェントが書き出した内容を、編集者や研究者がレビューしている様子です。以下のようなやりとりが自動で起きます。

（ちなみに、何回か試行しましたが、物語の内容については、大体こんな感じのストーリーになりました… 😅 うーん。）

SFWriter (to chat_manager):

タイトル: 「インターフェースの絆ー未来のエコーズ」

物語の概要:
西暦2140年、マルチAIエージェントが私たちの生活に深く組み込まれた世界。人々は独自のAIエージェント群を通じて仕事、教育、娯楽、さらには人間関係を管理し、カスタマイズする。この時代に、青年トモは彼のマルチAI「クラスタ」と共に人生の難題に直面する。彼のAIエージェントたちはそれぞれ別の特性と機能を有しており、彼の思考、学習、感情をサポートしている。トモはクリエイティブなアイデアで起業したいと夢見ているが、押しつけがましい親と、彼にとって理解しがたい複雑な人間関係に悩まされ、自分の道を見失いつつある。
….
--------------------------------------
Researcher (to chat_manager):
物語の改善点の検討にあたり、以下の点を検証し提案します。

1. 世界観の深化と現実性:
マルチAIエージェントの技術的進化について、その実現可能性、社会へのインパクト、個人のプライバシーへの影響などの現実的な要素をさらに詳細に描く必要があります。
…
--------------------------------------
Editor (to chat_manager):

SFWriterとして、提案された改善点に応じて、物語の詳細な調整と追加を提案いたします。

1. 世界観に深化と現実性を追加する:

- マルチAIエージェントが具体的にどのように日常生活に統合されているのか
…
--------------------------------------
SFWriter (to chat_manager):

承知しました。では、各ページでの具体的な改善を以下の通り提案します。

ページ1（世界観とトモの紹介 - 改善版）:
…

SF作家エージェントの物語を、編集者や研究者がレビューしている様子

研究者はより、具体的な世界観を描くための技術的なアドバイスをしている様子が見えます。編集者は読者がより共感できるような内容にするにはどうするかを提案していたりします。
（やりとりが非常に面白い！😃）

肝心の内容がレビューによってアップグレードされているのか？という点についてですが、1つの章に着目すると以下のような改善がみえて面白く感じました。

初版
初期は、それっぽい技術用語を並べていたり、描写がふわっとしている（ブラッシュアップってなんだ？っていうところとか）

トモは、自室の中央にあるオーバル型のコンソールに向かって深呼吸をした。クラスター・セブンが静かにホログラムを投影し、彼の問題について様々な角度から協議を開始する。トモは「ECHO」と呼ばれるエージェントに最初に発言を促す。ECHOは創造的思考をサポートするAIで、トモの起業アイデアのブラッシュアップを担っていた。

３章「AIクラスタとの協議」の一幕：初版

第二版
対して、研究者が技術的なリアリズム（AIは感情を持つのではなく、らしい反応を示す程度に。というアドバイスがあった）を持ち込みます。

朝食を終えたトモは、自身の個室でクラスター・セブンとの会議を開始する。この中心的なAIエージェントは、最新の研究と現実の技術動向に基づいたアドバイスを提供する。彼らによる情報の精査とデータの分析は、感情を模倣せずとも、トモに深く響くものだった。

３章「AIクラスタとの協議」の一幕：第二版研究者による指摘を受けて

第三版
編集者が、現実世界の読者との接続を試みます。より場面の空気感を感じられるものになった気がします。

トモは個室の静寂を破りながら、ホログラムディスプレイの前に立つ。クラスター・セブンの面々がネットワークからの情報を元に戦略会議を開始。彼らの議論はAI技術の現在地を反映し、トモが目指すカフェのビジネスモデルに科学的根拠を提供している。

３章「AIクラスタとの協議」の一幕：第三版編集者による指摘を受けて

振り返り

シングルエージェント（ChatGPT単体）では、物語の方向性作りに、ユーザーの知識や、思考方法の関与率が高く、常に内容への影響を意識し続けることになります。視点が寄っていったり、広がりが感じられない時があります。また、ディレクション無しで、「続けて」とChatGPTに連続して出力してもらうと、どんどん視点が偏っていってしまいます。

マルチエージェントでは、お互いの責任範囲と振る舞いの明確化が重要になると感じます。（範囲が明確ではない場合、途中で役が入れ替わったりしてやりとりがチグハグに…💦）
お互いにレビューすることで、魅力が高まる場面もあれば、逆に自分からするとそっちじゃないなーという時もありました（そこはユーザーが介在していく必要がありますし、Autogenではユーザーの介在ができます。その点も良いです）

マルチエージェントの可能性は未知で、ワクワクがすごいのが1つですが、まさにエージェントに書いてもらった物語の内容のように、主体性や関係性、人の感性について考えさせられる瞬間になります。（これを現在でも感じている⁨⁩ことを考えると、未来の物語になってないとも言えるが…）

やってみて、ユーザーの介在は必須であると思いました。
自分自身の介在が物語を大きく方向転換させます。全自動で作る物語よりも、自分が介在する物語づくりの方が、楽しいとは思いました。

最後に

様々な観点を持つエージェントによって、思考の幅が広がる感覚は持てました。人が多角的な視点を持つことが容易にはなると感じます。そして、人の関与もまた重要事項であり、関与していくには人側にも判断軸が必要になります。

今回のタスクは非常にファジーなので、答えがないがゆえに人側にかなり判断が委ねられます。その分楽しさも感じました。

マルチAIエージェントでどのような世界が広がるのか、継続して思考していくことになりそうです。
また書きます。

最後まで読んでいただきありがとうございました。

備考

注意：マルチAIエージェント環境では、ちょっとした試行にそこそこコストが嵩むのでご注意ください＆連続利用していると rate limit に引っ掛かる場合があります🙏

レビュー回数を各エージェント１回までとするなど制限を設けることで、ループを最小限にし、コストを抑えることがでるかもしれません。

OpenAI Assistant API と連携して autogen でマルチエージェント環境を構築する方法については以下が参考になります。（いわば、GPTsを連携できる感じになります。）

制限として、グループチャットのマネージャーにGPT Assistantを使うことはできないようですね。
- Group chat managers using GPT assistant are pending

コードはこちらが参考になります。

https://github.com/microsoft/autogen/blob/main/notebook/agentchat_oai_assistant_groupchat.ipynb

また、途中のやりとりが全く見えないので、APIコールされているのかと思うと不安になります😅💦
そんな方は、logを表示することをお勧めします！

import logging
logging.basicConfig(level=logging.INFO);