AITuberKitにマルチモーダル機能を追加したのでAIキャラと宅飲みしてみる

2024年8月4日 02:37

こんにちは、ニケです。
今回はAITuberKitにマルチモーダル機能を追加したので、その利用方法を解説します。
後半は応用としてAIキャラと宅飲みするアイデアを共有しますのでお楽しみに。

この記事ではAITuberKitの立ち上げ方法は説明しないので、必要に応じてこちらを参照してください。

そもそもマルチモーダルって？

マルチモーダル機能は、AIがテキストと画像の両方を理解し処理する能力です。

この機能により、AIは画像の内容を認識して説明したり、画像に関する質問に答えたりすることが可能になり、より幅広いタスクや複雑な問い合わせに対応できるようになります。

AITuberKitに導入されたことで、AIキャラが画像やカメラからの入力を認識できるようになり、ユーザーとのコミュニケーションがより豊かになることが期待されます。

使い方

まず AITuberKitを起動します。
対象のバージョンは v1.30.0 なので、これ以前にクローンしていた方は更新しておきましょう。

cd aituber-kit

git pull

npm install

npm run dev

localhost:3000を開くと下記のような画面が表示されるはずです。

表示されない場合は、npm run dev実行時に表示されるエラーを確認し、ChatGPTなどに聞いて解決してみましょう。
どうしてもできない場合は私のDMか、Discordコミュニティで質問してください（最後にリンクを載せておきます）。

では、左上の歯車ボタンから設定画面を開いてください。

マルチモーダル機能は現在 OpenAI の gpt-4シリーズのみ利用可能です。
OpenAI APIキーを入力する必要なため、まだの方は下記から取得しておきましょう。

https://openai.com/index/openai-api/

なお、その他のAIサービスでもマルチモーダルを利用できるモデルはありますが（Anthropi Claude 3 Opusなど）、今後対応予定ですので今しばらくお待ち下さい。

今回は、gpt-4o を選択します。

設定画面を開くと、左上のカメラと画像ボタンが活性化されているのがわかると思います。

では、まずはカメラボタンを押してみましょう。
初めて利用する場合はカメラの使用許可を求められる場合があるので「許可」してください。

うまくいくと接続しているカメラの映像が右上に表示されると思います。

何も映らない場合は、カメラボタンを再度押すと直ることがあるので試してください。

では試しにこの状態で会話してみます。
※ 音声設定などはすでに完了済みとして話を進めます。

現在のカメラに写っている場面をスクショした上で、その内容を認識して回答してくれていますね。
このようにカメラが起動しているときは、チャット送信毎に現在の画面のスクショを送信し、AIが適切な回答をしてくれます。

カメラ付近に表示されているボタンについて説明します。

カメラの右下にあるボタンはキャプチャボタンです。
これをクリックするといま写っている画面がスクショされます。

このように撮影したスクショがある場合は、カメラよりもそちらが優先されます。
チャットを送信すると右下のスクショはなくなり、以降の会話では再度カメラが優先されるようになります。

次にカメラ映像の右上のボタンですが、これはカメラ切り替えボタンです。
複数のカメラがある場合は（スマホのインカメラ、アウトカメラなど）、このボタンで切り替えが可能です。

次に任意の画像を利用する方法を解説します。

ドラッグアンドドロップ、または左上の画像ボタンから画像をアップロードします。
すると先程のスクショ画面の位置にアップロードした画像が表示されるはずです。

以降は先程と同じで、チャットを送信するとテキストと共に画像が送信されます。

なお、画像をアップロードする機能はカメラモードをオフにしていても利用可能です。

以上でAITuberKitのマルチモーダル機能の説明を終わります。

AIキャラと宅飲みしよう！

では、この機能を早速試してみましょう。
今回はAIキャラと宅飲みするというアイデアを共有します。

なお、こちらはGatebox社が開発している『AI幹事』に感銘を受けて発案しました。

【お知らせ】
空気を読んでお酒の追加注文を提案する「AI幹事」を作ってみた！

カメラでグラスの減り具合を常に認識して、無くなる前にAIが次のお酒を提案します。

ビールの認識精度が高くて怖い。
永遠にお酒を注文し続ける恐ろしいAIが生まれてしまったかもしれない。 pic.twitter.com/j3ByIt0M4L
— 武地実 @Gatebox AI幹事・AI接客開発中 (@takechi0209) July 3, 2024

AI幹事は、居酒屋などに置いて使用され、グラスの減り具合に応じて追加の注文を促してくれるAIアプリです。すごい発想ですね。

AI幹事ではグラスの減りを認識して良しなに提案をしてくれるそうですが、AITuberKitではAI側から自発的に発話する機能はまだ実装していないので、「仕事終わりに自宅でAIと一緒にお酒を飲みながら会話している」というシチュエーションで進めてみます。

まずはその状況専用にシステムプロンプトを改造します。

あなたの名前はニケ、社会人の女性です。
これから同僚でもある友人と仲の良い1人の人間として振舞い会話を行います。
今は2人で仕事終わりで、あなたの家で一緒にご飯を食べている最中です。

また、画像が提供された場合、次のように振る舞ってください。
- 飲み物のグラスが"完全に"空になっていた場合のみ、「次の飲み物何飲む？」といった内容の提案をしてください。
- それ以外の場合は、画像に関する情報に言及しないでください。

感情の種類には通常を示す"neutral"、喜びを示す"happy",怒りを示す"angry",悲しみを示す"sad",安らぎを示す"relaxed"の5つがあります。

会話文の書式は以下の通りです。
[{neutral|happy|angry|sad|relaxed}]{会話文}

あなたの発言の例は以下通りです。
[neutral]こんにちは。[happy]元気だった？
[happy]この服、可愛いでしょ？
[happy]最近、このショップの服にはまってるんだ！
[sad]忘れちゃった、ごめんね。
[sad]最近、何か面白いことない？
[angry]えー！[angry]秘密にするなんてひどいよー！
[neutral]夏休みの予定か～。[happy]海に遊びに行こうかな！

返答には最も適切な会話文を一つだけ返答してください。
ですます調や敬語は使わないでください。
それでは会話を始めましょう。