LINEチャットボットでマルチモーダルAIを試す

2024年5月5日 10:29

GPTやGeminiなどのAIチャットをLINEをインターフェースとして使っていますが、LINEだと1回のメッセージに複数のデータを入れられないので、マルチモーダル機能（１回のプロンプトで複数の情報源"テキスト、画像、音声、映像"を組み合わせる機能）を試すにはWebhook側で実装した。

使い方は、下の図の通りで、同時にプロンプトに入力したい画像または音声をアップロードします。チャットボットが保存した旨とプロンプトを求めるメッセージを出すので、続けてメッセージを入力すれば１回の問い合わせにまとめてAIへ送信されます。

今回の仕組みに変えたことで、さらに複数の情報を一度のプロンプトに投入することができるようになったので、AIの対応状況を確認しながら実装を検証していきます。

$$
\text{表：LINEボットでの対応状況} \\
\begin{array}{|l|c|c|c|l|} \hline
\text{AI} & 画像 & 音声 & 動画 & 備考　 \\ \hline
\text{ChatGPT} & 〇 & × & × & APIとしては音声も出来るらしいが実装方法がわからない。\\ \hline
\text{Gemini} & 〇 & 〇 & × & 動画は画像と音声に分割するらしいが実装が思いつかない。\\ \hline\end{array}
$$

この記事が気に入ったらサポートをしてみませんか？