KingJoeBot(LINE Chat Bot)でマルチモーダル機能を実装していて、複数の画像を入れられそうだったので、ついでに複数画像入力に対応させてみた。
サンプル画像は、以下のサイトのものを利用しました。
https://www.gmo-jisedai.com/wp-content/uploads/T_REX_1-1024x768.jpeg
https://www.gmo-jisedai.com/wp-content/uploads/T_REX_2-1024x768.jpeg
プロンプトは、上記サイトとの結果を比較したかったので同じ文言を投入してみた。
「この2枚の写真には、何が写ってますか?
1枚目と2枚目でどのような違いがあるのか説明してください。」
KingJoeBot上での入力は以下の通り。
GPT-4-Turbo
Gemini Pro 1.5
Claude 3 Opus
所見
すべて「恐竜の骨格標本」と認識しているのは、すごいですね。
しかし、「どのような違いがあるのか」に対して答えているのは、GPTとClaudeでした。GPTも元記事のものと比べるとバージョンが上がったせいか、「クリスマスの装飾が・・・」から「イルミネーションが・・・」とより正確な表現になっているように見受けらえます。違いのポイントを「周囲の雰囲気」としているのは変わらないようです。
Claudeは、「フォーカス」に着目しているようです。言われてみればそう思えるから不思議ですね。
Geminiも「違い」まで言い切れなかったのですが、しっかりと2枚の画像を認識しているように見えます。
複数画像対応したことで、実験の幅も広がりました。