GPT-4-TurboとGemini 1.5 ProとClaude3 Opusのマルチモーダル機能を使ってみた。
KingJoeBot(LINE Chat Bot)で複数のAIを実験中です。今回、Claude3のAPIを組み込めたので、三大AI(私の勝手な評価)でマルチモーダル機能を試してみた。
読み込ませた画像がこちら。照明が微妙なので肉眼でもちょっと見づらいなと思えるようなソースに対して、
「この写真について、解説を簡潔にお願いします。」
と同じプロンプトを入力してみた。
GPT-4-Turboの回答
Gemini 1.5 Proの回答
Claude 3 Opusの回答
感想
3つのAIとも優秀で、「IQOS ILUMA」の「TEREA」というのをしっかりと認識しています。ラベルにある通り、「TEREA for IQOS ILUMA」を示しているのは、GPTとClaudeです。
GPTのみ「煙(蒸気)」を「葉(茎)」読み間違えていますが、”たばこ”→”植物”→葉と関連付けたのかなと邪推してます。
パッケージから読み取った文章から、GPTとGeminiは、"警告"と表現していますが、Claudeは"注意点"にとどめています。細かい差異ではありますが、個人的には、"警告"のほうが適当かなと思います。
特に感心したのは、Geminiの「つまり、~」の文章。パッケージに記載された内容を咀嚼し、とても分かりやすく説明がなされていると感じました。
GPTやClaudeも"淡々"と正確に情報を伝えているかと思いますが、解釈をしっかり説明できているのは、Geminiかなと思います。
逆に、Geminiのみ「見た目」に関する説明が抜けているのが面白いと思います。「見た目」を示しているGPTとClaudeでも、GPTは「青色のパッケージに白い模様が描かれた」少々淡白な表現に留めているのに対し、Claudeは、「全体的に洗練された印象を受ける」と感情的(?)な表現もしている。プロンプトでは、「簡潔に」と指示を出しているので、それに対して忠実に答えているのは、GPTかなと思います。
この記事が気に入ったらサポートをしてみませんか?