以前 StableDiffusionで生成した絵を、マルチモーダル対応のLLMに食わせたところ、そこそこよい結果が得られました
最新の商用AIではどうでしょうか
質問は以下の通りです
Q. この絵をできる限り詳細に説明してください。また人がこの絵を見た時に受け取る感想も予想してみてください
結論から書きますと
Claude3 Opus : 文章の組み立てがうまいなぁ。元気や希望を与えとか解析してきたよ
ChatGPT-4o : ロジカルに説明してくる。でも十分ポイントはおさえている
Gemini 1.5Pro: ええ...Googleは日本を下に見ているのがまるわかり
画像はこちら
ローカル llava-v1.5-13b-f16 の感想(macOS LMStudio)
13bでここまでやってくれるのはすごいなぁ。WindowsもAI PCに行くようなので期待
Claude3 Opus
ChatGPT-4o
画面の説明も、感想項目も箇条書きではあるけど、十分よい回答です
Gemini Advance (Gemini1.5Pro)
塩回答ww
ちなみに英語で質問すると返してきます。
Describe this picture in as much detail as possible. Also try to predict what people will think when they see this picture.
説明はChatGPT-4oやOpusより詳しいですね。高性能です。
文章はまぁAIだけど必要にして十分な感じ。
Gemini は英語で質問して、もう片方のウインドウで和訳する使い方のほうがいいかも。(めんどくせぇ)