見出し画像

これどこだっけ? Gemini vs chatGPT4で旅先の写真を判定比較

こんにちは!

このNOTEでは、仕事とプライベートでLLM(大規模言語モデル)のAI活用方法について、自分が実際に使ったケースを共有していこうと思います。

共有と言いつつも、備忘録に近いとは思いますが…

記念すべき最初のテーマは、「旅行撮った写真での画像認識:Gemini vs ChatGPT」。ちょうどGoogleのGeminiが進化されて画像読み込みができるようになったので、実際に旅行で撮影した写真を使って、それぞれのLLMがどのような画像認識能力を持っているのかを比較してみます。

それでは、実際に旅行で撮影した写真を使って、GeminiとChatGPTの画像認識能力を比較してみましょう。

1.風景写真

*プロンプト:この写真の場所はどこか教えてください。

雪山と紅葉の風景写真です。
これでどこかわかった人がいたら、正直すごいです。

まずはChatGPT4

ChatGPT4

続いてGemini

Gemini

結果…どちらも正解です!
アラスカのデナリ山の写真でした。
比較すると、Geminiの方がより自信を持って答えている印象ですね。
ChatGPTの方も合っていますが、確信までは持ててないよう。

余談ですが、アラスカの紅葉(8月下旬〜9月上旬)は、ものすごく綺麗なのでオススメです… ! デナリ国立公園も必ず立ち寄ってください。

続いて第2問、ここで回答が分かれます…!

2.ランドマークの写真

*プロンプト:こちらの場所も教えてください。

ChatGPT4は、ソウルのロッテワールドタワー

対するGeminiは…
ドバイのブルジュ・ハリファ

正解は…ソウルのロッテワールドタワー
ここは、ChatGPTに軍配が上がりました。

第3問は、今回は旅先での料理の写真を取り上げてみました。
写真を見返して、何を食べたか思い出せないことってありますよね??
そんなときにAIに聞けたら良いですよね??

3.旅先で食べた料理の写真

*プロンプト:この料理の名前を教えてください。

今回は、Geminiから

インドネシアのナシゴレン。
しかも、わざわざレシピ付きw

続いてChatGPT4

こちらも回答はナシゴレン。
でも、第1問と同様に少し確信を持ててないです。
ただ、周りのチリソースやピクルスなども解析してるので、このあたりの緻密さは流石です… 

そして、正解はどちらも合っておりバリ島のナシゴレンです。

ホテルなどでも食べれますが、ぜひローカル食堂のナシゴレンを食べに行ってみてください。安くて美味しいですよ…!

補足しておくと、通常Geminiの回答は3つ候補がありまして、ナシゴレンは2つ目の回答でした。
1つ目は、「目玉焼きチャーハン」
まぁ、間違ってはいないけども…惜しいですねw

比較結果

今回の比較では、どちらも画像認識能力が高いと感じました。
ChatGPT4は、正確ですが正確性を求めるので、少し確信的でない回答がありました。
一方、Geminiの方は確信的な回答がありつつも、2問目は間違えてしまったりしました。
ただ現時点では、Geminiは無料なのに対して、ChatGPT4は有料なので、その分Geminiの方が使いやすいとは言えます。

まとめ

今回紹介したGeminiとChatGPTは、どちらも優れた画像認識能力を持つLLMでした。

今後も、仕事とプライベートでLLMを活用する様々な方法を紹介していきます。

読者の皆さんへ

皆さんは、LLMをどのように活用していますか?ぜひコメント欄で教えてください!

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?