画像読み込みが出来るようになったBardとBing AIを試してみる その①
【2024/5/20追記】GPT-4oで行った最新版のリンク
GPT-4oの威力か!? ついにほぼパーフェクトに風景写真を分析してくれた!|SATOSHI (note.com)
2023年7月の半ばくらいから、GoogleのBardと、MicrosoftのBing AIのチャットがそれぞれ、画像のアップロード(読み込み・認識)に対応するようになりました。もともとは、Open AIがGPT-4の紹介をしたときに、画像の認識もできることをデモして話題になり、私もそれが出来るんだったら面白そう!!と速攻でChat GPT Plusに加入したのですが、どういうわけかその機能は提供されないままでした。そんな中でBardとBing AIは一般向けの提供という点では一歩前に出たことになります。(7/20日現在はまだ、英語モードでのみ対応などいくらか制限があるようです)
私は旅行に行ったりすると、風景の写真をよく撮ります。特に凝った写真を撮るわけではなくスナップ写真です。また、手元には自分の子供の頃、つまりフィルムカメラ時代に、親が撮った写真も、たくさんあります。その中には、これはいつ頃、どこで撮ったのか? を知りたくなることがあります。GoogleマップやGoogle Earthで調べまくって、映っている景色を手掛かりに割り出してみると興味深い発見があったりするのですが、それがAIを使えばもっと簡単に分析できるようになるかもしれない。まずはこれが関心事です。
そこで自分が撮った写真から一枚、読み込ませてみました。
特徴的な形状のタワーがCNタワーであることを知っている人なら、これがカナダのトロントであり、手前の水面はオンタリオ湖だということがわかります。何年か前に旅行で行った時のものです。これをどこから撮ったのか、またいつごろ撮ったと考えられるか、BardとBing AIに聞いてみることにしましょう。
場所も撮影した時間帯も当てたBardだが・・・
トロントであり、オンタリオ湖越しにCNタワーが映っていると、見事に言い当てました。また撮影した時間も21時と推定していますが、実際に撮影したときのExifデータが正しければ20時過ぎ、と記録されているのでほぼ当たっています! そして、、、
と、撮影した場所がHumber Bay Shoresだろう、と言ってます。すごい!
実は、この写真をオンタリオ湖畔の公園のような遊歩道から撮ったのは覚えているのですが、実際どこだったかよく思い出せなかったのでそれが知りたかったのです。Google Earthで検証してみたら、バッチリ当たっていることが確認できました。
よく見ると公園の住所まで示してくれているではありませんか。ちょっと興奮を覚えながら、その住所をググると、、、場所は、CNタワーすぐ近くのハーバーフロントと呼ばれるエリア、つまりまったく別の場所でした。撮った場所を正確に割り出してくれたのに、その住所がデタラメ(と言っても直線で7,8km程度の違いなのでデタラメは言い過ぎかもしれないけど)だとは。これにはちょっと拍子抜けしました。
撮影した年もわかるだろうか・・・
しかしそこは気を取り直して、次にこの写真に写っている建物などから、この写真がいつごろ撮られたものか推定してほしいと頼んでみました。
実はお試しのためにこの写真を使うことにしたのには理由があります。トロントは特に2000年代ごろからでしょうか。オンタリオ湖畔を中心に高層ビル、特にコンドミニアムの建設ラッシュが続いているようで、私が2014年に訪れたこの時も、10年前とは街の景色が大きく変わっていることに驚いたのです。このビルがまだ建っていなくて、あのビルは建設中のクレーンが映っていて、、、という具合に、データベース上の他のトロントの写真と比較しながら解析する能力があれば、おのずと年単位くらいの精度で写真が撮られた年を割り出せることが期待できます。で、Bardさんの回答は、、、
1985年から1995年の間、とかなりハズレてしまいました。
Bardに対して、具体的に写真の中で2012年頃、2015年頃にできたビルの名前を調べたうえで、このことから撮影された年が大体推定できるのではないかと指摘してみたところ、正しい情報を教えてくれてありがとうというお行儀の良い返事は返ってきましたが、なんとなく、実際はどのビルのことを指しているのか理解してないんだろうな、という気がしました。
Google MapsやGoogle Earthで人間でもちょっと手間をかければ解析できるからと言って、それがGoogleのBardさんなら同じようなことが簡単にできるのかというと、まだそこまでではなさそうです。
うーん、、題材のトロントの写真自体もニッチなのかな。
では気を取り直して、次はBing AIさん。 GPT-4を使ってるので、ちょっと期待が高まってしまいます。
ということで同じ写真を見せてみたのですが、、、
逆画像検索には対応していないのでわからない。夕方のトロントのようだけど撮った場所や時期はわからない、ということでした。なぜトロントだと思ったのかを尋ねると、CNタワーが映っているからと答えてきました。
なるほど…CNタワーを識別している、ということはやっぱり写真に何が映っているのかについては理解出来ているのでしょう。ここで気づくのは、どこから撮ったのか、いつ撮ったのか、という「逆解析」のようなことについては、自主規制をしているのではないかということです。よく考えてみれば、このような風景写真ではなく誰かの家を写した写真を見せて、住所を割り出したり、撮った写真を解析されて自宅や滞在先など、居場所を特定されたりすると、犯罪や悪質な商売やストーカー行為等に悪用される可能性があります。Bing AIの場合はそのあたりの懸念を考慮して、まずはキツめの自主規制をかけているのかもしれません。
AIについて、誰が 誰に対して 何を どのように 規制するのが妥当か、という議論は非常に重要で難しいものだということを感じてしまいます。
それはさておき、次は場所をニューヨークに移して、お題の難易度を少し下げて試してみようと思います。
画像読み込みが出来るようになったBardとBing AIを試してみる その②|SATOSHI (note.com)
2023 11/13追記
満を持して? 最新のChatGPT(GPT-4)でもやってみました。
画像読み込みテスト ChatGPTでやってみたら・・・画像解析能力の現在地が見えてきた|SATOSHI (note.com)
2024 5/20追記
GPT-4oで進化!
GPT-4oの威力か!? ついにほぼパーフェクトに風景写真を分析してくれた!|SATOSHI (note.com)