通常版Bing Chatに画像解析機能がやってきた!個人的には65点くらいな感想(ChatGPT部, 大城)
こんばんは、ChatGPT部、部長の大城です。今日はNEWSが多いので2本目です(明日は連載休むかもしれません)。
先日、Google Bardに画像解析機能がリリースされた評価を行いましたが、昨日くらいに通常版のMS Bing Chatにも画像解析機能がリリースされましたので、取り急ぎそちらの比較記事です。
( 時を同じくして、エンタープライズ版のBing Chatもプレビュー版がでたので、さっきまではそちらの記事を書いていました。NEWSが多すぎますねw )
前回のBardの画像解析について
こんな感じです。今回はこちらで用いた画像に対して、Bing Chatに日本語で質問してみる実験をしてみます。
Bing Chatの画像解析機能
こんな感じで画像入力のアイコンが入力画面に追加されていました。
(なお、現時点では通常版のBing Chatのみで、エンタープライズのプレビュー版にはまだ反映されていませんでした)
なおこの機能、2週間くらい前には噂レベルで一部ユーザーが使える、というツイートを観測していましたが、本当でしたね。
右下の方に、アイコンが追加されているのがわかりますでしょうか。
比較実験してみる
では、前回Bardで実験した画像と同じものを使ってみましょう。
①大城画像の解析 -> OK
以下の画像をinputに、「何が見えますか」と聞いてみました。
Bardでは人物は扱えません、と断られましたが、Bing Chatでは「Bingからみえないようにするぼかし工程」をいれている、との表示があり解析してくれました。
飲んでいるのはワインですが、まぁ楽しそうな雰囲気が伝わってるのでよしとします。70点くらい。
②ハンバーガーメニューの書き起こし -> NG
こちらは全然ダメでした。まだ、Bardの方が商品名が近いものが多かった印象がありますので、100点満点中、15点くらい。一応、バーガーメニューっぽい、というのはあってますけどね。
なお、もっとちゃんとみて、と伝えたところ、無理と言われました・・w
③アスキーアート解析 -> NG
これもBardの方がまだクリスマスツリーと認識していたので優秀ですね。
ヒントを与えて、個数をカウントしてもらいましたが全然だめでした。まだBardの方が2種類の文字、という部分を判別していましたね。
④AIが作成した自動車の渋滞画像 -> OK
こちらは認識してくれました。偶然かもですが、個数も大体30台なので一致。一応、渋滞という表現は前回Bardも答えていましたが、より正確な風景描画をBing Chatは実現していると思います。
個数カウント依頼。色は怪しいですが合計台数は大体あってそう。(偶然?)
⑤トマト画像 -> OK
最後はこちら。赤いトマトが写っている、というのはBardより優秀です。
個数については実際6個のところ、12個の回答なので全然だめですね。
( 緑色のヘタの部分で画像が分割されている、と見えなくもないですが、まぁ人間なら6個、と答えると思います)
BardとBing Chatの比較
簡単ですが、こんな感じですね。点数は完全に主観。
なお、カウンティングタスクはBardの方が上かもしれません。
( どちらも苦手っぽい感じではありますが )
自動車画像で比較
自動車の例で比較してみるとこんな感じでBing Chatに軍配が上がりますね。
・元画像
・Bard
(駐車場には、人は見えないですね・・)
・Bing Chat
アングルや光の当たり方など、Bing Chatの方が結構描写が細かい印象を受けました。
所感:Bing Chatは表現・解釈75点、個数カウントは30点。総合すると65点くらい
いやー、すごいですね。ちょっとした革命の片鱗をみている気がします。
カウンティング、というタスクはちょっと苦手だとしても、表現タスクに対しては結構良い線行っていると思います。
一方で、我々人間の画像解釈精度と比較すると、まだまだ人間に軍配が上がる、というところでしょうか。
ただ、将来的にこれが80点〜100点台(人間と同等)になると、かなり優秀でしょうし、個人的には120点を超え始めると、人間よりはるかに精度が高く解析できる、という状態になりますし、結局は遅かれ早かれ到達するんだろうなぁと思っています。( ただ、どれくらい先かまだ見えないですけどね。半年先か、2年先か・・ )
なおBing Chatの裏側はChatGPT-4がベースなので、これがもしOpenAIの実力の7-8割くらいだとしたら、まだ画像の解釈に関しては人間の方が優っている部分もあるのかなとも思いますので、現時点では所感としてはすごいけど3月のOpenAI社のデモ動画の期待値は超えていない、という感じですね。(Bardの場合はややがっかり、でしたが。)
ただ、これが序の口でOpenAIの画像解析本体はもっとすごい、とかになるとまた話は変わるでしょうし、例えば1年前のちょうど夏頃、Midjourney等の画像生成AIが作った画像に対して、最初我々人類は指の本数がが変だと笑っていましたが、その6ヶ月〜9ヶ月後にはあれよあれよともう人間が描くより上手い、という状態にもなっていたりしますので、全く油断はできないなぁとも思っています。
ということで本日2本目は通常版Bing Chatの画像解析機能の検証でした。
それでは皆さんもどうぞ良いChatGPT & Bing Chatライフを・・!(大城)