「GPT-4 vision(preview)」の性能評価

村上和也 | (株)Insight science 代表

2023年11月10日 14:18

11/7（日本時間）にopenai社にてリリースされた目玉の１つ、「GPT-4 vision preview」の実力を試してみました。

「GPT-4 vision」って

「GPT-4 vision」（この呼び方が正しいのかわかりませんが）は、GPT-4が画像を読み取ることができる生成AIモデルです。マルチモーダルといって、テキストだけではなく視覚的な情報を解釈できるようになる非常に期待の高い機能です。

シンプルな画像の説明をさせてみた

まず、Pixabayから以下の画像を引っ張ってきました。
どれくらいできるのか、手始めに見てみよう、と。

画像認識技術は、何年も前から出ている技術ですので、特にそこまで期待はしていませんでした。

どうせ「女の子」「浮き輪」「プール」「壁」とかが出てくるのではないか、と私の期待はそれほど高いものではなかったのです。

今となっては、ものすごく反省しています。。。

GPT-4 Vision previewが読み取ったテキストをお見せしましょう。

この画像には、水泳用のフロートに囲まれたプールで遊んでいる小さな女の子が写っています。フロートは白とオレンジ色のストライプでデザインされており、女の子はフロートにつかまって水面に浮かんでいる様子が見られます。彼女の表情は楽しげで、水遊びを楽しんでいる様子が伝わってきます。背景にはコンクリートの壁があり、青い水が対照的な色合いを見せています。

GPT-4 Vision

いかがでしょう、すごくないですか？
・女の子は認識していますが、顔から「小さな（幼い）」ことを当てています
・「フロートにつかまって水面に浮かんでいる」という状態を見事に捉えています
・「表情は楽しげで、水遊びを楽しんでいる様子が伝わってきます。」表情まで読み取り、自然な表現で、本当に人がみて表現しているようです。
・「背景にはコンクリートの壁があり、青い水が対照的な色合い」色ももちろんですし、コンクリートの壁も認識しています

この文章を読むと、情景が浮かびませんか？
私は、ここまでうまく画像の描写を瞬時に説明しろと言われても、できる自信がありません。

言語→画像へ再生成

これがどれくらいすごいことなのかを、証明するために、このアウトプットをそのままPromptにして、DALL・E 3に生成させました。

その結果が、こちらです。

見事に、再現できていますね。頭の中で浮かんだ絵はこちらです。
これってすごくないですか？

「画像を、自然言語コーディングできている」ってことではないでしょうか。恐ろしいですね。

もう、本当に、AIに仕事を奪わせる世界は訪れていることを認識しました。

文字付きのバナーは認識できるか？

文字付きのバナーを説明できれば、Web広告人としては、いろんな活路が見出せますよね。
でも、バナーっていろんな情報が詰め込まれてて、どうなんでしょうか？

画像は以下を拝借しました。

この画像は、「SABON Holiday Collection 2023」というタイトルが付けられた広告です。画像には様々なボディケア製品が星空の背景に配置されており、祝祭感あふれる雰囲気が演出されています。製品にはアロマディフューザー、シャワーオイル、ボディローションなどが含まれています。それぞれが華やかで高級感のあるパッケージデザインをしており、画面の下部には「ヴィーガンフォーミュラ」と書かれたマークが表示されています。これは、製品がヴィーガンの基準に則った成分で作られていることを示しています。また、左下には特定の日付「販売開始 10.26 Thu」が記されており、このコレクションの発売開始日が示されています。全体的に、この広告は高級感と。

GPT-4 Vision

かなり、読めてますね。
しかも、日本語読めてる・・・？
限定発売→「販売開始」とはなっていますが。

日本語は読めないという話だったと思うのですが。

もう、これは革命ですね・・・。

バナー画像がたくさんあって、分類に困っている企業さんは少なくないと思います。バナーの分類は完全に自動化できそうですね。

分類ができるってことはナレッジ化できるってことです。

openai、すごすぎる。。。