「GPT-4 vision(preview)」の性能評価
11/7(日本時間)にopenai社にてリリースされた目玉の1つ、「GPT-4 vision preview」の実力を試してみました。
「GPT-4 vision」って
「GPT-4 vision」(この呼び方が正しいのかわかりませんが)は、GPT-4が画像を読み取ることができる生成AIモデルです。マルチモーダルといって、テキストだけではなく視覚的な情報を解釈できるようになる非常に期待の高い機能です。
シンプルな画像の説明をさせてみた
まず、Pixabayから以下の画像を引っ張ってきました。
どれくらいできるのか、手始めに見てみよう、と。
画像認識技術は、何年も前から出ている技術ですので、特にそこまで期待はしていませんでした。
どうせ「女の子」「浮き輪」「プール」「壁」とかが出てくるのではないか、と私の期待はそれほど高いものではなかったのです。
今となっては、ものすごく反省しています。。。
GPT-4 Vision previewが読み取ったテキストをお見せしましょう。
いかがでしょう、すごくないですか?
・女の子は認識していますが、顔から「小さな(幼い)」ことを当てています
・「フロートにつかまって水面に浮かんでいる」という状態を見事に捉えています
・「表情は楽しげで、水遊びを楽しんでいる様子が伝わってきます。」表情まで読み取り、自然な表現で、本当に人がみて表現しているようです。
・「背景にはコンクリートの壁があり、青い水が対照的な色合い」色ももちろんですし、コンクリートの壁も認識しています
この文章を読むと、情景が浮かびませんか?
私は、ここまでうまく画像の描写を瞬時に説明しろと言われても、できる自信がありません。
言語→画像へ再生成
これがどれくらいすごいことなのかを、証明するために、このアウトプットをそのままPromptにして、DALL・E 3に生成させました。
その結果が、こちらです。
見事に、再現できていますね。頭の中で浮かんだ絵はこちらです。
これってすごくないですか?
「画像を、自然言語コーディングできている」ってことではないでしょうか。恐ろしいですね。
もう、本当に、AIに仕事を奪わせる世界は訪れていることを認識しました。
文字付きのバナーは認識できるか?
文字付きのバナーを説明できれば、Web広告人としては、いろんな活路が見出せますよね。
でも、バナーっていろんな情報が詰め込まれてて、どうなんでしょうか?
画像は以下を拝借しました。
かなり、読めてますね。
しかも、日本語読めてる・・・?
限定発売→「販売開始」とはなっていますが。
日本語は読めないという話だったと思うのですが。
もう、これは革命ですね・・・。
バナー画像がたくさんあって、分類に困っている企業さんは少なくないと思います。バナーの分類は完全に自動化できそうですね。
分類ができるってことはナレッジ化できるってことです。
openai、すごすぎる。。。