見出し画像

GPT-4o miniで画像分析(API)

GPT-4o miniも出たので、APIで画像分析する方法を簡単にまとめてみました。

今回はAPIをPostmanで実行してみます。
※APIKeyは生成済みを前提として書いております。


PostmanでのOpenAI APIのたたき方

リクエストを作成する

新しいリクエストを作成し、下記内容を入力します。

メソッド: POST
URL: https://api.openai.com/v1/chat/completions

Authorization(認可)にAPIKeyを設定

Authorizationにて、認証タイプは「BearerToken」を選択して、トークンの欄にOpenAIのAPIKeyを設定する

リクエストボディを設定する

私はJSONで書いてみました。
プロンプトとなる文章と、画像を2枚をリクエストに入れます。
画像データ(パラメータ:url)には画像のURL、またはBase64データがセットできます。

{
    "model": "gpt-4o-mini",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "2つの画像を説明してください。"
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "data:image/jpeg;base64,~~~1枚目画像データ"
                    }
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "data:image/jpeg;base64,~~~2枚目画像データ"
                    }
                }
            ]
        }
    ]
}

実行してみる

送信した画像はこの2枚です。
この2枚の画像を説明してもらいます。

いらすとや バレーボール
いらすとや 野球ボール

1つ目の画像は、赤と緑の螺旋状の模様が描かれた球のような形状です。配色はクリスマスのようなテーマを持っており、白い部分も含まれています。2つ目の画像は、白い背景に赤い縫い目が特徴的な野球のボールです。シンプルで、スポーツの道具を表現しています。

差分がわかりにくいと思うので、GPT-4oでやってみた場合の結果はこちらです。

1つ目の画像は、赤、緑、白の3色でデザインされたボールのイラストです。ボール表面には、3色が流れるような曲線で描かれており、緑の部分が左斜め上から右下へ、赤の部分が右斜め上から左下へ流れています。これらの色がボール全体にバランス良く配置されています。
2つ目の画像は、白い野球ボールのイラストです。ボールには、特徴的な赤いステッチが縫い目のように描かれています。赤いステッチは、互いに向かい合った曲がりくねった線で構成され、ボールの中心を囲むように配置されています。このデザインは典型的な野球ボールの外観を表しています。

文字量(情報量)がGPT-4oのほうが多いなと思うくらいで、GPT-4o miniでも十分画像の情報を読み取れているといった所感です。
※分析対象がわかりやすい画像だったからかもしれませんが……

いいなと思ったら応援しよう!

この記事が参加している募集