OpenAI API の Vision Fine-Tuning の概要

2024年10月2日 09:45

以下の記事が面白かったので、簡単にまとめました。

・Introducing vision to the fine-tuning API

1. Vision Fine-Tuning

本日 (2024年10月1日)、「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. Vision Fine-Tuning のしくみ

「Vision Fine-Tuning」は、テキストによるファインチューニングと同様のプロセスに従います。開発者は、適切な形式に従って画像データセットを準備し、そのデータセットをOpenAIのプラットフォームにアップロードできます。わずか100画像でGPT-4oのVisionタスクの性能を向上させ、大量のテキストと画像データでさらに高いパフォーマンスを向上させることができます。

{
  "messages": [
    { "role": "system", "content": "You are an assistant that identifies uncommon cheeses." },
    { "role": "user", "content": "What is this cheese?" },
    { "role": "user", "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/3/36/Danbo_Cheese.jpg"
          }
        }
      ] 
    },
    { "role": "assistant", "content": "Danbo" }
  ]
}

3. Vision Fine-Tuning の利用例

「Vision Fine-Tuning」の利用例をいくつか紹介します。

3-1. 道路上の画像検出と理解の向上

大手フードデリバリーおよびライドシェア会社である「Grab」は、わずか100画像の「Vision Fine-Tuning」を使用して、「GPT-4o」に交通標識を正しくローカライズし、マッピングデータを改良するために車線区切りを数えるように教えました。その結果、基本的な「GPT-4o」よりも車線カウント精度を20%向上させ、制限速度標識のローカライズを13%向上させることができ、以前の手動プロセスからマッピング操作をより自動化できるようになりました。

3-2. ビジネスプロセスを自動化するデスクトップボットの成功率を向上

エンタープライズオートメーション企業である「Automat」は、「Vision Fine-Tuning」とスクリーンショットのデータセットを使用して、自然言語の説明が与えられた画面上のUI要素を見つけるように「GPT-4o」を学習し、RPAエージェントの成功率を16.60%から61.67%に向上させました。これは、基本的な「GPT-4o」と比較してパフォーマンスが272%向上しました。さらに、「Automat」は、情報抽出タスクのF1スコアを7%向上させるために、構造化されていない保険文書のわずか200画像を学習しました。

3-3. デジタルコンテンツ作成の品質を向上

「Coframe」は、画像と既存のコードに基づいて、「GPT-4o」にWebサイトの次のセクションのコードを生成するタスクを課しました。「GPT-4o」を画像とコードでファインチューニングすることで、基本的な「GPT-4o」と比較して、一貫した視覚スタイルと正しいレイアウトでWebサイトを生成するモデルの能力を26%向上させました。

4. 安全とプライバシー

ファインチューニングされたモデルで自動安全評価を継続的に実行し、アプリケーションが使用ポリシーに準拠していることを確認するために使用状況を監視します。すべてのAPIサービスと同様に、「Vision Fine-Tuning」は、エンタープライズプライバシーのコミットメントの対象となります。ファインチューニングされたモデルは、ビジネスデータを完全に所有して、完全にあなたのコントロール下にあります。

5. Vision Fine-Tuning の利用料金

「Vision Fine-Tuning」は、すべての有料開発者が利用できます。これらの機能は、最新の「GPT-4o」(gpt-4o-2024-08-06) でサポートされています。開発者は、Chatエンドポイントと同じ形式を使用して、画像の既存のファインチューニング学習データを拡張できます。

2024年10月31日まで1日あたり100万個の学習トークンを無料で提供しています。2024年10月31 日以降は、100 万トークンあたり25ドル、推論は100万入力トークンあたり3.75ドル、100 万出力トークンあたり15ドルかかります。画像入力は、最初に画像サイズに基づいてトークン化され、その後、テキスト入力と同じトークンあたりのレートで価格設定されます。詳しくは「API Pricing」を参照してください。

6. Vision Fine-Tuning をはじめる

「Vision Fine-Tuning」をはじめるには、「Fine-Tuning Dashboard」にアクセスし、「Create」をクリックし、基本モデルのドロップダウンから「gpt-4o-2024-08-06」を選択します。「GPT-4o」を画像でファインチューニングする方法については、ドキュメントを参照してください。