OpenAIが強力な言語モデル「GPT-4 Turbo with Vision」のAPIを一般公開
~画像を読み込んで画像認識させるアプリを簡単に実現できるように~
OpenAIは、強力な言語モデル「GPT-4 Turbo with Vision」のAPIを一般公開しました。これにより、企業や開発者は、高度な言語処理と画像認識機能をアプリケーションに簡単に統合できるようになります。
GPT-4 Turbo with Visionは、昨年9月に発表されたGPT-4の画像と音声アップロード機能と、11月のOpenAI開発者会議で発表された高速化されたGPT-4 Turboモデルを組み合わせたものです。
このモデルは、処理速度の大幅な向上、最大128,000トークン(約300ページの文書に相当)の入力コンテキストウィンドウ、開発者にとっての手頃な価格など、多くの利点を提供します。
APIリクエストは、JSON形式のテキストと関数呼び出しを通じて、モデルの画像認識および分析機能を利用できます。これにより、開発者は、メール送信、購入、オンライン投稿などのアクションを自動化するJSONコードスニペットを生成できます。ただし、OpenAIは、現実世界に影響を与えるアクションを実行する前に、ユーザー確認フローを構築することを強く推奨しています。
いくつかのスタートアップ企業はすでにGPT-4 Turbo with Visionを活用しています。
・Healthify:健康とフィットネスアプリは、食事の写真をアップロードすると、栄養分析と推奨事項を提供します。
・TLDraw:英国のスタートアップ企業で、ホワイトボードに書いたWeb画面イメージと動作仕様を元に、Webサイトアプリを生成します。
詳細内容は、OpenAIが提供する元記事を参照してください。
【引用元】
https://platform.openai.com/docs/guides/vision
【読み上げ】
VOICEVOX 四国めたん/No.7