AI-gpt-4-vision-APIとOpenAI TTSを使って、画像の説明するテキストと音声を出力する
gpt-4-vision-APIとOpenAI TTSを使って、画像の説明するテキストと音声を出力する
#GPT4新機能ハッカソン24耐 で、2023年11月6日にリリースされたOpenAIの新しいAPI、GPT-4 with VisionとText to speechを動かしてみました。
コード
Google Colabで動かしています。
from openai import OpenAI
import os
os.environ["OPENAI_API_KEY"] = "<APIキー>"
client = OpenAI()
from pathlib import Path
response = client.chat.completions.create(
model="gpt-4-vision-preview",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "日本語で説明してください"},
{
"type": "image_url",
"image_url": {
"url": "<画像ファイルのURL>"
},
},
],
},
],
max_tokens=600,
)
# 応答からテキスト内容を取得
content_text = response.choices[0].message.content.strip()
# Text-to-Speechを使用してテキストを音声に変換
audio_response = client.audio.speech.create(
model="tts-1",
voice="nova",
input=content_text
)
# テキストの出力
print(content_text)
# 音声ファイルに出力
audio_response.stream_to_file("./<任意のファイル名>.mp3")
テスト
手元にあるイラストなどでテストしてみます。
テスト-1
このようなシンプルなイラストは、期待通りの出力をしてくれます。
ギャルにも説明してもらいました。
とにかく陽気ですね。
テスト-2
マンガのページのような複雑な画像の説明は難しいようです。
出力された内容はかなりデタラメです。
テスト-3
1コマずつなら精度が出そうです。
AIが学習しやすいようにするには、1コマごとに切り分けやすいシンプルなコマ割りでマンガを作るのがよいのかもしれません。
ギャルにも説明してもらいました。
なんかおっさんみたいですね。