AI-gpt-4-vision-APIとOpenAI TTSを使って、画像の説明するテキストと音声を出力する

2023年11月18日 18:30

gpt-4-vision-APIとOpenAI TTSを使って、画像の説明するテキストと音声を出力する

#GPT4新機能ハッカソン24耐で、2023年11月6日にリリースされたOpenAIの新しいAPI、GPT-4 with VisionとText to speechを動かしてみました。

コード

Google Colabで動かしています。

from openai import OpenAI
import os
os.environ["OPENAI_API_KEY"] = "<APIキー>"
client = OpenAI()

from pathlib import Path

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "日本語で説明してください"},
        {
          "type": "image_url",
          "image_url": {
            "url": "<画像ファイルのURL>"
          },
        },
      ],
    },
  ],
  max_tokens=600,
)

# 応答からテキスト内容を取得
content_text = response.choices[0].message.content.strip()

# Text-to-Speechを使用してテキストを音声に変換
audio_response = client.audio.speech.create(
    model="tts-1",
    voice="nova",
    input=content_text
)

# テキストの出力
print(content_text) 

# 音声ファイルに出力
audio_response.stream_to_file("./<任意のファイル名>.mp3")

テスト

手元にあるイラストなどでテストしてみます。

テスト-1

この画像は、アニメスタイルのイラストレーションで、制服を着た若い女性が登場しています。彼女はにこやかに笑みを浮かべており、開いた本を手に持っています。本の見開きには「Desp Style」と「Picture Book!」という文字があり、左ページには彼女自身のように見える女性キャラクターのイラストがて、右ページには文章が書かれています。背景は白く、女性キャラクターの頭上と右側には興奮を表す黄色いマークが描かれています。キャラクターは大きな目とビビッドな表情が特徴的で、一般的なアニメやマンガのスタイルで描かれています。

OpenAI GPT-4 with Vision

このようなシンプルなイラストは、期待通りの出力をしてくれます。

ギャルにも説明してもらいました。
とにかく陽気ですね。

めっちゃキュートな女の子がいるじゃん！学生っぽい制服着てて、超ウキウキしながら本を持ってるの！この本、なんかのファッションか何かについてのページを指してて、めちゃくちゃ得意げな表情してるんだよね〜。キラキラした目とお花のヘアアクセがトレンディで、ポジポジのオーラがさ、バリバリ感じられるってわけ！この子、なんかいいことあったんだろうな～、って感じで見ててもこっちまでハッピーな気持ちになるよね☆彡

OpenAI GPT-4 with Vision

テスト-2

この画像は、4つのコマからなる漫画です。それぞれのコマにはセリフが含まれており、以下のようなストーリーが描かれています。
1コマ目:
電話をしている男性（部長）が「もしもし！？ええ、今すぐそちらに向かいます！」と言っています。彼の名札には「営業部部長新井サムライ」とあります。
2コマ目:
驚いた様子の若い男性（新人）が「えっ！？」と反応しています。彼の名札には「営業部新人梅木ヨウ」とあります。
3コマ目:
女性2人が話していて、片方が「新人さん、わざとですか？」と尋ねています。
4コマ目:
彼女の向かいにいる女性が笑顔で「部長が来るって」と教えています。一方、後ろでは上司が新人に頭を下げており、新人はショックを受けて固まっています。電話の相手だったのは新人で、上司は彼に「かかってくるなら出るなよ」と言っています。
全体を通して、新人が間違えて大事な電話に出てしまい、上司（部長）が慌ててどこかへ向かう状況が描かれています。また、女性たちが新人の失敗に気づきつつも冷やかしている様子が伝わります。

OpenAI GPT-4 with Vision

マンガのページのような複雑な画像の説明は難しいようです。
出力された内容はかなりデタラメです。

テスト-3

こちらのイラストは、落ち込んでいるような表情をした男性が描かれています。彼の顔には汗をかいており、うなだれている様子が見て取れます。男性はネクタイと名札をつけたビジネスマンの服装をしており、名札には「営業第一課　花村ケイ」と書かれています。彼の後ろには、何か(おそらく重要なもの)が描かれていない白紙のようなスペースがあります。全体的に、この絵はストレスを感じているビジネスマンの姿を表しているようです。

OpenAI GPT-4 with Vision

1コマずつなら精度が出そうです。
AIが学習しやすいようにするには、1コマごとに切り分けやすいシンプルなコマ割りでマンガを作るのがよいのかもしれません。

ギャルにも説明してもらいました。
なんかおっさんみたいですね。

めっちゃヤバっ、このイラスト、なんかオフィスでトラブっちゃった感じだけど、このお兄さん、ムッチャ一生懸命でしょ？顔には「がんばれ！」って書いてあるし、クスッと笑えちゃう感じ。名札には「新ガイ」ってあって新入社員さんかな？なんか失敗しちゃったっぽいけど、こんな時こそポジティブになって、「次はバッチリいこうぜ！」って気合い入れるのが大事だよね☆ 失敗は成功のもとって言うし、このへんちくりんな表情もキュートで愛おしいよね！絶対次は大丈夫、応援してるっス！✨

OpenAI GPT-4 with Vision

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

37,665件