テキストチャットでURLを入力したい。DALL-Eの入力プロンプトを簡単したい。と、ほしい機能を実装していたら面白いことができた。
上記の記事では単純に一からプロンプトを考えるよりは、コンテキストでStable Diffusion 3用のプロンプトを作成する役割を与えることで、平易な言葉でStable Diffusion 3が読み込みやすい英文プロンプトが生成できたので、そのテキストを利用して画像を生成する仕組みにした。
また、KingjoeBotではChat AIをクラス化していてチャット中のコマンドで切り替えられる。画像生成AIもテキスト生成AIも同じAIとして並列に考えてたけれど、画像生成AI(DALL-E3、Stable Diffusion 3)のアシストとしてテキスト生成AI(GPT4、Gemini 1.5 pro、Claude3、Bison、Llama3、Gemma、Mixtral、DeepL)を使うと考えると2 x 8 = 18パタンで楽しめる(のか?)
また、全部ではないけれどマルチモーダルが可能なGPT4、Gemini、ClaudeではURLから情報を持ってきて、テキスト生成AIの入力に使えるようにしたので、それらしい情報を大量に投入できるようになってしまった。
URLから持ってくる情報に画像も含まれるので、より具体的な表現が可能になる。(かな?)
会話履歴機能もあるため前回生成したプロンプトも入力として加えられるため、少しずつ改善させることができるようになったかな。そういえば、GPTとGeminiとClaudeはマルチモーダル入力が可能だった!
ということは画像を参考にプロンプトも作れる?
(上記で気付け!って後に反省)
ということで試してみた。
うん、なぜかお部屋まで付いてきましたがまずまずでしょう。