本日アップデートしたChatGPT Turboは画像生成の救世主か？ - Blog 2023/11/07

2023年11月7日 22:20

OpenAIは6日（米国時間）、サンフランシスコで開発者会議「OpenAI DevDay」を開催しました。基調講演はYouTubeで公開されています。
次世代モデル「GPT-4 Turbo」が発表され、SNSでは早朝から大量の投稿が流れていました。

OpenAI DevDay, Opening Keynote

GPT-4 Turboは12万8000トークンまで扱えるようなり、一般的な書籍に例えると300ページ以上になります。
GPT-4 Turboの知識量ですが、2023年4月までの情報を持っています（GPT-4は2021年9月まで）。ただ、ニュース情報などはバックグラウンドでBingが動くので、検索して最新の情報を表示します。今日のニュースも表示できます。

「OpenAI DevDay」は開発者向けのイベントなので詳細は、IT系のニュースメディアにお任せして、クリエイティブワークに影響を与えるトピックに絞りたいと思います。

参考：

プロンプト生成と画像生成を同時に実行させる

ChatGPTを開くと、アップデートのポップアップが表示されます。

念のため、仕様について聞いておきます。

私：

例えば、画像をアップロードして、その画像を再現するプロンプトを生成し、続けて、そのプロンプトを実行して画像生成できますか？

ChatGPT：

はい、そのようなことが可能です。まず、アップロードされた画像を分析して、その内容を説明する詳細なプロンプトを作成します。次に、そのプロンプトを使用して、DALL·Eを使って新しい画像を生成することができます。画像をアップロードしていただければ、そのプロセスを開始します。

それでは、試していきましょう。
まず、Midjourneyで生成した画像ファイルをChatGPTのウィンドウにドラッグしてアップロード、再現するプロンプトを生成させ、同時に画像も生成させてみました。
今までは、プロンプトを生成させた後、メニューでDALL·E 3に切り替えないと画像生成できなかったのですが、同時に実行させることが可能になっています（ALL Toolsと呼ばれていたもの）。

再生時間：25秒

次は、ChatGPTに役割を与えて2人の専門家に共同作業させてみます。

Midjourneyの生成画像をアップロード。この画像をリファレンスにする
専門家Aは、プロンプトを考案して、同時に画像も生成する
専門家Bは、生成された画像の改善点を指摘する
専門家Aは、指摘をプロンプトに反映させ、再び画像を生成する

やり取りが英語になっていますが、専門家Aが考えたプロンプトで画像が生成され、その画像を専門家Bが評価し、専門家Aが改善点を考慮してプロンプトを修正し、再度画像を生成しています。

再生時間：20秒

これは…. 画像生成ワークフローを変えてしまうインパクトがある。
プロンプトを考える時間は簡素化され、アートディレクターのような役割が重要になっていきますね。

企画書を読ませて、内容に沿った画像を生成させる

「動画生成AIでミュージックビデオをつくる Live」のストーリー案（テキストファイル）をChatGPTにアップロードして、書かれている内容に沿ってイメージを生成させてみます。
まず、以下のようにストーリー案の内容が理解できたかどうか確認します。

このテキストファイルに書かれている「MV「Never Your Friend (仮)」のストーリー案」の第1幕、第2幕、第3幕の内容を理解してください。書き出す必要はありません。
理解できたら「理解できました」と答えてください。

書かれている内容に沿って、第3幕までのイメージを生成させてみます。

画像生成AIの専門家として、第1幕、第2幕、第3幕の内容をそれぞれ画像生成してください。使用したプロンプトも英語と日本で書いてください。

全てのイメージを生成してくれました。
今まで一度に出力できる数は2つだったのですが、6つ生成されました。
数週間ごとに仕様が変わるので、紙のマニュアルを作ると大変だ…

試しに、ChatGPTが生成した第1幕のプロンプトをMidjourneyを使って生成してみます。

A picturesque coastal town where childhood bonds shine. 18-year-old Meg, with a passion for photography, captures the everyday life of her hometown with her camera. Her neighbor and childhood friend Jake dreams of becoming a professional surfer. Their friendship is strong as they share their dreams and spend their days together. The scene shows a sunny coastal town with Meg taking pictures and Jake surfing in the background, reflecting their strong friendship and shared dreams.

写真が趣味の18歳のメグは、カメラで故郷の日常を捉えています。隣に住む幼なじみのジェイクはプロのサーファーになることを夢見ています。2人の友情は強く、共に夢を語り合いながら日々を過ごしています。このシーンは、メグが写真を撮り、バックグラウンドでジェイクがサーフィンをする晴れた海岸の町を示しています。

生成画像の品質は素晴らしいのですが、プロンプトに忠実なのはDALL·E 3です。Midjourneyは、「メグが写真を撮り、バックグラウンドでジェイクがサーフィンをする晴れた海岸の町」のシーンがまったく表現できていません。
プロンプトの解釈は、DALL·E 3やAdobe Fireflyに劣っているので、意図したイメージに近づけるのが大変です。

DALL·E 3はプロンプトを忠実に表現してくれるので、Midjourneyより試行錯誤を減らすことができますが、写実的な表現（写真と区別がつかないリアリスティックな表現）はよくブロックされます。
以下のようなメッセージを表示します。

I was unable to generate images based on the latest prompt due to content policy restrictions.

コンテンツポリシーの制限により、最新のプロンプトに基づいて画像を生成することができませんでした。

以下のように、まだ完璧な画像生成AIサービスはないので（どれも一長一短）、複数の生成AIを組み合わせて使うしかないですね。

Midjourney：
写真と区別できないレベルの実写系の表現に優れているが、プロンプトの内容を反映してくれないことが多い
DALL·E 3：
プロンプトの内容を忠実に表現してくれるが、実写系の表現はブロックされることが多い

生成した画像をA4のドキュメントに配置してPDFで書き出す

ALL Toolsと呼ばれていた機能統合が利用可能になりましたので、複数の作業を自動処理させてみました。作業内容は以下のとおりです。

テーマに沿って2つの画像を生成する
A4サイズのドキュメントに生成画像を配置する
PDFで書き出す

作業記録を16秒の動画にしたのでご覧ください。

再生時間：16秒

全ての処理をまとめて実行させると、プロンプトの一部を無視することがあるので、2つのタスクに分けた方がうまくいきます。

画像生成のタスク：

生成AIの専門家として、以下の条件で、画像を生成してください。

#条件
・東京渋谷の若い日本人の男女の写真を2種類 (AとB) 生成してください
・縦横比は、16:9にしてください

生成画像の配置とPDF作成のタスク：

以下の条件で、生成した画像 (AとB)をPDFに配置してください。

#条件
・PDFはA4サイズの縦向きにして、画像(AとB)を縦方向に配置してください。絶対に画像の比率を変えないでください。
・画像の間隔は2cmにしてください
・余白に画像生成に使用したプロンプトを英語で掲載してください

エラーが頻繁に出ますが、ChatGPTが勝手にトライアンドエラーを繰り返して、最終的にはPDFのダウンロードリンクを表示してくれます。
ただ、少し不安定。同じ画像を2つ配置したり、プロンプトを掲載しなかったり。その都度、プロンプトで修正させることになるので、ちょっと面倒です。

Google Bard & Adobe Firefly にも期待

5月11日、AdobeはFireflyとGoogle Bardとの連携を発表しました。
いつリリースされるのか、まだ分かりませんがBardでも対話ベースの画像生成が可能になるかもしれません。

私：

Bardは画像を生成できますか？

Bard：

2023年11月8日現在、Bardは画像を生成することはできません。しかし、GoogleはAdobeの画像生成AI「Adobe Firefly」との連携を発表しており、今後Bardでも画像生成が可能になる予定です。

私：

Adobe Fireflyが実装されると、生成した画像に対して、修正の指示なども出せるようになるのでしょうか？

Bard：

はい、Adobe Fireflyが実装されると、生成した画像に対して、修正の指示なども出せるようになると考えられます。
Adobe Fireflyは、テキストやコード、画像などの入力に基づいて、高品質な画像を生成できるAIです。そのため、生成した画像に対して、修正の指示を出しても、AIが理解して、その指示に従って画像を修正することができると考えられます。

具体的には、次のようなものが挙げられます。
　・特定のオブジェクトや人物を追加したり、削除したりする
　・オブジェクトや人物の色や形状を変更する
　・画像の背景を変更する

Google BardとAdobe Fireflyの連携にも期待したい！

今回のChatGPTのアップデートは、画像生成ワークフローを高度化し、脱プロンプトを加速させたと思います。
以下の記事で書いたとおり、テキストプロンプトで試行錯誤することの限界を突破する最も有効なインターフェイスではないでしょうか。

デザイン業界で言えば、アートディレクターとしてChatGPT（有能なアシスタント）に指示を出しながら、意図したイメージに近づけていく作業が主流になっていくと確信しています。
ChatGPTは必要に応じて、最も適したAI技術をバックグラウンドで動かしながら、対応してくれます（私たちは最先端のAI技術について知る必要はないわけです）。

チャットベースの画像生成が主流になる理由

ユーザビリティの向上:
- 利用者がプロンプトの言葉選びや表現に悩む時間が減り、直感的に望む画像に近づけることができます。
  使いやすさやが向上することで、より多くの人がこれらの画像生成AIを利用するようになると考えられます。
細かい調整が容易:
- 利用者は初めのリクエストから順に詳細を追加・修正することができ、より具体的な指示や修正を繰り返すことで、理想的な画像を生成することが可能になります。
教育コストの軽減:
- チャットと対話しながら、画像生成AIを利用できるようになりますので、画像生成の敷居が低くなるでしょう。

画像生成中のエラーが多くなってきた…

世界中のヘビーユーザーが殺到しているようで、画像生成中のエラーが多くなってきました。一旦休憩しましょう…
夜から深夜の時間帯はエラーが出やすい。

We are experiencing heavy server load. To ensure the best experience for everyone, we have rate limits in place. Please wait for 7 minutes before generating more images.

サーバーに大きな負荷がかかっています。皆様に最高の体験をしていただくために、レート制限を設けています。さらに画像を生成する前に7分間お待ちください。

一旦ここまで
引き続き、アップデートしたChatGPTの検証を進めていきます。

更新日：2023年11月08日（水）／公開日：2023年11月07日（火）