画像生成AI「DALL-E3」に、画風の指定ができる「gen_id」が登場 どのように編集できるのか?
現在、非常に話題となっているのがOpenAIの人工知能チャットボット「ChatGPT」だ。2023年11月6日(現地時間)には、ChatGPT 4 TurboやAssistants APIがリリースしており、進化を続けている。
そんなChatGPTだが、画像生成AI「DALL-E3」を使うことができる。DALL-E3 は、一般的な画像生成AIと比較して非常に精細な画像を生成できることで知られているが、登場初期はSEED値などの制御ができなかった。その後はSEED値による画像の制御ができたが、さらに変化し、2023年11月7日現在は生成する画像に対して固有の識別子である「gen_id」を割り当てるようになった。
gen_idの導入により、過去に生成した画像の参照や生成した画像に対する改善のためのフィードバックを同一スレッド上で行うことができるようになった。例えば、上の画像のようにgen_idを呼び出して、猫の表情を変えることもできる。Stable DiffusionのControlNetのような詳細に行うことはできないが、ある程度は特定の画像に変更することができる。
gen_idの呼び出し方は非常に簡単で、画像のgen_idをリクエストするだけで簡単に出すことが可能だ。因みに、gen_idは同じチャットセッション内でしか使用できないため、新たなチャットセッションで画像を参照したり、他人に同じ画像を生成することはできない。別のチャットセッションにgen_idをリクエストするとgen_idを文字と認識して、全く違う画像が登場する。
gen_idが追加された一方、DALL-E3でも一時期追加されたSEED値の使用に関しては様々な意見がある。SEED値を出さないで拒否する場合や、SEED値の指定とプロンプトを同じにしても、別の画像が登場する。
SEED値は、画像生成プロセスで乱数生成器の初期値として使われるもので、多くの画像生成モデルでは、同じSEED値を使えば、同じ乱数のシーケンスが生成されるため、理論的には同じ結果が出る。
ただ、DALL-Eの場合は、同じSEED値を使っても、内部の処理ステップやその他の変数の微妙な違いによって、結果が異なる可能性があるようだ。現時点では、DALL-E3は、一時期はできたプロンプトを使って以前に生成した同一の画像を再現したり、他人とそれを共有して同じ画像を生成させることはできなくなったようだ。
gen_idの登場で、画像の変更ができるようになったDALL-E3だがStable Diffusionなどの画像生成AIと比較すると見劣りする。ただ、ChatGPTやDALL-E3は、すぐにアップデートすることがあるので、将来的には思い通りにプロンプトで画像を編集することができるかもしれない。
文:松本健多朗