Microsoftが提供している「Bing Image Creator」で「DALL·E 3」が利用可能になったので検証してみました。今回の検証は簡易的なものです。
MacBook ProにインストールしたMicrosoft Edgeを使用。
最初に100ブースト(クレジット)提供されますが、あっという間に使い切ってしまい、生成速度がかなり遅くなったので、初日は1時間くらいで終了(24時間後、100ブースト補充されたので検証の続きを行いました)。
まだブーストが残っているのに、生成時間が遅くなることがあります。
「これは弊社側が負担します! イメージの作成に通常よりも時間がかかっています。ブーストは使用されません。」と表示されていましたが、15分経っても生成されないので中断。
ヘビーユーザーの皆さんは、MidjourneyやRunwayでもGPU消費に悩まされていると思いますが、高速・無制限生成したいなら高額プランを契約するか、Stable Diffusionを自分のマシンで動かすしかない。
Adobe Fireflyも11月からクレジット制限が適用されるので(無料ユーザーはすでに適用されている)、本格的に使いこなしたい人は生成クレジットの追加購入を覚悟しなければいけませんね。
Midjourneyで使用したプロンプトを入力して比較検証
ファーストインプレッションは「表現力が大幅に向上している!」です。Midjourneyの過度に美化されたイメージに慣れてしまったので、あまり期待はしていませんでしたが、想像以上に良い印象です。
以下が、最初に生成したイメージ。
プロンプト:
プロンプト:
プロンプト:
※Midjourneyで使用したプロンプトをそのままペーストしていますので、DALL·E 3には無意味なパラメータを含みます。
生成した画像とプロンプトの履歴は、古いものから消えていくので以下の生成画像のプロンプトは参照できませんでした。残しておきたい生成画像(+入力したプロンプト)は、共有リンクの取得をお奨めします。
DALL·E 3はテキストも生成する
以下のプロンプトの「troublemaker」を文字として認識していますので、生成された画像に「TROUBLEMAKER」の文字が表現されています。
プロンプト:
権利侵害を回避するためのIPブロックは、Fireflyより少々緩いようです。 ただ、MidjourneyやFireflyでは問題なく生成できるプロンプトが、DALL·E 3ではブロックされることがあります。各社、コミュニティガイドラインの差異はありますが、総じて厳しいです。
プロンプト:
上記のプロンプトに含まれていた「idol(アイドル)」がブロックされました。MidjourneyやFireflyではこのワードが含まれていても生成できます。
今後、利用者が増加していくと、不適切な画像の生成も増えて、トラブルが発生する度にガイドラインを厳しくしていくことになるはず。
営利企業が提供する生成AIは「安全」を優先しますので、自由に生成したいなら、Stable Diffusion一択で、自分のマシンで動かすしかないでしょう。
Midjourney、Fireflyと比較
同じプロンプトを使って比較してみました。今回は簡易な検証なので、検証サンプルとして有効な若い女性を対象にしています。
プロンプト:
Midjourneyの美学システムは圧倒的ですが、DALL·E 3も良好です。
Fireflyは有名人や人気キャラクターなどを生成できないように調整されていますので、グラビアを中心とした写真表現や日本の漫画・アニメスタイルのイメージがほぼ生成できません。ガチャを回し続けて、近いイメージをリファレンスにしながら何度も繰り返すことになりますので難易度がかなり高いです。
とはいえ、ベータ版がリリースされた3月頃の生成レベルが半年で大幅に向上していますので、今後の追加学習で生成しやすくなるでしょう(それでもグラビア美少女のようなイメージの生成は無理だと思いますが...)。
MidjourneyのAesthetic Systemはレベルが違うので、比較するのは時期尚早かもしれません。単語1つでも、小学生が適当に入力してもクリエイティブなイメージを生成するMidjourneyは「誰がやっても美しい絵を生成してしまう」問題を抱えています…(良い意味です)
現在のDALL·E 3(Bing Image Creator)にはバリエーション機能がないので、毎回一発勝負となりますが、高確率でMidjourneyに近いイメージを生成します。ブロックの頻度はFireflyと同じくらいですが、人気キャラクターに寄ったイメージが生成されることがあるので注意は必要かもしれません。
プロンプト:
プロンプト:
プロンプト:
プロンプト:
プロンプト:
プロンプト:
DALL·E 3で生成した画像をRunway Gen-2でビデオ生成してみました。
カスタムカメラコントロールとモーション値、プロンプトによる指示で動かしています(Runwayもたった2か月でここまで進化しました)。
コンテンツ認証
Fireflyで生成された画像には、コンテンツ認証情報が埋め込まれますが、DALL·E 3でも同様にコンテンツ認証情報(Content Credentials)が付加されます。作成された日時やAIモデルなどの情報を知ることができます。
参考:AI があなたの毎日を支援する、Microsoft Copilot を発表
ChatGPTと連携可能な「DALL·E 3」には、まだ私たちには見えていない大きな可能性を秘めている可能性があります。画像生成の全く新しい利用方法が発見されるかもしれません。
世界中の生成AIヘビーユーザーたちが24時間体制で検証していますので、コミュニティの情報は注意深く見ていきたいと思います。
手の表現精度はDALL·E 3でも変わりませんが…
手(指)や関節、歯、群集など、画像生成AIが苦手とする表現は、Photoshopによる「後処理」で修正することができますので、プロンプトで試行錯誤するより圧倒的に効率的です。
最新のPhotoshopに生成AI機能が実装されたことで、生成後の安定したワークフローになりました。AIと人間の共同作業で「何とでもなる」というフェーズに入った感じですね。
更新日:2023年10月4日(水)/公開日:2023年10月4日(水)