[2023.11.7(JST)発表]openai社のDALL・E 3(API対応)の性能は?
2023年11月6日(日本時間、11月7日 3時)にopenaiによるDev dayが開催されました。
そこで、いくつか興味深い発表がされましたが、一部の人にとって興味があったかもしれない、DALL・E 3のAPI対応が発表されました。
chatGPT経由では既に解放されておりましたが、API対応がされると、他ツールとの連携や大量自動生成が実現できますので、より実用化に近づくと思います。
では、このDALL・E 3の性能はどうなのでしょうか?
ほんの少し前は、「AIがそこそこ綺麗な絵が描ける」「実用化できる可能性がある」、という状態だったと認識しています。
結論から言いますと、DALL・E 3はこの世界を前に進めたと感じております。百聞は一見に如かず、ですので、以下をご覧ください。
Stable Diffusion、DALL・E 2、DALL・E 3を比較してみました。
いかがでしょうか?
これは、100人に聞いても、100%投票を得られるかもしれないくらいのクオリティ差と言えるのではないでしょうか?
DALL・E 2は、意味のわからない文字を表示しており、画像も粗く、メッセージ性が低い状態です。
Stable Diffusion XL v0.8は、それなりに綺麗に描けていますし、タイピング=AIコピーライティングへの想起をさせていると思いますが、少し不気味な感じが出てしまっています。もちろん、これはNGではないですし、Stable Diffusionはどんどん進化している最中だと思いますので、今後かなり期待ができると思いますが、クオリティのばらつきにより、再生成コストと探索コストがかかるように思います。
それに対して、DALL・E 3の完成度の高さは、目を見張るものがないでしょうか?
もちろん、どんなアーティストもボツにする作品があるでしょう。1回のアウトプットでは判断ができないと思います。
では、私がnote記事に使った画像も比較してご紹介します。
こちらでは、StableDiffusionは悪くないですね。ですが、"Several AI robots"を汲み取れていないので、メッセージ性が薄れてしまいます。
DALL・E 2は、「まぁ、そういうことなんですけど、、、却下。」という感じですね。(笑)
本記事の画像ももちろん、DALL・E 2にチャンスを与えました。
DALL・E 2 は味があるといえば、あるかもしれませんが、メッセージ性という観点では、圧勝ではないでしょうか?
Stable Diffusionは、画質としては悪くはないです。もしかしたら学習データ(人をベースとした)の重みが強いのかもしれません。ただ、prompt strength を最大値に高めて生成しても以下のようになり、「ロボットが描いている」を演出ができませんでした。
プロンプトの工夫によっても改善されるものと思われます。
我々は、この実験結果のクオリティをうけ、UniCopiというAI記事作成ツールの画像生成機能の搭載、および、そこにDALL・E 3を搭載することを決定しました。
現在、開発テスト中で今週中には、テストローンチ予定です。
シンギュラリティ、は来たのか?
シンギュラリティを「技術的特異点」であり、人間の能力を超えるポイントという意味だけで捉えると、このDALL・E 3はそこを超えていると感じています。(もちろん、AGI=汎用人工知能が、さまざまなタスクにおいて、人間と同等以上にゼロベースから発案し、全てをこなしていくという状態ではありません)
もちろん、クオリティは人間の方がすごいし、メッセージ性もより込められると思います。しかし、スピードを考えてみると、この画像生成にかかる時間は5秒くらい(API経由)です。
実用性の観点で、どちらを採用するかという点になりますが、
ブログ記事のバナー画像のように、アイキャッチ目的で作り、それほど高い芸術性が求められない領域においては、既に、選択の優先順位が変わっていると感じます。
ただ、もう一方で、我々AIを使うことを推奨する立場・使う立場として、これまで作品を上げ続けてきたロイヤリティフリーの素材サイトの恩恵を間接的に受けていると思います。この影の努力を見過ごしてはならないと思いますし、これからもアートを描き続けられる状況を作っていかなければ、生成AIの方も進化していけないと思います。
我々の立場として、一定の売上をフリー素材サイトに献金するなども検討していかなければならないと考えております。
本日の報告は以上となります!