見出し画像

DALL•E 2を使ってみた

今朝、日経新聞の朝刊を読んでいたらマイクロソフトがSNSに投稿するチラシや案内状を気軽に作成できるデザインアプリ(Microsoft Designer)を発表したとの記事を目にしました。最近、stable diffusionなど文章から画像を生成する技術が世を騒がせていますが、デザイン特化の仕様っぽいです。

一昨日からベータ版の無償提供を始めているそうで、正式版の導入時期は未定としているそうですが、マイクロソフト365というサブスクサービスのアプリとして使えるようにするそうです。新しいもの好きな性分なので、早速こちらからベータ版の利用申請をしました。まだwaitlistだそうで利用できまでしばし待ちのようなので、今回はこのMicrosoft DesignerのもとになっているオープンAIの画像生成AI「DALL・E 2」を使ってみることにしました。

DALL・E2とは?

2022年4月6日にOpen AIが発表したテキストの内容に沿った画像を生成する画像生成モデルです。Open AIのブログ記事を見てみると実際に「An astronaut riding a  horse in a photorealistic style」(馬に乗った宇宙飛行士を写実的なスタイルで)と文章をインプットすると以下のような画像を出力するという説明がされています。

画像出典:https://openai.com/dall-e-2/

確かに馬に乗った宇宙飛行士を写実的に描いてますね。次に先ほどの文章のin a photorealistic style(写実的なスタイルで)という部分をas a pencil drawing(鉛筆書きで)と変えると以下のように画像が変化します。

画像出典:https://openai.com/dall-e-2/

しっかり鉛筆描きっぽくなってます。すごいですね。。。

ちなみに1年前に開発したDALL・E 1と今回のDALL・E 2をモネ風の狐の絵で比較をしたものが以下になりますが、大幅に改善されていることが分かるかと思います。技術の進歩のスピードが凄まじいですね。

画像出典:https://openai.com/dall-e-2/

原著論文はarxivで公開されていて、そこではモデルのアーキテクチャが以下の図のように説明されています。この手の分野について明るくないので、詳細は分かりかねますが、CLIPという同研究所が開発した任意の画像に対してキャプションを付与するモデルを使っており、テキストからCLIP画像埋め込みを生成する部分と、その埋め込みから画像を生成する部分から構成されるようです。

出典:Hierarchical Text-Conditional Image Generation with CLIP Latents

実際に使ってみた

ここからは実際に使ってみた結果をいくつかお見せしようかと思います。
最初に「3d model of a bipedal dachshund」(2足歩行するダックスフンドの3Dモデル)と入れたら以下の4つの画像が生成されました。

残念ながら2足歩行にはなりませんでしたが(もう少し説明が必要なんですかね?)、ダックスフンドの3Dモデルは確かにできています。さらに面白いのが、この中の画像を一つクリックしてvariationsというボタンを押すと似たタイプの画像を以下のように生成してくれます。ここでは右から2番目のダックスフンドの画像を選んでいます。

続いて、「An pretty pokemon is playing in the park」(一匹のかわいいポケモンが公園で遊んでいる)という版権キャラクターにチャレンジしてみます。すると以下のような結果になり、一部ピカチュウっぽいキャラクターができました。

一番出来のよさそうな右の画像のバリエーションも作ってみます。フィギュアが置いてあるだけ感はありますが、それっぽい画像かと思います。

最後に「A Photo of a car flying alongside an airplane」(飛行機と並んで空を飛ぶ一台の車の写真)と入れてみました。なんとなくニュアンスはあっていますが、想像とは少し違う画像が出てきてしましました。少し癖がありそうなので入力する側のテクニックも必要そうです。

今回はDALL・E 2を使って遊んでみましたがいかがでしたでしょうか?現状でもかなり凄く、現実の仕事の代替を十分に可能にするレベルかと思いますが、技術の早い分野だと思いますので今後の発展にも期待が高まります。また、後ほどMicrosoft Designerの方の利用許可が下りましたら、そちらの方も記事にしたいと思います。質の高いデザインをAIで生成できたらnoteのアイキャッチ画像で毎回悩んでフリー素材から選んでくるといった作業も効率化されて個人的には嬉しいです笑


この記事が気に入ったらサポートをしてみませんか?