【ChatGPT DALL-E 3】たった10分で長年の夢を「実現」してみた結果のあれこれ

2023年10月17日 09:12

あまりに突然ですが僕には夢があります。それはコーヒーショップをつくることです。ただ、具体的に考えてられていないので本当に漠然とした状態なんです。そんな夢がみなさんにもありませんか？そんな夢がChatGPTのDALL-E 3をつかえば10分で実現できちゃったんです。そして「具体化のチカラってすごい、あれこれ悩む前に具体化しよ」と感じたというお話です。今回は、ChatGPT DALL-E 3で自分の「夢」を叶える実験だったので、ChatGPT DALL-E 3のTipsを中心まとめていきます。もちろん僕の本業である新事業構想に役立つ学びもあったので合わせて後半に書いていきますね。
それでは、10分で夢の実現する方法をはじめていきましょう。

コンセプトはこだわらないが重要

まずは、お店のコンセプトについて考えていきます。簡単に考えていることをテキスト化していきます。やってみた結果わかりましたが、最初のプロンプトはタタキとなる画像を生成するためなので、あまりこだわらずに適当でいいと思います（あくまで今回の用途ではですが）。僕が考えたのはこんな感じです。あまりにも切れ味なくて恥ずかしいですね。

コンセプト／初稿
東京にあるけれど、森の中にいるようにゆったりとした気分で読書ができるコーヒーショップ

出店場所
未定だけど、とりあえず大手町、銀座あたり

特徴
・キャンプ好きなので、店頭、店内にも植物がたくさんありまるで森林の中にいるような感覚
・本が好きなので、小説、デザイン、など様々な本がおいてあり、自由に読書できる
・コーヒーはハンドドリップが基本。マシンもある
・食事はメルトサンド、ホットドッグなど簡単だけど素材にこだわりがある
・店舗名は NEWh COFFEEとして控えめに看板をつけてください

小池の頭の中よりザクッと引用

DALL-E 3で生成された画像が触媒に

早速、ChatGPT（GPT4）でDALL-E 3を選択して店舗の外観画像を生成します。生成された画像がこちら（実際には4パターン生成されます）。かなり「よくできた」画像が一発目から生成されます。本当にすごい。

ただ、生成された画像をみてちょっとした違和感が。。。「俺って、こんなギラギラの都会で窮屈なコーヒーショップを開きたいんだっけな？」「もっとお客さんにくつろいでもらいたいな」という考えがムクムクと浮かんできました。というわけで、コンセプトの見直しが必要そうです。あと、よく確認すると店舗名も間違っていますね（おそらくNEWhの表記をNEWのタイポだと認識したのでしょう）。

出店場所
下北沢など、オフィス街よりも住宅地に近い、けれど栄えているエリア

特徴
・店舗名は NEWh COFFEE。控えめに看板をつけてください
・椅子やテーブルは、スタンドではなくくつろげる低めのソファーとローテーブル中心にする

小池の頭の中より適当に引用

おお、随分イメージに近くなりました。ただ、ソファー席がドーンとあって店内にアクセスしづらそうだなー、夜までコーヒーを楽しめる場所が欲しいなー、図書館の様なコーヒーショップがいいかもなどと、どんどん考えが浮かんでくるので思いのままに修正を繰り返していきます。で、10分後の店舗はこちら。

ChatGPT DALL-E 3で生成したNEWh COFFEE（たぶん10分後の再稿）

一般的によくなっているのかどうかはわかりませんし、いつのまにか森のコンセプトは消え去りました。けれど、自分が実現したコンセプトに近い店舗イメージが完成しました。というよりも、このプロセスは具体化された画像が触媒となりコンセプト＝やりたいことがどんどん具体化していくという感じになっていました。これは経験してはじめてわかったことです。つまり、頭の中と画像がお互いに歩み寄って近づいていっているという感覚です。そしてそのプロセスはすごく楽しく感じました。楽しいはどんな場合にも正義です。

経験したからわかるDALL-E 3のTips

では、ここからDALL-E 3（とChatGPTのその他の機能）を活用するためのTipsをまとめていきます。

Tips1：文字の生成プロンプトは小文字で

DALL-E 3は、DALL-E 2、その他の画像生成AIと比べて「文字」が生成は格段に進歩したと感じます。ちなみに大文字よりも小文字でプロンプトにしたほうがより正確に反映されました。今回の場合は、NEWH COFFEEよりもnewh coffeeのほうが正確に店舗名が生成されました。

Tips2：修正がうまくいかない場合は、元画像の認識を確認

生成された画像をベースに修正すると全く違う画像が生成されることがよくあります。「右のソファにくつろいだ家族を座らせて」といったシンプルな指示をしてもその他の部分も大幅にアップデートされ「あぁぁぁぁあぁ」ってなることがよくあります。ここはプロンプトの書き方で解決できるのかもしれませんが僕にはその技術がないので、あらためて「X個前の画像をベースに」と認識してもらうことで一定レベルまでは解決できていました。もしくは、そもそも初稿の精度を向上させるアプローチもありで、後述するように画像や写真、Web Browsingからプロンプトを生成すると大きく精度を向上させられそうです。

Tips3：XXX風なNG。作風をきちんと文章で説明

「XXX（クリエイター名）風のイラストにして」といった指示は著作権の関係から拒否されます。あたりまえですね。ただ、そのクリエイターの特徴や作風を文章化して指示するとかなりの精度で生成されます。下の画像はイラストをメインしたコーヒー豆のパッケージとブログ用ヘッダーですが、僕がイメージしたクリエイターの作風をきちんと引き継いでいます。作風を指示するプロンプトは「シンプルな線画で、ミニマルな表現だが、都会のどこかで暮らしていそうなリアリティーがある。手描きによるゆるやかなタッチと、カジュアルでファッショナブルな世界観。下北沢の町並みを背景に、家族連れが登場。大人がコーヒを持っている」です。誰であるかは内緒ですが、わかりますかね？

Tips4：マルチモーダルを活用したプロンプト生成で精度アップ

・マルチモーダル化したChatGPTをフル活用して画像や写真、Web Browsingでコンセプトに近い情報（のURL）を読み込んでプロンプトを生成。そのプロンプトによってDALL-E 3で画像生成すると精度がかなり向上する印象です。もちろん、URL内に画像がそのまま生成されることはないし、自分のコンセプトとのマッシュアップできるので、ある意味「強制発想」に近い体験が可能になります。これからはネタ元とする写真を撮る機会が増えそうですｗ

Web Browsingからの生成プロンプトとコンセプトをマッシュアップして作成した初稿

Tips5：複雑なレイアウトこそ、マルチモーダル＆バージョン作成

・生成する画像の精度アップはもちろん、マルチモーダル化したChatGPTをフル活用すると少し複雑なレイアウトも表現できるようになります。自分で精度高い描写をするのもありですが、そこはChatGPTに任せたほうが楽です。僕は、ChatGPTに画像をアップロードして「DALL E 3でこの画像を生成するプロンプトを作成してください。より正確に画像を生成するために、ステップバイステップで実行できるプロンプトを生成してください」とお願いしてみました。もちろん調整は必要ですが、コツを掴めば思い通りのレイアウトで生成できるようになります。ちなみに気に入った画像が生成されたら、それをベースにバージョンをたくさん生成してもらうとさらに精度も上がるし、新たな発見があっておもしろいです。

ChatGPTで画像を読み込んでプロンプトを生成したコーヒ豆パッケージ（最終稿）

Tips6：難しく考えずに、とりあえずやってみる

最後に、英文で書くのがいい、ステップバイステップで、プロンプトを書くコツは…、などさまざまな技術がこれから発信されると思います。それはそれとして基本は取り入れつつもあまり難しく考えないほうがいいと思います。気にせずに日本語でもいいからどんどん画像を生成して実験（検証）してみるのが使いこなす一番のTipsだろうなと感じますので、みなさんもどんどん使って感想を言い合っていきましょう。

まとめ、というより感想

最後に、僕が10分＋αで「DALL-E 3＋マルチモーダル化したChatGPT」とのチャットで経験したことをベースに、僕の本業である新事業構想でのDALL-E 3活用の可能性を考えていきたいと思います。

１）新事業構想で活用できるかの総論

結論から書くとありありの◎です。NEWhの基本プロセスに組み込みたいくらいに可能性を感じています。今回は僕の夢を10分で「実現」しました。そもそも新事業構想のためではありません。それでも多くの使える学びがありました。すでに感じている方も多いかもしれませんが、今回の夢の実現プロセスと新事業構想は非常に共通点が多いです。

抽象的な概念が手触りのあるレベルまでリアルに具体化される
具体化された画像から感覚的な違和感＝やりたいこととのギャップが自然と発生する
その違和感から自分のやりたいことがさらに具体化されていく
自分のやりたいことを表現する解像度の高いアウトプットが生成される

この経験は、僕が事業構想の初期にコンセプトを文章で書くことやアイデアを他人に話すことで実行している精錬プロセスに非常に似ています。というかほぼ同じです。しかもChatGPTをフル活用すれば、手持ちの写真や画像、インターネット上に存在するサービスや事業などあらゆる情報と自分が考えていることをマッシュアップできる可能性があり、まったく新しい強制発想プロセスが実現できそうにも感じます。このあたりは今後に実験していきたいテーマです。

２）新事業構想で活用できそうなタイミング

個人の精錬プロセスのほかには、プロジェクトの立ち上げ、アイディエーションの磨き上げ、インタビューや上申用のプロトタイプのなど多くのタイミングで活用できそうです。

プロジェクト立ち上げ

プロジェクトチームのメンバーがすでに考えているコンセプトやアイデアがある場合は「自分のやりたいことを表現するアウトプット」を生成して議論することからプロジェクトをスタートさせてみてはいかがでしょうか？
新事業の初期はある意味漠然とした「夢」に近い状態で非常に抽象的です。抽象的な状態での議論は総論賛成になることが多くほぼ意味がありません。今回のように最初から解像度高く具体化することによってはじめてメンバー同士が考えていることのズレを議論できるようになります。そして、その議論は本開発など工程が進むほどズレがクリティカル要因になるのでなるべく早いほうがよいと思います。

アイディエーションワークショップの磨き上げ

新事業プロジェクトでは、アイデアをコンセプトシートや付箋などの1シートで大量に発想するワークショップがあります。当然、質より量を重視しているプロセスなので具体性はさまざまです。そのアイデアを200案→50案→10案→3案などグルーピングや絞り込みを実施しながら具体性を高めていくのですが、10案程度を具体化していくタイミングで使えるかもなーって感じました。事業アイデアを言葉や文章だけ表現するのではなく、顧客イメージ、タッチポイント（店舗、アプリ、ランディングページなど）、体験ストーリーなどを画像化することで精度が格段に高まり、判断の質とスピードが大きく向上するのではないかと感じました。

インタビュー検証、社内上申用のプロトタイプ

プロジェクトチームで議論しながらがんばって考えたアイデアを検証するインタビュー相手や上申する相手である上長、役員などチーム外の人々に伝えるのって本当に難しい。どのプロジェクトもすごく気を使うタイミングです。やはり言葉だけで伝えるのって限界があって、パッと見てわかる、感覚的にいいと感じてもらえるってすごく大切です。「DALL-E 3＋マルチモーダル化したChatGPT」を活用することで、今までよりも簡単に言葉と画像を組み合わせてアウトプットできるので、チーム外の人にきちんと伝えられると思います。

以上です。いつもと趣向が異なりましたがいかがでしたか？
個人的にはこの実験をきっかけに「新事業構想とAI」というテーマをもう少し考えてきたいと思ったので、次は新事業構想のための実験をして記事にしていきたいと思います。ではまた。

「スキ」「フォロー」をいただけると励みになります。「ビジネスデザインマガジン」の他の記事も興味があればぜひ。