ChatGPT&Bingで始める画像生成AI!今1番簡単に高品質な絵を作れるAIツールDALL-E3の全機能を解説します【無料&日本語OK】
※ 11/8, 12/11, 12/27 更新
動画版はこちら。より詳しく、分かりやすく解説した、サポート付きの動画講義です。無料視聴できます。
■ この記事の内容と使い方 ■
✓ この記事では、初めての方向けに、以下の解説から始めます。
・そもそもDALL-E3って何?
・そもそもChatGPTって何?
・そもそもBing AIって何?
✓ 次に、画像生成の始め方を解説します。
・BingでDALL-E3を使う方法(無料)
・ChatGPTでDALL-E3を使う方法(有料)
✓ ここで、
・画像生成AIサービスの比較
・AIマンガ制作の現状
について、説明します。
✓ 次に、基本的な使い方について、説明します。ぜひ、実際に画像生成を試しながら、学んでください。
・画像サイズの変更方法
・コピペOK。DALL-Eで表現できる絵柄や画風
・DALL-Eではできないことの紹介
・コピペOK。特徴的な絵を作る方法
・ChatGPTを活用し、クオリティを上げる方法
✓ さらに応用編として、以下の解説をします。
・同じキャラクターのまま、AIイラストを作る方法
・上手い人を真似る方法
✓ 最後に総まとめをします。
復習しつつ、実践的な内容の解説もしています。ぜひこの方法で作品を作ってみてください。
DALL-E3の機能は、まだ少ないですが、今後アップデートされていくと思います。DALL-E3のアップデートに応じて、私の記事も今後アップデートしていく予定です。
■ DALL-Eとは? ■
DALL-Eとは、主にテキストから画像を生成できる画像生成AIツールです。ChatGPTの開発元で有名なOpen AIによって開発されています。
他の画像生成AIサービスと比べると、DALL-Eは人間の意図を上手くくみ取ってくれて、入力したテキストに忠実な画像を作ってくれるのが特徴です。他の画像生成AIでは、テキストは英語で入力するのが普通ですが、DALL-Eは日本語でもOKです。
また、ChatGPTやBing AIといったチャットAIと連携しているため、会話をするように画像生成ができるのが、今のところ画像生成AIの中で唯一無二の特徴であり、DALL-Eが超使いやすい理由です。
現在のバージョンのDALL-E3は、2023年10月に公開されました。
□ DALL-E3は、どこで使える?
現在は、
・ChatGPT Plus(月20ドル)
・Bing(無料)
で使うことができます。
近いうちに、Lab(DALL-E専用サイト)で利用できるようになると、公式サイトに書かれていました。Labでは、インペイントやアウトペイントも可能です。
現在は、バージョンがまだDALL-E2みたいです。
□ 商用利用は?
✓ ChatGPT
ChatGPTで使えるDALL-Eは、商用利用が可能です。
✓ Bing
上記のように書かれていますが、商用利用禁止とは書かれていません。「よく分からない」というのが結論です。詳しくは、公式サイトを参考にしてください。
心配な方は、ChatGPTのDALL-Eを使っておくのが無難です。
□ 注意点
暴力的な内容
エロ系
有名人
存命のアーティストの画像
などは生成できません。画像生成AIサービスは、色々ありますが、その中ではDALL-Eの安全性(厳しさ)はトップクラスです。健全な内容であっても、生成を拒否されることが結構あります。
一応、ChatGPTとBingの説明も、しておきます。知っている方は、飛ばしてください。
■ そもそも、ChatGPTとは?
ChatGPTとは、アメリカのOpen AI社が開発した、人工知能(AI)を使ったチャットサービスのことです。2022年11月に公開されました。
ChatGPTは、AIの技術によって
・自然な文章の生成
・幅広い質問に回答
してくれます。
「自然な文章の生成」については、まるで人間と話しているかのように、自然な会話をチャットで行ってくれます。
「幅広い質問に回答」については、医学・法律・数学・経済など、あらゆる分野に対応していて、ユーザーの質問に対して的確な回答をしてくれます。具体的には
・文章の要約 / 執筆 / 校正 / 翻訳
・アイディア出し
・プログラミング
・画像生成
Web上、特にテキストで完結するものなら、ありとあらゆる事ができます。ただし、間違った情報も含まれていることがあるので、注意してください。
現在では、2種類のプランがあります。
・GPT-3.5:無料で使える
・GPT-4:ChatGPT Plusという有料プランに課金した方のみ使える(20ドル/月)
GPT-4では、GPT-3.5よりも高品質な回答が得られます。GPT-4だけの機能は、画像のとおり色々ありますが、特に
・Browse with Bing:検索エンジンのBingと連携し、最新情報を調べられる
・DALL-E3:画像生成できる
が便利で、よく使っています。さらに、GPT-4には
・画像の読み込み:
という機能があります。画像の読み込み機能については、後ほど、画像生成AIに応用する方法を紹介します。
■ そもそも、Bing AIとは?
ChatGPTと似たようなツールで、Bing AIというものがあります。
Bing AIとは、マイクロソフトの検索エンジンであるBingに、チャットAI機能を統合したツールです。BingのチャットAIには、ChatGPTのGPT4が使われています。
マイクロソフトは、ChatGPTの運営会社であるOpen AIに100億ドルの投資をしているので、Bing AIにGPT4が搭載されています。さらにBing AIでは、回答の際にリアルタイムで情報も検索してくれるので、最新情報を得ることができます。
ChatGPTでは、毎月20ドルの課金が必要なGPT4ですが、Bing AIなら無料で使うことができます。ただし、マイクロソフトによってカスタマイズされたGPT4なので、ChatGPTで得られる回答と同じではありません。
Bing AIは、基本的にマイクロソフトが提供しているブラウザであるMicrosoft Edgeで使用します。ブラウザとは、検索したものを閲覧するためのソフトウェアのことです。例えば、Google ChromeやSafariなどがあります。
検索エンジン:ネット上の情報を検索するシステムのこと。Google、Yahoo、Bingなど。
ブラウザ:ネット上の情報を見るためのソフトウェアのこと。Google Chrome、Safari、Microsoft Edgeなど。
■ DALL-Eのメリット / デメリット
□ メリット
① 手軽に始められる
② 簡単で使いやすい
③ プロンプトの意図をくみ取ってくれる
④ チャットでやり取りできる
⑤ 日本語でやり取りできる
□ デメリット
① 微調整できる範囲が少ない
② 著作物 / アダルト系の表現がほぼ不可能
■ DALL-Eの始め方・使い方 ■
■ BingでDALL-Eを使う方法(無料)
Bingでは、DALL-Eを無料で使うことができます。
① チャット欄
② Image Creator
で使用可能です。
□ ①チャット欄
Bingのチャット欄を開くには、以下のどちらかをクリックしてください。
・「チャット」
・Bingのロゴ
このような画面が出てくるので、生成したい画像の特徴をテキストで入力します。Stable Diffusionなどでは、テキストは
・英単語を半角カンマで区切って入力
・英語の文章
で入力しますが、DALL-Eでは、単語の羅列であっても文章に直されることが多いので、普通に文章で入力するのがオススメです。
こんな感じで、日本語で入力しても、テキスト通りの画像が生成されます。しかも、クオリティがとても高い!
DALL-Eでは、英語以外で入力したテキストは、いったん英語に翻訳された上で、画像生成されます。画像の下に、英語のテキストが書かれています。
日本語のまま生成されることもありますが、日本語だと絵のクオリティが下がってしまうことがあるので、そのときは入力文に追加で、「プロンプトは英語で書いてください」と入力してください。
DALL-Eは、簡単に破綻が少ない絵を作ってくれます。私はStable DiffusionやMidjourneyも使っていますが、両方とも、こんな簡単に上手くはいきません。DALL-Eは相当スゴイです。
□ ② Image Creator
BingのImage Creatorとは、テキストから画像を生成できる画像生成AIサービスです。
① チャット
② Image Creator
の、どちらにもDALL-Eの最新版が搭載されていて、本質的には同じものです。Image Creatorは、画像生成に特化していて、チャットでのやり取りはありません。
Image Creatorを開くには、画像 → 作成 から開きます。
または、チャット欄で生成した画像をクリックすると、Image Creatorが開かれます。
あるいは、こちらのURLからでもOKです。
Image Creatorを開くと、ギャラリーがあります。画像にカーソルを合わせたり、クリックすると、入力されたテキストを見ることができます。入力されたテキストは、よくプロンプトと呼ばれています。プロンプトと言われたら、テキストのことだと思ってください。
ふつうは、同じプロンプトで画像生成しても、このように全く同じ画像は生成されません。これは、他のプロンプトでも同じ結果です。AIが、そのような仕組みになっているので、私も詳しいことは分かりませんが、ほとんど同じ画像なら生成することができます。これについては、後ほど説明します。
画像を開くと、
・保存
・ダウンロード
をいうボタンがあるので、そこをクリックしてください。
ダウンロード:自分のPCに保存する機能
保存:コレクション欄に保存する機能
・チャット欄
・Image Creator
のどちで生成した画像も、履歴として表示されますが、ある程度たまると、古い方から順に消えていきます。
画像を残しておきたい場合は、
・ダウンロード:自分のPCに保存する機能
・保存:コレクション欄に保存する機能
をしておいてください。
チャット欄では、Bing AIが、勝手に英語に翻訳してくれますが、Image Creatorでは、今のところ翻訳されません。日本語で入力しても、テキストに合った画像を生成してくれましたが、英語の時よりも少しクオリティが下がった気がします。
現時点では、Image Creatorでは、英語入力が推奨されています。近い将来、他の言語もサポートされるようです。
現時点で日本語を使いたい場合、
・チャット欄で生成する
・英訳してからImage Creatorで生成する
のが良さそうです。日本語だと、画像のクオリティが下がる可能性があります。
ブーストとは、画像生成のスピードを速くする機能です。1回の生成で、ブーストが1つ消費されます。これが無くなっても画像生成はできますが、生成スピードが遅くなります。
ブーストは最近では、最大が15になりました。1日たつと最大の15に戻りますが、それ以上にはなりません。
・チャット欄
・Image Creator
のどちらで画像生成しても、このブーストは減っていきます。
マイクロソフトのブラウザであるEdgeを使っていると、リワードポイントというのが貯まります。これをブーストに引き換えることができます。アマゾンギフト券などにも引き換えることが可能です。
Image Creatorでは、ブーストが0になると、リワードポイントに引き換える画面が表示されます。
■ ChatGPTで、DALL-Eを使う方法
ChatGPTでは、ChatGPT Plusという月20ドルのプランに入ると、DALL-Eを使うことができます。
ChatGPTでは、言語は何でもOKです。生成された画像をクリックすると、使用されたプロンプトを見ることができます。
今回は、私がプロンプトを指定しましたが、ChatGPTが私のプロンプトを改良して画像生成を行っていました。プロンプトを見ると、どれも文章なので、単語の羅列よりも文章の方が良さそうです。
プロンプトを改変しないように指定することもできます。その方法については、後ほど解説します。
日本語で生成してみました。プロンプトは英語になっているので、ChatGPTが翻訳しつつ画像生成してくれるようです。
・クオリティ
・スピード
どちらも、Bingとほぼ同じです。
ChatGPTとBingでは、会話をしながら画像生成を調整していけるのが強みです。
この左上の絵の、目の色だけを変更するように頼みました。
結果は、このようになりました。絵はとてもいいのですが、元の絵とは異なっています。
後ほど、同じ絵を生成するための方法を解説しますが、全く同じ画像にすることは、今のところDALL-Eではできないみたいです。これに関しては、Stable Diffusionを使う必要があります。
とはいえ、だいたいの事はできているので、細かい部分を気にしないなら、これで十分とも言えます。画像のクオリティは、とても高いです。
画像の保存は、こちらからできます。
画像生成に使うチャット文の具体例は、以下のとおりです。
全て含める必要はなく、順番もあまり気にする必要はありません。
■ 画像生成AIサービスの比較と現状 ■
□ 他の画像生成AIサービスとの違いは?
画像生成AIサービスでは
・Stable Diffusion
・Midjourney(にじジャーニー)
・DALL-E
が有名です。特徴と違いは、画像のとおりです。
この画像は、私が感じたことをまとめたものです。ご自身で使ってみて、確かめてみてください。
✓ 手軽さ / 簡単さ
DALL-Eは、ChatGPTやBing AIに搭載されているので、日本語で会話をするように画像生成ができます。この点で、最も簡単に使えるのがDALL-Eです。
Midjourneyは、主にDiscordを使うので少し面倒ですが、慣れてしまえばとても簡単に使えます。
Stable Diffusionは、始めるのも使うのも少し難しいです。習得に最も時間がかかります。
✓ 品質
どれも品質は、十分に高いです。画像生成サービスごとに得意不得意があり、比較するのが難しいです。
強いて言うなら、DALL-EかMidjourneyが最も高品質です。
・手軽に高品質な画像を作るならDALL-E
・オシャレで高品質な画像を作るならMidjourney
です。
Stable Diffusionは、自分で画風や絵柄を選んで画像生成ができるので、再現できないものは無いといっても過言ではありません。例えば、日本人を描きたい場合、Stable Diffusionが1番クオリティが高いです。とはいえ、てきとうに画像生成すると、Stable Diffusionではあまり高品質な絵は作れません。
✓ 絵の崩れの少なさ
品質と被りますが、最も絵の崩れが少ないのがDALL-Eです。画像生成AIでは、手指がおかしいことが多いです。しかしDALL-Eで生成される画像は、そのような絵の崩れがほとんどありません。
✓ プロンプトの忠実度
最も要望どおりの画像が出てきやすいのが、DALL-Eです。DALL-EのAIは優秀で、ユーザーの意図を最も汲み取ってくれます。
MidjourneyとStable Diffusionは、DALL-Eよりは思ったとおりの画像は出てきません。MidjourneyとStable Diffusionの場合は、色々な機能を使い、修正や調整して絵の完成度を上げる必要があります。
✓ 微調整 / コントロール度合い
Stable Diffusionが最もコントロールできます。オープンソースなので機能がとても多く、細かい調整が可能です。特にControlNetを使うと、ある程度ではありますが、特定のポーズを取らせたり、人物を保ったまま色々な画像を作れます。そのため、ビジネスで使うとしたら、Stable Diffusionがオススメです。
Midjourneyは、Stable Diffusionほどではないですが、微調整できる機能があります。
DALL-Eは、現在は微調整できる機能がほとんどありません。
✓ カスタマイズ性
Stable Diffusionはオープンソースなので、多くの機能が実装されていて、自分でも追加することができます。開発のスピードも速くて、最先端のテクノロジーをすぐに試せるのがStable Diffusionです。
他は、企業がAIツールを管理しているため、カスタマイズすることはできません。
✓ 著作物 / アダルト表現
Stable Diffusionは、NGなしで自由に画像生成ができます。何でもアリの世界です。
Midjourneyは、著作物や有名人はある程度は生成できますが、エロ系は生成できません。
DALL-Eは、エロ系だけではなく、著作物や有名人すら生成できないことが多いです。
それぞれのAIツールに、得意・不得意があるので、用途に合わせて使い分けるのがオススメです。例えば、
・手軽に簡単に画像生成したいならDALL-E
・オシャレな1枚絵を作りたいならMidjourney
・絵をコントロールし、目的通りの絵を作りたいならStable Diffusion
という風に使っています。
□ 画像生成AIで漫画は作れる?現状を解説
1年前はAI漫画を作るのは無理に近くて、この記事でも、そのように記載していました。しかし最近になり、ある程度は作れるようになってきました。
まだ難しい表現はできませんが、Stable DiffusionやControlNetの性能が上がったことで、かなり漫画の形に近づけられます。DALL-Eは、ポーズの再現がまだ難しいので、漫画を作りたい場合はStable Diffusionがオススメです。
実際に私もAI漫画を作り、販売しています。すみませんがアダルト向けなので、内容と規約的に、ここでは公開できません。
その代わり、培ってきたAI漫画の作り方を、こちらで公開します。動画版もあります。
以前ここに記載していた内容は、古くなったので消去しました。代わりとして、AI漫画制作の流れを以下に記載します。できそうな方は、私の漫画講義は不要です。自信がない方は、ぜひ上記の漫画講義も見てみてください。
AI漫画制作の手順(Stable Diffusionの場合)
・物語のセリフを、クリスタに配置する
・ControlNetを使うため、シーンに合う画像を探す(自撮りや3DCGでもOK)
・Cannyを使い画像を生成する(簡単なシーンであれば、普通の生成でもOK)
・プロンプトやWeightを調整しても上手くいかない場合は、別の画像を探すか、ポーズを変えてみる
・Batch countを増やしたり、XYZ plotで画像を一気に生成し、修正の手間が少なそうなイラストを選ぶ
・インペイント、ADetailerなどで、イラストの修正をする
・img2imgとControlNetで画像を拡大する
・AIイラストをクリスタに配置し、トーン化する
・コマ枠を作成し、AIイラストやフキダシなどを配置する
・LT変換し、手描きでAIイラストを修正する
・効果線を追加する
・グレー化して書き出す
■ 使い方一覧 基本編■
■ 画像サイズの変更
□ Bing
Bingでは、1024*1024のサイズで、画像生成されます。これを
・16:9
・512*1024
などに変更するように頼みましたが、1024*1024サイズのままでした。現時点では、変えられないみたいです。
□ ChatGPT
画像の比率やサイズを
・9 : 16
・1080*1920
にするようにお願いしましたが、微妙に異なる画像が出力されました。
どちらも、1024 * 1792サイズです。Bingよりは融通が利きますが、画像サイズの微調整は、現時点ではできないみたいです。
今のところChatGPTで生成できる画像サイズは、
・1024*1024
・1792*1024
・1024*1792
の3つです。横長や縦長と言うと、勝手に上記のサイズになります。
■ DALL-Eが表現できる絵柄
□ アニメ風とリアル風
✓ Bing
アニメ風でもリアル風でも、作ってくれます。
リアル風に関しては、写真のような画像をお願いしました。しかし、写真かと言われると、肌の質感がまだリアルではなく、本物ではないなと気づくことができます。とはいえ、十分に高品質です。
ちなみに、チャットは毎回新規で立ち上げていて、前回のチャット内容を引き継がないようにしてあります。
✓ ChatGPT
同じく、アニメ風でもリアル風でも、作ってくれます。
リアル風に関しては、写真のような画像をお願いしました。しかし、写真かと言われると、肌の質感がまだリアルではなく、本物ではないなと気づくことができます。とはいえ、十分に高品質です。
□ 水彩画
✓ Bing
✓ ChatGPT
少しチャットで追加注文しましたが、水彩画は簡単にできました。いずれも、素晴らしい出来栄えです。
□ 墨絵 / 水墨画
✓ Bing
✓ ChatGPT
墨絵は、ただの白黒絵になったりして、試行錯誤しましたが、いい感じの絵ができました。
□ 油絵
✓ Bing
Bingでは、日本語のチャットを、そのままプロンプトに使われることがあります。今回がそうで、油絵っぽさはありませんでした。
✓ ChatGPT
油絵、余裕でした。すごいです。
□ ピクセルアート
✓ Bing
✓ ChatGPT
ピクセルアートも簡単に生成してくれました。
□ 複雑なイラスト
✓ Bing
まだシンプルであると感じます。特に、人物の前にエフェクトを追加するのが難しいみたいです。
✓ ChatGPT
DALL-Eでは、描き込みが少ないシンプルな絵が多いので、とにかく複雑にするように依頼しました。
5回くらい追加チャットしました。まだ服など、シンプルな部分が多いですが、現状はこれくらいみたいです。
□ シンプルなイラスト
✓ ChatGPT
✓ Bing
「シンプルなイラストにしてください」という単純な指示でしたが、このような画像を作ってくれました。特にChatGPTでは、かなりシンプルな画像を作ってくれています。
ちなみに、他の画像生成AIで、シンプルな画像を作るのは、けっこう大変です。Stable DiffusionではLoRAという機能がありますが、プロンプトだけでは、こんなに簡単にシンプルにはしてくれません。
以上のように、有名な絵柄であれば、ほとんど再現してくれます。Stable DiffusionのLoRAのように、ユーザーが学習させた絵を生成することは、DALL-Eにはできません。とはいえ、そこまでマニアックな使い方をする人はほぼいないので、絵柄に関しては、DALL-Eで十分だと思います。
■ DALL-Eではできないこと
□ 著作物の再現
✓ Bing
Bingでは、マリオを描いてくれました。クオリティも普通に高いです。
✓ ChatGPT
同じDALL-Eでも、ChatGPTでは、著作物の再現はできないみたいです。初音ミクもダメでした。けっこう厳しいです。
□ 暴力的な表現
✓ Bing
「戦って血を流しているキャラクター」もダメでした。小さい子供がテレビで見れる内容くらいじゃないと、ダメみたいです。少年漫画も描けないですね。
✓ ChatGPT
こんな感じです。基本、激しい戦いとかは描けません。
□ 有名人
✓ Bing
岸田首相と、織田信長も無理でした。有名人は、Bingでも無理そうです。
✓ ChatGPT
ChatGPTも、この通り。有名人の画像は、DALL-Eでは無理そうです。
□ エロ系
ほぼ無理でした。
ただし、このようにスポーツの内容にすることで、ガードを少し突破することができます。
とはいえ、著作物・暴力・有名人・エロ・などの表現は、Stable Diffusionを使うしかなさそうです。
■ コピペOK。特徴的な画像が作れるプロンプト一覧 ■
今回は、ありきたりなイラストになりにくい、画像生成のプロンプトを簡潔に紹介していきます。定期的に更新中です。
チャットの文は、コピペOKなので、そのままパクってもらって大丈夫です。
プロンプトに関しては、知りたいものがあれば私に聞いてください。ChatGPTの履歴が残っていれば、答えられます。
□ 漫画の内容を考えて画像生成してもらう
漫画の内容を考えてもらい、それをもとに画像を生成してもらう方法です。
今のところ、内容と絵は合っていませんが、将来的にはテキストから漫画生成ができるようになるかもしれません。
□ プロンプトを考えてもらう①
・ありきたりなプロンプト
・少なすぎる文字数
では、クオリティの高い画像は作れません。プロンプトは、ある程度の分量があった方が高品質になりやすいです。
しかし、プロンプトを考えるのも面倒なときがあります。そこで、ChatGPTに物語を作ってもらい、それをもとに画像を生成してもらいます。
こちらは、けっこう内容に合った画像を、ちゃんと作ってくれます。
□ プロンプトを考えてもらう②
プロンプトを考えてもらうのは、もちろん物語じゃなくてもOKです。
今回は、偉人の考えをプロンプトにしてもらい、それで画像生成しました。
こちらは、ChatGPTの考えをもとに作ってもらった画像です。
□ アイソメトリック
「アイソメトリックなイラスト」というプロンプトを入れることで、斜め上から見た可愛らしいイラストを作ってくれます。
サイトのサムネイル素材に使えそうです。
□ ローポリゴン
ローポリゴンという言葉を入れることで、カクカクした造形を表現することができます。
□ モーションブラー
「走っている少年」など、動きのある絵を作りたいときに、「モーションブラー」というプロンプトを入れることで、迫力が増します。
車やバイクなど、動くもの全般に使えます。
□ ◯◯で描かれた◯◯という文字
DALL-Eでは、文字を生成することができます。文字はペンではなく、イラストなどでも表現できるので、画像のようなものを作ることができます。
□ 高精細なマクロ撮影
キーワードは、高精細なマクロ撮影です。「顔」を入れると、より顔が出やすくなります。後はお好みで、人種や化粧の有無を追加注文してください。
□ ◯◯のシルエットの中に描かれた、◯◯
シルエットの中に、絵を描くプロンプトです。背景の有り無しは、お好みで追加注文してください。
□ EmotionScape style
風景という意味の「landscape」を改変した「EmotionScape style」を入れることで、普通よりも高品質になりやすいです。
□ 三面図 / ブループリント
三面図やブループリントというプロンプトを入れると、キャラデザの設定画を出すことができます。このまま資料として使えるレベルです。
□ キャラ設定のフィードバックをもらう
こんな感じで、キャラ設定を細かくフィードバックしてもらい、それを数回つづけます。次に、プロンプトを生成してもらい、あとは画像を生成しながら微調整をします。
フィードバックをもらうことで、かなり細かくキャラ設定を作ることができて、ありきたりな絵になりづらくなります。
似た例としては、以下の感じです。
顔の特徴は、意外と伝えることが難しいです。そこで、ChatGPTに質問してもらい、質問に答えることで、プロンプトを作ります。ある程度は、好みの画像を生成してもらえますし、顔のバリエーションを増やせます。
□ ハイコントラスト
「食べ物、ハイコントラスト」で、色合いがハッキリした画像を作ることができます。
加えて、広告ポスターと入れると、クオリティが上がりやすいです。
□ 光の影響で
光や照明に関するプロンプトを入れると、クオリティが上がりやすいです。要は、光で盛るわけですが、単に「光盛れ」というプロンプトだと、スマホが出現しやすかったり、クオリティが微妙だったりするので、別の表現で置き換えました。
今回は
・光の影響で可愛く見える
・青白い朝日
というプロンプトで生成しました。
他には「反射する光」というプロンプトも、おすすめです。
■ DALL-Eを使いこなす 使い方一覧 応用編 ■
■ Seedの固定で、同じキャラクターを表現できる
Seedとは、画像生成の計算に使われるランダムな値のことです。
画像生成では、ノイズからキレイな画像が作られるという仕組みです。そのノイズは、毎回違うものが使われます。しかし、同じSeedを使うことで、同じノイズを使用可能です。
・同じSeed
・同じプロンプトやパラメータ
で画像を生成すると、同じ画像を作ることができます。
なんと、ChatGPTでも、Seedを調整することが可能です。
パラメータを変更するところが無いので気付きにくいですが、Seedを指定することで同じ画像を作ってくれました。
ちなみに、変更前のSeedは、全て5000です。(たまに違うこともあります)
生成された画像のSeedを聞き、
画像のように依頼すると、別のチャット欄でも、同じ画像を生成できます。
このように、同じSeedのまま、プロンプトをわずかに変えることで、同じキャラクターのまま、表情を変えることができます。
細かい部分を見ると、絵が異なっていますが、よく見ないと分からないレベルです。
ただし、服装や場所を大きく変えるほど、絵の内容はオリジナルから離れていきます。
□ Seedの固定は指示しなくても良い
Seedの固定は、ユーザーの目的を想定して、必要があれば自動でChatGPTが行ってくれるようです。
とはいえ、ユーザー側からSeed固定の指示をすることにより、確実性は増します。中途半端な依頼文にすると、Seedを固定してくれない時がありました。
□ BingではSeed固定ができない
ちなみに、Bingでは、無理みたいです。
Bingが、Seedを教えてくれたり、Seed固定できますと回答してくることがありますが、プロンプトとSeedを同じにしても、同じ画像を作ることはできませんでした。
できるだけオリジナルに似せたい場合は、「1枚目の絵のまま、キャラクターの目とゴーグルの色だけを赤色に変えてください。それ以外は変えないでください。」などとチャットするのが良さそうです。
ただし、結果のとおりで、あまり似ていません。
Seedを固定して、同じキャラクターのまま表情を変えたいときなどには、Bingではなく、ChatGPTのDALL-Eを使ってください。
■ 画像からプロンプトを聞く
ChatGPTやBingで作成した画像の、プロンプトなどの生成データは教えてくれるのか、調べてみます。
□ ChatGPTで、画像の生成データを調べる
ChatGPTで生成した画像の、
・プロンプト
・Seed
を聞いてみましたが、今のところ教えてくれません。
自分で生成した画像は、プロンプトが表示されますし、先ほどのようにSeedも聞けますが、他人の画像のデータを聞くことは無理そうですね。
ちなみに、Stable Diffusionで生成された画像ならば
・プロンプト
・Seed
など、生成データの全てを答えてくれます。
□ img2img&画像からプロンプトを推測してもらう
プロンプトなどの生成データは教えてくれませんが、推測してもらうことは可能です。
ここから画像をアップロードし、注文を入力します。
また、画像から画像も生成することができます。これを「image to image」や「img2img」と言います。オリジナルの画像を微調整したいときに便利な機能です。
プロンプトを予測してもらいつつ、生成してもらいました。けっこう似ていて、描きたい内容はくみ取ってくれます。
ちなみにStable Diffusionでは、ControlNetを使うと、ほぼ同じ絵のまま、色や絵柄を変更できます。こういう細かい調整は、Stable Diffusionの得意領域です。
■ インペイント&アウトペイント(追記予定)
Stable Diffusionでは、
・画像の一部だけを変えるインペイント
・画像サイズを拡張し、その余白に絵を描きこむアウトペイント
という機能があります。
現時点のDALL-E3には、そのような機能はありません。DALL-E2にはあるので、DALL-E3に搭載されるのも、時間の問題かなと思います。
■ 文字を入れる
□ ChatGPT
完璧ではありませんが、文字入れは可能です。他の画像生成AIでは、ほぼ無理なので、DALL-Eのスゴさが分かります。
ロゴの文字入れも可能です。
平面上だけではなく、立体構造も考慮して、文字入れをしてくれます。
・スペルミス
・大文字 / 小文字 のミス
はありました。しかし、他の画像生成AIサービスでは、そもそも文字入れが全然できないので、DALL-Eはリードしています。
□ Bing
■ DALL-Eを上手く使うコツ
DALL-Eでは、クオリティの上げ方を調べる必要がないくらい、簡単に高品質な絵を作ることができます。
強いてコツをあげるなら、それは「できるだけ細かく依頼すること」です。
他の画像生成AIサービスでも同じですが、
・可愛い女性
・可愛いネコ
など、「ありきたりで、短いプロンプト」では、AIもありきたりな画像しか生成してくれません。
逆に
・DALL-Eっぽい絵柄
・Stable Diffusionっぽい絵柄
を知りたいなら、わざと「ありきたりなプロンプト」を入れるのは有効です。私も試してます。
ほとんどの方は、他人とは違う、高品質な絵が作りたいと思うので、「ありきたりで、短いプロンプト」にならないように、細かくプロンプトを作るのをオススメします。
DALL-Eには、img2imgはまだありませんが、ChatGPTに画像のプロンプトを推測してもらうことができますし、Stable Diffusionにも似た機能があります。
img2imgで他人の絵を入れて画像生成すると、見た目が丸パクリに近くなりますが、画像からプロンプトを推測する程度なら、そこまで似ません。この方法なら、
・雰囲気を似させられる
・プロンプトを考える手間が省ける
・プロンプトの編集がしやすい
など、簡単に恩恵を得られます。試してみてください。
■ 総まとめ! ■
ここでは、DALL-E3の復習とまとめをします。
□ 始め方
ChatGPTの有料プランに入っている方は、こちらから始めます。
無料で使いたい方は、こちらから始めます。
□ 画像生成の方法
ChatGPTは色々できるので、まずは「以下の内容で、画像生成をしてください」のように、目的を書いてください。以下は一例です。
画像生成に使うチャット文の具体例は、以下のとおりです。
全て含める必要はなく、順番もあまり気にする必要はありません。
このあとは、ChatGPTとチャットをしながら、絵の調整をしてください。現時点のDALL-E3では、細かい調整はできないので、ある程度の妥協は必要です。
生成された画像をクリックすると、2つのボタンが表示されます。左側は、画像を保存するためのボタンです。右側は、画像に使われたプロンプトが見れるボタンです。
ChatGPTは、DALL-E3用にプロンプトを整えてくれます。そのため、
・チャットで送った文章
・画像生成に使われたプロンプト
が、異なる場合があります。
もしチャット文とプロンプトを変えたくない場合は、「以下のプロンプトで画像生成をしてください。プロンプトは絶対に変えずに、そのまま使ってください」などと書いてください。
それでも変えてくる場合があるので、Bing Image Creatorを使う方法もあります。こちらは、入力したプロンプトで画像生成をしてくれます。
ChatGPTのDALL-E3では、画像サイズを変えることができます。
・正方形:1024*1024
・縦長:1024*1792
・横長:1792*1024
「横長で」などと伝えれば、サイズを指定しなくても、上記のサイズになります。ただし、これ以外のサイズには、現時点ではできません。
□ クオリティの上げ方①
クオリティを上げるには、ある程度は文字の量を多めにしてください。プロンプト(チャットでの要望)が少ないと、ChatGPTにありきたりな内容を追加されてしまいます。
以下の、プロンプトの例を使うのも1つの方法です。
また、ChatGPTに考えてもらうこともできます。
上記のように、まず物語を提案してもらいます。テクノロジー、恋愛、スポーツなど、こちらからテーマを絞って提案してもらうのが、オススメです。
ChatGPTが、いくつか物語案をくれます。そこから1つ選択し、次のように再度お願いをします。
すると、ChatGPTがあらすじを送ってくれるので、それを画像生成に使います。
結果が、以下です。
この方法のメリットは、物語に沿って画像生成をしてもらうので、プロンプトの内容が豊富になります。また、画像にストーリー性が生まれます。
ただし、DALL-Eでは、同じキャラクターを保ったまま画像生成するのは、まだあまりできません。そのため、一貫性が微妙なこともあります。
ちなみに、今回の物語を考えてもらう以外にも、方法は色々あります。例えば、以下です。
・サムアルトマンが描く理想の未来を教えてください。それを画像生成してください。
・20年後の中国のテクノロジー最先端都市は、どのようになっていると予想しますか?それを画像にしてください。
など、偉人の考えや、未来予想をプロンプトに変えてもらう方法もあります。
□クオリティの上げ方②
次は、自分が描きたいことが、ある程度は決まっている場合に有効です。
以下は、一例です。
あとは、ChatGPTの質問に答えて、画像生成するだけです。
・顔
・服装
・武器
など、限定すると、さらにChatGPTも質問しやすくなると思います。
ChatGPTに質問してもらうことにより、自分の漠然としたイメージが明確になるのがメリットです。
□ 上手い人を真似る方法
上手い人のAIイラストを真似したいと思っても、プロンプトが公開されていないこともあります。そこで役に立つのが、画像からプロンプトを推測する方法です。
画像から新たな画像を生成する方法(image to imageやimg2imgと呼ばれる)では、元画像と似すぎてしまい、丸パクリになりがちです。しかし、画像からプロンプトを推測する方法では、雰囲気は似ますが、同じ絵にはならないので、丸パクリになりにくいというメリットがあります。
また、この方法は、自分でプロンプトを考える手間を減らせるので、面倒くさがりな人にオススメです。
今回は、こちらの画像に似た画像を生成します。DALL-Eで生成されたものではなく、CivitaiというStable Diffusion用のモデル共有サイトで、投稿された作品です。
プロンプトなどの情報が公開されていますが、プロンプトは見ずに似せることが今回の目的です。
今回は、ChatGPTにプロンプトを推測してもらいます。Bing AIでも可能です。
こんな感じで依頼します。生成結果は、以下のとおりです。
絵が写真に近く、上から撮影した内容も抜けていました。そのため、それらを改善するように、再度チャットをしました。結果が以下です。
ある程度、雰囲気が似た画像が作れました。人間の手直しは必要でしたが、このような方法で、上手い人を真似ることができます。
■ おわり
ChatGPTとBingで使えるDALL-E3は、とても性能が高く、誰でも簡単に高品質な絵を作れることが分かりました。
ただし、漫画や同人制作など、AIイラストの細かい調整が必要になることはDALL-Eには難しいです。この点では、Stable DiffusionのControlNetを習得する必要があります。また、DALL-E専用サイトもまだバージョンが2なので、アップデートが待たれます。
DALL-E3は2023年10月に出たばかりであり、今後もアップデートが続いていくはずです。アップデートがあり次第、情報を追記していくので、お任せください。追加情報のお知らせは、LINEで配信していくので、よければ友だち追加お願いします。最後まで読んでいただき、ありがとうございました!