見出し画像

生成AI漫画作成:DALL-E3はニッチな衣装に強い

こんにちは!生成AI漫画を描いています、yachimatです。今回はStable DiffusionでもMidjouneryでもなくあえてDALL-E3を使って漫画を描いて見て気づいた点がいくつかあったのでご紹介したいと思います。
結論だけを先に言うと、ニッチな衣装は意外と強いです。これを二次元におとすのも強い。ただし、やはり一貫性の問題はあるのでガチャ要素が高い。これをどうにか迂回する策もご紹介します。

漫画本体はこちらです。

DALL-E3の強み

DALL-E 3は、ニッチな衣装に関する知識量において際立っています。エストニアの民族衣装を例に挙げると、DALL-E 3とMidjourneyを比較してみた結果、DALL-E 3の方がより正確な衣装を生成することが分かりました。

エストニアの衣装(参考)
こちらはエストニアの踊りの祭典Tantsupiduから拝借しました。エストニア各地のご当地衣装が一同に会すので圧巻です。特徴としては農家的な雰囲気(だいたい上がふわっとした白いブラウス)にロングスカート(柄はさまざまだが縦のストライプが目立つ)、それに花冠や何かしらの髪飾りがつきがちです。

https://www.visitestonia.com/en/

では下記にMidjourneyとDALL-E3で出し比べて見ましょう。プロンプトは同じものを使いました。(Midjourneyではオプションで--niji 6を加えています)

(( japanese anime style)), ((white background)), (masterpiece), (detailed lineart) in monochrome, She is a 30 years old Estonian. Her blonde hair is tied back in a bun without any hair ornaments, and bang between her eyes with a detailed Estonian female folk costume. No accessaries on her hair

Midjourney

Nijijourneyに引っ張られている感じがしますが、東洋の香りがしますね。左下のものは若干エストニアっぽくもありますが、どことなくアイヌっぽくもあります。

DALL-E3

同じプロンプトをDALL-E3にも投げて見ました。いかがでしょうか。マスターピースクオリティにしたのでちょっと装飾が華美な感じもしますが、模様(菱形やレース、スカートの縦縞など)も本物に近く出力してくれました。
エストニア人(というか北欧?)は花飾りが好きなので、そのあたりも反映されていて良いですね。


このことから、DALL-E 3は特定の国や文化に特有な衣装のディテールに精通していることが伺えます。また、DALL-E 3によって生成されたキャラクターのデッサンには骨格なども含めて安定感があり、細部にわたるディテールの再現性が高いことが特徴です。
また、出力が気に入らない時は対話的に修正ができる、プロンプトは雑に投げても宜しく書き直してくれる、という点は初心者ならずとも探索的に絵を描いている時は便利だと思います。
また、一度課金してしまえば使い放題(Midjouneyは上限を超えると再課金しないといけない)という意味では生成しまくっても安心感はあります。

弱み:一貫性、一貫性、一貫性・・・

一方で、DALL-E 3を使用しているとキャラクターの一貫性の維持に苦労することがあります。同一のキャラクターを何度も生成し直さなければならない場合があり、これにより作業の効率が下がる可能性があります。ひたすらガチャです。
一度プロンプトを投げると出力されるまで待つしかないので、ながら作業になりがちです。

また、カスタムGPTを利用してプロンプトを保存し、名前で呼び出すことも可能ですが、これは別の記事で詳しく説明します。さらに、一度に生成できる画像の量には限りがあるため、大量のキャラクターやシーンを一括で作成することには向いていません。

衣装のディテールを維持しながら一貫性を高める方法

DALL-E 3で一度生成したキャラクターをリファレンスとして使用し、MidjourneyやStableDiffusionを利用してキャラクターを再生成する方法があります。このアプローチを取ることで、元の衣装のディテールは若干失われる可能性がありますが、キャラクターの一貫性を高めることができます。これは、異なる生成モデルの強みを生かしつつ、キャラクターの同一性を保持するための有効な手段と言えるでしょう。

元画像(DALL-E3)

再生成画像(Midjourney)

こちらは--cref 100で生成したものです(チェリーピックせず一発目の生成です)。絵のテイストは変わりますが、服装はかなり元画像に近いのではないでしょうか。首元と腰回りの飾りの雰囲気をよく捉えていると思います。

このように、DALL-E 3は漫画作成において特定の衣装やディテールの表現に長けている一方で、キャラクターの一貫性を維持することには課題があります。しかし、他の生成モデルと組み合わせることで、これらの課題を克服し、より高品質な漫画制作を実現することが可能です。

まとめ:キャラクターの探索、元画像の生成にはDALL-E3おすすめです!

いかがでしたでしょうか。漫画となるとStable Diffusionの漫画用モデルやMidjourney、NovelAIなどを使う方も多いと思いますが、DALL-E3もあながち悪くないなと感じました。
特に対話式に指示をする時は「怒って!」「怒りすぎ、もう少しむすっとした感じで」「むすっとしていても、目には少し恥じらいがあるように」など出てきたものに対して演出家のように微調整していくので、最初から自分の欲しい絵をちゃんと言語化できるスキルも必要だなと思いました。
演出の本も読んでみたいと思います。

この方法で描いたマンガがこちらです。まだまだ拙いところあり、一貫性も何もありませんが、「ああこういう感じに使えるのね」というショーケースとして楽しんでもらえれば!

いいなと思ったら応援しよう!

この記事が参加している募集