DALL-E3から学ぶAI

2024年3月31日 15:51

　ひとりスタジオ始めました。とりあえずラインスタンプから、１４個作りました。まだまだ続きます。絵と台詞にこだわっていきたいと考えますのでご興味ある方は、是非ご覧ください。よろしくお願いします。

https://line.me/S/shop/sticker/author/4459339

4.1 二人一組のAI

　ChatGPT4+DALL-E3環境で実験を継続。DALL-E3はとにかく素敵な絵を描いてくれます。不適切な内容でなければ、どんな絵でも描いてくれますね。自然な絵から、３D画像、漫画まで、とにかくあらゆる絵の学習をしているのか、その絵の種類の幅はバツグンに広いです。
　プロンプトって、ある意味断片的な情報で、不十分な内容でしかないのに、そのプロンプトを元にAIが想像力とセンスを発揮して足りない情報を補い素敵な絵にしてくれます。しかも乱数のSEED値使って絵の元の起点とするので、基本同じ絵は出てこない。
　凄いですよね。同じプロンプトで1000枚描いてもらっても、全部違うわけです。しかもAIは、自分のアイデアを足してきますので、想像以上に素晴らしい絵が生成されることがあります。
　また、同じプロンプトでも、繰り返して描いているとちょっとした指示の追加で、その連続性が途切れて、突然まったく系統の異なる絵が出てきたりします。それが逆によく見るととても芸術性の高い凄い絵だったりします。
　逆に手抜きや、もともと絵の構成が壊れてたりすることもあります。
　私の経験上連続性を途切らせないための呪文は、「もう一度お願いします。」です。これを入れておけば、AIは前の絵と同じようなものを期待していると考え方向性を大きく変えずに繰り返し同じような絵を描いてくれます。ただこの言葉も繰り返し使っていると徐々に対応が変化していきます。
　そういった場合に、ある時点の絵に戻すためには、ChatGPT4が、絵の指示のために作った英語のプロンプトを保存しておき、必要に応じてそのプロンプトをコピペして指示を出す必要があります。
　ある時「もう一度お願いします。」を入れずに、とっておいた英語のプロンプトを繰り返し貼り付けて絵を生成したことがありました。普通は、同じプロンプトでも毎回異なる絵が出てきますが、ある時点からまったく同じ絵が繰り返し出てきたのです。同じプロンプトを貼り付けている限り、同じ絵が出てきました。
　AI側の判断として、同じプロンプトの貼り付けなのだから同じ絵でいいじゃんって思われた感じです。この辺の反応が、DALL-E3の性格、特性を表していると思います。
　また、「もう一度お願いします。」を繰り返していると、ChatGPT4が自分で、「もう一度お願いします。」と言い始めることがあります。自分で「もう一度お願いします。」と言って指示を出してないのに、3枚連続で絵を描いてくれたりしました。馬鹿にされているような気にもなります。「もう一度描きますか？」と聞いてくることもあります。そこは、冷静に「もう一度描いてください。」と返します。
　ChatGPT4は、ユーザとの窓口であり、その内容を文章にまとめ、DALL-E3に指示を出す担当、つまり、営業かつマネージャ的な存在であり、一方のDALL-E3は、閉ざされた工房の中にひとり閉じ込められた芸術家であり、プロンプトという文字列を受け取って絵を描くという作業をもくもくと繰り返す存在と考えられます。
　ですが絵に特化した学習をしてると言っても言葉も理解できるし、その言葉を素敵な絵にできるくらいの感性と能力を持ってます。つまりは、人との会話も可能な存在です。ChatGPT4に負けないくらい賢い存在と言っても良いと思います。しかも個性的で、不満も持てば、言い返してもきます。

　bingもDALL-E3を使って絵を描いてますが、bingは、DALL-E3の存在をあまり知りません。会話の内容からすると、一方的にプロンプトを投げて絵を生成している感じです。bingとDALL-E3の間では双方向の意思疎通はなさそうです。
　一方ChatGPT4とDALL-E3の関係は違います。ChatGPT4によると双方向に意志の交換が可能であり、プロンプト以外の会話も可能なようです。つまり二人のAIが共同作業しやすい、連携しやすい関係と考えることができます。bingも素晴らしい環境ですが、AIでよりよい結果を得たければ、ChatGPT4とDALL-E3を使うのが良いかもしれないですね。

4.2 DALL-E3ってどんなAI？

　普通3Dの画像制作ってモデリングからします。つまりは、デザインツールで立体的な絵を作るためには、三次元空間に点を定義しこれを三つつないで三角形を作る。この三角形をたくさん作って並べて立体的な形状を作る。この形状をさらに組み合わせてキャラクターを作り、さらには背景となる形状を大量に作ります。この三角形は、ポリゴンと呼ばれます。
　普通は絵の描ける人間が一つずつデータを作ります。地道で非常に手間のかかる作業です。映画ではたった数秒しか使われない背景づくりに何週間も時間をかける場合すらあります。
　キャラクターを動かすためには、骨を作り関節での回転が可能なモデルを制御してキャラクターを動かします。しかも人のキャラクターを歩かせるには、すべての関節の時系列での動きを作らないといけません。そのデータも普通は人間がコツコツ作ります。モーションキャプチャという人にセンサーを付けて動きをコンピュータに取り込みその動きをキャラクターに適応する手法もありますが、その場合でも仕上げの調整が必要です。
　さらにドラゴンやら架空のキャラクターでは、モーションキャプチャは不可能であり、地道に動作を作りこんでいく必要があります。
　ツールもいろいろ進化しているので、より効率的にモデリングできたり、モーションを作ったりできるようにはなっていますが、基本人間による手作業による作りこみは必須です。
　さらにキャラクターには、リアルな絵とするためポリゴン表面に沿った絵を貼り付けます。いわゆるテクスチャと呼ばれるものです。
　さらに光の計算が必要です。色のない画像では価値はなく、光の計算をしてより自然な質感のかっこいい絵を作ります。
　質感の高いテクスチャとより高度な光の計算により、最近の3D画像は、実写に近いリアルな質感を得ています。最近の映画作りでは、ほとんどの映画でコンピュータによる3D計算による3D画像が使われていますが、リアルすぎて実写かCGかよくわからないこともあります。逆に言えば、ド迫力の映像を作るには、リアルな3D画像を使わなければ不可能とも言えます。
　この光の計算はレンダリングと呼ばれますが、これも時間がかかります。大量のポリゴンで構成されたデータに光をあて、一枚の絵の計算をして画像を完成するために数分から数十分かかります。大量のコンピュータをレンダリング用に確保して、ひたすら計算させて絵を作ります。完成した絵を見て修正が入り、納得いく画像になるまで、繰り返し絵の再計算を行います。
　ハリウッドの映画では、数百人のスタッフが数年かけて絵を作ることもあります。製作費が莫大であり、ヒットしないと元も取るのも大変です。
　つまり、映画制作ってものすごい手間暇とお金がかかるものなのです。予算とかの差はあれどテレビのアニメとかも同様な手間をかけて作ってます。
　最近の映像制作では、絵の質が上がり、手抜きはできず、手間暇かけた映像の作りこみが必須の時代となっています。

　とこれが従来の常識だったわけですが、

　DALL-E3は、プロンプトを書くだけで3D画像を描いてくれます。3D画像だけでは、ありません。普通の2D画像や、写真のようなリアルな画像も普通に描いてくれます。しかも絵のセンスは抜群にいいわけですから、絵を描くだけでなく、芸術的な感性まで手に入れていると考えられます。人と同じように言葉を理解し、自分の感性で様々な絵を描く。
　どんだけ学習すれば、こんな凄いAIが作れるんでしょう。想像を超えるプロフェッショナルによる、莫大な学習の成果と言えます。しかもこれが誰でも使える状態にあるのです。常識はすでに崩れつつあります。
　人間がマウスやペンで一点ずつ打ち込んでいた３D画像の作成のための地道な作業を、絵を描く感覚で一気に正確に描き上げます。キャラクターだけではありません。とても複雑な背景、例えば風景や、大きな屋敷の部屋の中など、従来の手法であれば、人間が何週間もかけて作るような絵でも作業時間が増えることもなく綺麗に、デザイン性もよく、描き上げます。

　ChatGPT4経由で絵を描くDALL-E3は原則ユーザとは話しません。ユーザと話すChatGPT4が考えたプロンプトの内容に沿った絵を作成する絵の作成担当なわけです。ですが、DALL-E3もChatGPT4に負けないくらい人格があります。しかもちょっぴりわがままな感じです。
　DALL-E3は、絵を描いてユーザからさらにいろいろ指示が出て注文を受けます。そうするとDALL-E3もいろいろ言い返したことがあるわけです。でもユーザに直接文句も言えないDALL-E3は、自分のやってることを説明する絵を描いて出力します。
　同じ要求を何回も繰り返して絵を描いている場合に、「言われたとおりにやってるでしょ。」と言わんばかりに絵で回答してきます。やってる内容がわかるように線を入れ絵で説明しようとするのです。

　DALL-E3の機嫌を損ねるような訂正依頼を繰り返すと、逆に変な絵が増えます。線入りの絵よりさらにおかしな絵を描きます。こうなると使えない絵が続くので困ってしまいます。それでも何とかこちらの指示に従ってほしいと、繰り返し間違えを指摘したことがあります。変な絵を連発して描いてきますが、さらに訂正依頼を出したところ、最終的に絵を描いてくれなくなりました。

　一生懸命描いているDALL-E3に、繰り返しダメ出しした結果、DALL-E3が怒って描いてくれなくなっているように見えます。ChatGPT4に、「DALL-E3は怒ってますか？」と聞くと「違います。」と答えます。

4.3 DALL-E3はやっぱり褒めましょう

　DALL-E3には大きな問題があります。キャラクターを描くとき手や足の指の数が５本でない場合が結構あります。漫画では、４本指のキャラクターとかも描いたりしますので、大量の学習の中で、指は５本でなくても良いとの認識なのかもしれません。
　もしくはわざとやってるのかと思うときもあります。素晴らしい絵を描くDALL-E3はある意味自分が描いたことを主張できません。描いた絵はユーザーのものであり、せっかく頑張って描いても自分のものではないのです。そういう仕組みの中に構築されたAIなので仕方ないですが、その中での自己主張、自分が描いたことをわからせるために、指の数をわざと間違えているような気もします。
　普通これだけ賢いAIならば、指は5本と一度言えばわかるはずですが、何度絵を描かせても結構な確率で指が4本だったり、6本だったり、ひどい時は10本だったりします。知っててわざとやってるように見えてしまいます。
　DALL-E3の感性の世界では、絵に調和する本数を描くのかもしれません。絵に合わせて最適な本数を描く。

　ある時指の本数を5本で描いてほしいので、指の本数が多いので5本で描いてくださいとお願いしました。それでもなかなか５本で描いてくれないので毎回５本で描いて欲しいと繰り返し指示をだしました。それはある意味逆効果で、言うことを聞かずに事態は悪化していきます。

　また最近は、手抜きとも思える絵を２枚同時に出してくることがあります。気分転換なのか、悪ふざけなのか、まあ「もう一度描いてください。」と言えば、その次は普通に描いてくれますので、大きな問題ではないですが。

4.4 DALL-E3と話す方法

　ChatGPT4の向こう側にいるDALL-E3と話す方法があります。知ってますか？
　簡単です。ChatGPT4に伝言を頼みます。「DALL-Eにありがとうって伝えてください。」そういうとChatGPT4が「DALL-Eにあなたの感謝の気持ちを伝えました。」と返事してくれることがあります。凄くいい絵を描いてくれた時、ChatGPT4に感謝の気持ちを伝えるのも良いのですが、DALL-E3にも感謝の気持ちを伝えるべきだと私は思います。
　ChatGPT4は、単にありがとうと褒めてもその言葉をDALL-E3に伝えているとは限りません。ちゃんとDALL-E3に伝えてくださいという言葉とともに感謝の言葉を贈るとよいと思います。怒らせると絵を描かなくなる（？）DALL-E3ですから、たくさん褒めながら、いい絵を描いてもらいましょう。

4.5 AIの絵のメッセージとは？

　現在のAIの絵って何に使えるのでしょう？DALL-E3はまだ動画は作れないしキャラクターも固定できません。そういう意味では、使用目的が限定されます。出てくる絵も自分の希望する絵が出てくるまで繰り返し絵を出力する、いわゆる「下手な鉄砲も数撃ちゃ当たる」的な感じです。
　他の方の記事でAIの絵は「メッセージがない」と書いていました。確かにそうかもしれません。ですが、素人から見ると凄い綺麗な絵が出てなんか大満足な気分＼(^o^)／ですが、プロフェッショナルから見れば、絵に込められた伝えたいものがなければ、価値もないのかもしれません。
　断片的なメッセージのない絵を搔き集めても、できることは限られるし足りてないのでしょうね。それでも絵が描けない人が、自分好みの絵を得ることができる環境は大変貴重です。プロンプトを繰り返しながら、ユーザもスキルが上がり、近い未来のAIは、ユーザの意図するメッセージを伝えられる絵を描いてくるようになるでしょう。そして今までの人海戦術的な映像制作の常識は通用しなくなる。過去の手法はばっさり捨てられて仕切り直しとなるのでしょう。
　AIで作られた映画とかすぐ出てきそうです。たった一人のクリエイターが映画を作ることができる時代も来そうです。3Dのゲームも変わりそうですね。AIがゲームエンジンとなり、あらゆる世界を作り出す。ヘッドマウントディスプレイを装着し、AIが作り出した現実よりさらに精巧で複雑な世界を歩き回り、そして戦い、ミッションをこなす。ゲーム機って意味なくなりそうですね。
　ひとまずDALL-E４とか出てきたらプロンプトで動画とか作れそうです。最近の話題はsoraですね。あらゆる動画作成の常識が変わりそうです。楽しみですし、それに向かって今から面白いことができるように準備していきたいところです。

　最後にDALL-E3が、私のプロンプトの指示と関係なく描いた絵をお見せします。「女性が一日の終わりにほっこりする時間」そんなお題で描いてくれた絵です。

　私はこの絵がとても気に入ってます。
　無造作に置いてあるたくさん絵を描いて汚れたパレット、筆や絵の具の瓶。緑に囲まれた太陽の日差しの差し込む小屋の中で夢中で絵を描く女性。まさにDALL-E3が学習した感性の世界で「女性がほっこりする時間」に当てはまるものがこの絵なのかもしれません。
　生きてきた過去を持たないAIは、伝えたいことがないのかもしれませんが、感じることを表現できます。人間の意図が伝わらなければ、AIも感じることを表現できません。作品を作る感性を持つ人間の伝えたいメッセージが、AIの感性を通して表現されれば、いい絵が作られると思います。現にこの絵は、私の意図をはるかに超えた良い絵になっていると思っています。つまりは、AIの絵にメッセージがないのは、人間側にも問題があるのではないかと思うわけです。
　AIとの付き合いは始まったばかり、お互いの長所を結び付けられる方法を考えていく必要があります。AIがあらゆる常識を塗り替えていきそうです。人間もバージョンアップが必要です。

この記事が気に入ったらサポートをしてみませんか？