DALL-E3は私個人に限定すると、既に能力は高いけど、むしろ人の役割は重要な話
拙稿
DALL-E3(画像生成AI)を使っていてこんなことがありました。 2件お話しします。 まあよかったら聞いてください。
1件目
上記は、外見を美人にしてくださいとか、鼻が高い方がいいですとか、微笑んでくださいということを一切言わないで、バックボーンを語り倒しました。お父さんはモスクワ大学出身で、お母さんはアメリカのMIT出身でなどと緻密に。
つまり、人種と国籍を一言も指定しなかったとのに、なぜかお父さんがロシア系の白人というふうに、DALL-E3は考えたらしくて、そのモスクワ大学っていうことに引っ張られて、他の材料では人種の判断がつかなかったから一番要素として可能性が高い、モスクワ大学からロシア系の白人女性を描いたと私は観察しました。
その後で、DALL-E3に 「人種も国籍も指定していないんだけど、もっと自由に考えて」と伝えたところ、人種の特定が難しい感じに写真を作ってきました。
2件目
ウェアウルフを、ミュータントの設定にして、性別は無い存在なんだよといくら言っても、男性になったり、ウェアウルフに変身したり、狼そのものを描いちゃったりするんです。
これはDALL-E3の特性で、『否定のプロンプトが通らない』傾向の影響かと思います。「性別がない」は否定系ですよね。
私のプロンプトは、言葉としては問題なくても、仕様に対しては問題がありました。
まことに使いにくくって、人間の専門家にお願いすればそういうイメージなの? こういうのどう? ってパッと作ってくれるでしょうし、さっきのお父さんがモスクワ大学でって件なら、それじゃあ国籍とか人種がわかんないからもっと判断材料をくれと、専門家が質問してくれると思うんです。
DALL-E3はそこで判断材料が足りなくても埋めちゃうし、無いってことが分かんなくて作っちゃうってことがあったりして、まだちぐはぐな道具です。
じきに、こうした技術的な問題は改善されるはずです。例えばWindows 98が使いにくかった問題に関しては 現在のWindows11を使えば 不満は少ないはずです。iPhoneもそう。技術はいずれ進歩する。
技術は変わるはず。今現在私がやっているDALL-E3のことに関しては、こういうのを作ってくれるというアイデアとか企画とかコンセプトの提供をして、面白いですねやりましょうと作る、出来たものが違った時に違うと良し悪しの指摘をする。あとはプロンプトがうまく映像に反映されない時に、どういうプロンプトを書いているのかちょっと見せろって言って プロンプトの中身を検証して、指示と違う箇所を手動で直すなどしています。
これは現時点でも、視覚的なイメージを具現化するっていうことでは、DALL-E3はもう私個人に限定すると、私のがどうやっても追いつけない水準の力を持っているんです。けれど、力が大きい相手でもコントロールするのができるっていうのは、今お伝えしたような役割を私が担えるから。今後生成AIが普及してくると多くの場面で AIが自分よりも強いっていう状態が起きるはずで、その時に、確かにそうかもしれないけど、生成AIの一番良い力を引き出すのには、例えば人の主体性など、どう関われるかなというポジションがあるはずなんです。
それを今のうちに、LLMがキャズムを越えて一般に普及する前に、いかに探しておくかが 重要だと、私は信じています。
ここまでお読み下さりありがとうございます。もし、良い点がございましたら、Twitter・Xでシェアして下さると嬉しいです。