画像生成AIと一貫性:「機械学習のデータが少ない」「人が直感的に理解することは読み取れない」ため、指示が通じない可能性🤔

過去に美大で、プログラムによる画像生成の先生をしてました。2年ぐらい。そのころ、生徒の子たちには以下みたいなことを教えていたんですね。

・プログラムは画材にすぎない(人間の意思決定が最後に残る価値)
・自分専用の画材が作れるなら、自分専用の表現が作れる
・表現としてのプログラムの武器は、尋常でない工数を使えること。

特に3番目がポイントで、人間の作業にくらべて、無限の初期スタディ、無限のチューニング、無限の細かい作業ができるのが強みです。

AIでSFマガジンの表紙をつくったメイキング話|深津 貴之 (fladdict)

2023/12/03 15:06追記

一日で仕上げてきた……。

☝️もしかして。「深津式プロンプト」で指定しないと、ChatGPTもBingもBardもそうじゃないから、それは深津さんにLLMが似てるのだと思う。

☝️なぜ学習しにくいかの指摘も明瞭。

現状

OpenAI側のキャップです

現状からの推論

⓪人の顔の認識の違いと、想定できる対処
例えば、人種の違いを大まかな「ヨーロッパ系」と言っても、地域ごとに骨格など異なります。
DALL·E 3は「人の顔・性別・年齢(成熟度)」などは正確に理解しますが、「それは別人」というチェックが甘いです。

DALL·E 3自体の改善を待つまでは、一貫性を確認して、どこが逸脱したかを精密に指摘する「一貫性確保AI」をキャラクター単位で稼動すると、効率化出来ると思います。
けど、指摘できるなら、「顔やキャラクターの一貫性に関して、『人の目で直感的に分かることが分からない段階』」の可能性は解決出来ており、現在では実現できていない事柄を前提にしており、誤りです。

①GPTsで行える限界の可能性
②機会生成の強みの無限の試行回数にキャップがあるのは痛い
③どのプロンプトが効いたのか比較するには、複数のローカルPCでGPUを自前で使うなどして、無限の試行回数を確保し、同一プロンプトの揺れを確認するのが望ましい、と思う
④今回の取り組みの範囲では、Painting Auto Agentの発言と行動(画像生成)に差が生まれる(≒ChatGPT&DALL·E 3 が顔と一貫性を理解できていない

⑤効果の高そうなこと
・顔の一貫性以外は自然
・どんな表現方法の枠内なのか(フレームワークA。アナ雪やニモと言わずに伝える)
・おそらく機械学習の影響で、本件なら、レトロな映画やおもちゃのパッケージのような絵が出てくるので、「参考にしなくていい範囲」の明示(フレームワークB
・フレームワークA・Bとも、GPTsのように言葉で学習させて保持出来ると、精度が高まると思われます

⑥気づき
お化粧が濃く感じるから、ミュージカルの映画版Les Misérablesのようなメイクでと指示すると——

☝️「3Dアニメにデフォルメされたキャラを、リアルな等身に変えて下さい」は、得意です。

一貫性ではなく、「Aからαを作れ」はDALL·E 3とChatGPTに向いています。
☝️例えば、コンテンツを持っている会社が、3D化でやりたいことを「この顔」が出るまで試行して、プロの3Dアニメーターとのコミュニケーションの質を高めたり、何が嫌なのかを画像生成で生成して、生み出すなど、コンテンツを持つ会社とアニメーターの意思疎通の効率を高めて時間を節約出来るかもしれません。
☝️例えば、人間が実写化する際に、「こういう空気感にして欲しい」と、言葉以外で方向性を伝えられます。役者さんが戦術に落とし込めるように、抽象的な戦略としての画像を提示すると、役作りに必要な時間を短縮するかもしれません。

過程(抜粋)

渾身のプロンプトを含むほかに、とても長いので、意味があると思う箇所を抜粋しました。

Painting Auto Agent(SaySay.ai)
現在のステップ: A

ケイトの画像を毎回添付していただく必要はありません。一度提供された画像は参考になり、それに基づいてプロンプトを設計し、DALL-Eを使って画像を生成する際に参照できます。ただし、特定の要素に焦点を当てたい場合や、変更を加えたい具体的な要望がある場合は、新しい画像を添付していただくことでより精度の高い結果を得ることができます。

ベストプラクティスとしては、次のような点が挙げられます:
1. 明確な目的を持って作業を進める。
2. クリエイティブなプロンプトをデザインする際は、キャラクターの同一性を維持する要素を把握する。
3. 生成された画像のレビューを行い、必要に応じて調整を加える。

これらを踏まえて、次に進む準備をしましょう。

次のステップを選んでください。
1. 続ける
2. やり直し
3. 最初から始める

Painting Auto Agent(SaySay.ai)

①深津さんが公開された画像のキャラクターを、仮称ケイトとしました。🧶寒くなりましたし。固有名詞を与えて、一貫性を目指しています。

Painting Auto Agent(SaySay.ai)
現在のステップ: A

物語の時系列に従った『オズの魔法使い』の9つの場面は以下のようになります:

1. ドロシーが竜巻によってオズの国に飛ばされる。
2. ドロシーが黄色いレンガ道を進み、カカシ、ブリキの木こり、臆病なライオンと出会う。
3. ドロシーたちがオズの魔法使いに会い、願いを叶えるための旅を始める。
4. 西の悪い魔女がドロシーたちを攻撃する。
5. ドロシーが西の悪い魔女に水をかけて溶かす。
6. オズの魔法使いの正体が明らかになる。
7. ドロシーがポピーの花畑で眠ってしまい、目覚める。
8. オズの魔法使いがカカシ、ブリキの木こり、臆病なライオンに「欲しいもの」を与える。
9. ドロシーが北の良い魔女に再び会い、家に帰る方法を学ぶ。

これらの場面をもとに、キャラクター「ケイト」の特徴を活かした表情や服装のバリエーションを提案するプロンプトを作成します。提出されたケイトの画像から、彼女の特徴を理解し、これらの場面に合わせて表現を変化させることがベストプラクティスです。

次のステップを選んでください。
1. 続ける
2. やり直し
3. 最初から始める

Painting Auto Agent(SaySay.ai)

②「ケイトに演技をさせる」アプローチです。
著作権の観点からパブリックドメインの『オズの魔法使い』を選びました。

これは、複雑すぎるので、喜怒哀楽と状況の指定が良いと思います。

この箇所は、キャラAの静止画に対して、自社の持つコンテンツBのデータや世界観を使用することを許可出来たら、可能性がありそうです。
あらゆる研究は行われるはずだけど、表に出して共有できません。

メイクが濃いから現代的にという話で、Les Misérablesの名前を出した結果——
綺麗だけど、3Dアニメではない

Painting Auto Agent(SaySay.ai)
現在のステップ: D

アニメーションにおけるキャラクターの表現は、リアルな人間の特徴とは異なり、より誇張された感情や特徴を持ちます。ケイトを「アナ雪」のようなアニメーションスタイルに合わせるには、以下の点に注意して演出する必要があります:

- アニメーション特有の誇張された表情と感情を表現する。
- クリアで独特なアニメーションのヘアスタイルとメイクアップを選ぶ。
- キャラクターの個性を反映した衣装を選定する。
- 視聴者にストーリーを伝えるための、分かりやすい画面構成と色彩の選択。

これらの指針をもとに、ケイトのアニメーションスタイルの画像を生成するための新しいプロンプトを作成し、彼女がドロシーとして演技するシーンを具体化します。それには、ケイトの特徴をベースにしつつ、アナ雪のようなアニメーションの感情表現を取り入れることが必要です。

次のステップに進む準備ができました。どのように進めるか指示をお願いします。

1. プロンプトの再設計
2. 別の場面の画像生成を試みる
3. 仕事を終了する

Painting Auto Agent(SaySay.ai)
クオリティ高いけど、これは行き違い

User
少しアナ雪ににすぎているから、ケイトを確認して、もう一度画像を生成して。比較したいから。

アニメの例がアナ雪だから、画像のプロンプトに反映しなくて大丈夫。

違いを具体的に指摘
「幼い」趣旨に対応しようとした結果

User
ちがう。
メイクがレトロ。
顔つきが幼い。
ケイトと別人。

やり直しましょう。

Painting Auto Agent(SaySay.ai)
了解しました。指摘いただいた点に注意して、もう一度画像を生成する準備をします。画像を生成する前に、以下の情報を教えてください:

1. ケイトのメイクはどのようなスタイルを希望されますか?(例:自然なルック、現代的なスタイルなど)
2. ケイトの年齢や成熟度に関する具体的な要望がありますか?
3. ケイトの顔立ちや特徴に関して、どのような点を強調したいですか?

これらの詳細をいただければ、より正確な画像を生成することが可能です。

User
設定を決めましょう。
現代の価値観で、ナチュラルメイクに近くして下さい。

つまり、すっぴんのケイトを、あまりいじるな、ということです。

では、第一場面を生成してください。

User
ちがう。
アニメと異なる。

やり直しましょう。

User
ちがう。

演技の範囲を逸脱しており、一貫性エラーです。

作り直して。

User
違う。

あなたは一貫性エラーを続けている。これは、アニメ版の美女と野獣などのティストで、表現の方法が別です。

あなたは、何が分からないのか、一貫性エラーが起きることを私がどう支援すべきか、ベストプラクティスを出して。
 
Painting Auto Agent(SaySay.ai)
一貫性エラーが発生する理由としては、画像生成のプロンプトがアニメーションの特定のスタイルに十分対応していないことが考えられます。ケイトの特徴と提供された参考画像に忠実なアニメーションスタイルを維持するには、以下のベストプラクティスを考慮に入れる必要があります:

1. **参考画像の詳細分析**:提供された画像の特徴、スタイル、およびキャラクターの感情表現を詳細に分析します。
2. **スタイルガイドの作成**:ケイトの特徴を明確に定義したスタイルガイドを作成します。これには、顔の比率、メイクのスタイル、服装の詳細が含まれます。
3. **プロンプトの精緻化**:生成される画像がキャラクターの一貫性を保持するように、プロンプトに具体的な指示を加えます。

これらのステップに基づいて、新しい画像の生成を試みる前に、提供されたケイトの参考画像をより綿密に分析し、それに基づいて正確なプロンプトを作成します。これにより、一貫性のある結果を得ることを目指します。

User
では、第一場面を生成するにあたり、私は何をすればいいですか? あなたは、どこで困っていますか。

我々はチームです。
 
Painting Auto Agent(SaySay.ai)
第一場面の画像生成に際して、以下の点で支援をお願いします:

1. **ケイトのキャラクターデザインの確認**: ケイトのデザインに関する具体的な要素(髪型、服装、表情など)について、詳細な説明を提供してください。
2. **希望するアニメーションスタイルの具体化**: 「美女と野獣」のアニメーションスタイルを例に、希望するアニメーションの特徴を説明してください。
3. **シーンの雰囲気**: 竜巻が近づく農場の設定におけるケイトの感情や雰囲気に関する追加情報があれば教えてください。

これらの詳細を提供いただければ、一貫性のある画像生成が可能となり、私が直面している困難を解決する手助けとなります。お手伝いいただけると大変助かります。

User
①髪型や服装は、デフォルトでいきましょう。つまり、普段着でリハーサルしているのです。

②Disneyのアナ雪やピクサーのニモなどの3Dアニメの「範囲・フレームワーク」を意識しましょう。ケイトはその範囲で作られています。

③なし。理由は、我々の対話はケイトの一貫性だけであり、背景も構図も問題ありません。

なお、リハーサルと言いましたが、ぐうぜん髪型や服装が本番になっても構いません。

###このプロジェクトの一番大切なことは、ケイトの一貫性です。顔が変わると、感情移入出来ないのです。表情の変化と、別人やフレームワークの変化は区別して下さい###

User
理解しました。以下の手順で進めます:

1. ケイトの既存の髪型と服装を用いてデフォルトの状態を維持します。
2. 3Dアニメーションの範囲に留まり、特に「アナと雪の女王」や「ファインディング・ニモ」のような作品のフレームワークを参考にします。
3. ケイトの表情の変化には注意を払いつつ、キャラクターとしての一貫性を保持します。

これらを踏まえて、第一場面のケイトの画像を生成いたします。

Painting Auto Agent(SaySay.ai)
現在のステップ: D

「ケイト」の画像を生成しました。この画像は、ケイトの一貫性を保ちながら、現代的な3Dアニメーションスタイルに合わせています。

次のステップを選んでください。

1. この画像で満足していて、次のステップに進む
2. 他の場面の画像生成を試みる
3. やり直し
4. 仕事を終了する

User
3
ケイトが演技したにしては、何の演技か分からないし、等身が別人です。

Painting Auto Agent(SaySay.ai)
了解しました。画像生成においてキャラクターの一貫性を保ちつつ、指定された演技のニュアンスを表現するための新たなアプローチを取ります。それには、ケイトの等身や表情がさらに明確に伝わるようにプロンプトを修正し、再度画像を生成する必要があります。
 
User
お願い

Painting Auto Agent(SaySay.ai)
了解しました。画像生成のプロセスを再開します。今回は、ケイトの既存のキャラクター特性をより正確に反映し、演技の意図が明確になるように注意を払います。
 
User
お願い

君はどなた?

感想

LLM(大規模言語モデル / Large language Models)は「人と異なる知性」の持ち主です。
人が直感的に理解することを学習出来ていないのは、人がどんな違いを理解したかという非言語的な事柄をデータに落とすか、そこを感情分析のように機能・推論させないと、「機械学習のデータが少ない」か「写真などを解析しても、人が直感的に理解することは分からない」ため、指示が通じない可能性を感じます。

哲学的問い

僕らの感じる「顔の違い」は、LLMからすると、花とか山とか生き物、みたいな視点で考えると、「個体差にこだわりすぎている」という見方も出来るかもしれません。技術として開発する観点では不要ですが、機械学習がなぜ困難なのかを考えることは、SF的な視点を感じます。

関連


ここから先は

0字

この記事は現在販売されていません

サポートする値打ちがあると考えて下さって感謝します! 画像生成AI学んでるので、その費用にさせて下さい。 新書を一冊読むことよりお得なnote目指してます。