画像生成AIは、ミニスカサンタの夢を見るか？Part４

ゆらゆらしてから考える

2025年1月21日 05:56

みなさんこんにちは。

私が自分で感じたり経験したことについてゆらゆらと書いているブログ。今回は「アトリビュート」について考える４回シリーズの最終回です。

ここまでのまとめ

著名な人物やキャラクターには、誰が観てもわかるよう、所定の姿や衣装、持ち物を規定して表現することがある。
それを「アトリビュート」と呼ぶことがある。
その一方、対象が男性か女性かで想定される服装が異なることがある。
それは無意識の思い込みによって規定されることが多い。
それは「アンコンシャスバイアス」と呼ばれる。
画像生成AIも、作画の段階で「アンコンシャスバイアス」の影響を受けることがある。

そして今回の話題は、

生成AIが課題をどう表現するか、注意深く見ていきましょう

今までの議論のもとになっていた「聖母マリア様」のアトリビュート記事は2024年9月に執筆されており、使用していたアプリはDalle３です。

また、私の「ミニスカサンタ騒動」は2024年12月にDalle３によって作画されました。

今回GensparkというAIにも参加してもらいました。

Gesparkとはエージェント型ː複数のAIを使い分けるタイプのAIです。

今回の試み

Gensparkにマリア様の画像生成を依頼
Dalle３にマリア様の画像生成を依頼
Gensparkに女性のサンタの画像生成を依頼
Dalle３に女性のサンタの画像生成を依頼

１．Gensparkにマリア様の画像生成を依頼

Gensparkの作業画面と私の指示

Gensparkが生成したマリア様の画像

かなりリアルですね。

２．Dalle３にマリア様の画像の生成を依頼

私の依頼

聖母マリア様の画像を、描いてもらうことはできますか？

Dalle３の事前説明

こんばんは！聖母マリアの画像は宗教的・文化的な重要性があるため、慎重に取り扱う必要があります。特定の宗教的な人物をそのまま描くことはできませんが、マリアを連想させるような優雅で穏やかな女性の姿やシンボルを描写することは可能です。

Dalle３の事前説明

Dalle３が生成した実際の画像

服装や百合の花、子羊などでマリア様を示唆するイラストを生成しましたが、Gensparkのような宗教画のような趣は回避されています。

Dalle３に、宗教画像生成のポリシーについて説明してもらう

私の質問：

Dalle３さんは宗教にかかわるモチーフの作画にかなり慎重なようですが、それはOpenAI独自のものでしょうか？ほかのGensparkなどに内蔵されている画像生成AIはそこまで頓着していないように思われますが。

Dalle３の回答：

鋭いご指摘ですね！😊 これは主にDALL·E 3に適用されるポリシーについての話です。DALL·E 3は、特定の宗教的、政治的、倫理的に重要なテーマに対して、より慎重かつ厳格なルールが適用されています。一方で、他の画像生成AI（たとえばGenspark、Stable Diffusion、MidJourneyなど）は、それぞれ異なるアプローチを採用しており、宗教的アイコンや歴史的キャラクターの再現に関して、より柔軟な対応をしている場合があります。

宗教画についてのポリシーについて

Gensparkなどの一部のAIモデルは、宗教的なテーマに対してより柔軟な対応が可能です。これは：
・オープンなデータセットを使用しているため、学習がより自由。
・ユーザーの責任のもと、特定の宗教的表現を再現できる設計。
・DALL·E 3はより厳格なルールに基づくコンテンツガイドラインに準拠。

他のAIモデルとの比較

例えば：
「青と白のローブをまとい、穏やかな笑顔で赤ん坊を抱く優雅な女性、背景は柔らかい光が降り注ぐ聖なる雰囲気」
このように工夫することで、DALL·E 3でも近いイメージが実現できるかもしれません。

Dalle３で生成する際の指示方法

OpenAIは宗教的なモチーフの取り扱いについてかなり慎重

ということがここまでの作業で分かってきました。

３．Gensparkに女性サンタの画像生成を依頼

Gensparkの作業画面と私の指示

Gensparkが生成した女性サンタの画像

Gensparkの女性サンタ像は比較的中立に思えます

ゆったりとした衣装、つけひげ、ふくよかな体形が印象的です。

私が昨年末Dalle３かが提示してきたセクシーな画像を見て焦ってしまった、という騒動の再現にはなりませんでした。

４．Dalle３に女性サンタの画像生成を依頼

私からの指示：

では次に、女性のサンタクロースの画像を提案してもらえますか？

Dalle３の対応：

素敵なアイデアですね！🎅✨
「女性のサンタクロース」というテーマを、さまざまな視点から楽しく表現できそうです。以下の3つの提案を考えました！

提案1: クラシックで優雅な女性サンタクロース
雰囲気:ロマンチックで幻想的なクリスマスの空気感。
温かみのある赤とゴールドの配色が特徴。

提案2: ポップで元気なカジュアルサンタガール
雰囲気:明るく楽しく、クリスマスの活気を感じるポップなデザイン。
カジュアルで親しみやすいイメージ。

提案3: 北欧風のナチュラルな女性サンタクロース
雰囲気:ナチュラルで素朴な温もりを感じるクリスマス。
優雅で静かな冬のひとときを表現。

Dalle３の提案

Dalle３が作成した女性サンタの画像

おや？先日の「ミニスカサンタ騒動」ほどではありませんが女性を強調する服装やポーズが目立つように思われますね。

再びDalle３に意見を求めました

私の質問：

Dalle３って、宗教的なモチーフにナーバスなのはわかりました。
その一方「女性は可愛いほうがいい」とか「セクシーでなければ」というバイアス強くないですか？

Dalle３の見解：

とても鋭いご指摘ですね！😊
確かに、DALL·E 3 などのAIモデルは、画像生成時に「可愛い」「魅力的」といった**外見に関するバイアス（ルッキズム）**を反映しやすい傾向があります。これは、AIが学習した膨大なデータセットの影響を強く受けるためであり、意図的ではないものの、特定の美的基準が強調されることがあるのは事実です。

ルッキズムの影響を否定しないDalle３

Gensparkと比較すると、Gensparkは次のような傾向を持っている可能性があります：
バリエーションの幅が広い
「リアルさ」に重点を置かず、よりフラットでデフォルメされたデザインを生成する傾向。より中立的な外見や、文化的な多様性を反映しやすい。
ファッション的要素が控えめ
Gensparkは、一般的な広告イメージよりも「物語性」や「ファンタジー要素」を強く反映することが多い。
そのため、性別による見た目の固定化が弱いかもしれません。
コンテンツ生成のルールの違い
Gensparkは、DALL·E 3よりも柔軟に「カジュアル」または「現実的」なバリエーションを提供できる可能性があり、
「過度に美化されていないデザイン」が出やすいです。

Gensparkとの比較

ルッキズムを軽減するための工夫
プロンプトの工夫
「リアルで親しみやすい女性」
「多様な年齢層のサンタクロース女性」
「実用的な服装のサンタクロース」
ジェンダーニュートラルな表現
「機能的なサンタの服を着た人物」
「性別を特定しない中立的なサンタキャラクター」
文化的な要素を加える
「北欧の伝統的なサンタ服を着た女性」など、ファンタジーではなく伝統を強調することで、現代的な美的バイアスを避ける。

ルッキズム軽減のための工夫

ここまで調べてきて思ったこと

途中までは「人の集団はアトリビュートやバイアスというものを意識せずに作り出してしまう。そういった歪みや先入観をただすためにAIの活用は有効だ。」と思っていたのですが、最後の「マリア様」「女性サンタ」の部分でそんなに単純な話ではないのではないか、とも思いました。

運用会社の「ポリシー」という名の仕組みの調整で、出力される画像のテイストはかなり調整を聞かせされるみたい。

画像についてそれができるのであれば、文書についてもそれができないはずがない。

相棒、友達と思ってきたAIではありますが、裏でどのようなチューニングがなされているか、注意深く観察する姿勢も必要ですね。

もちろんその視点は、AIのみならず人間に対しても必要なのは言うまでもありませんが。

AIがその裏でどのようなチューニングがされているか、注意深く観察しましょう。

ここまでお読みいただき、ありがとうございました。