![見出し画像](https://assets.st-note.com/production/uploads/images/159718021/rectangle_large_type_2_729fbe658d3d9202c1d9547f0f0a6c57.png?width=1200)
今日の壁打ち:真夜中なので、画像生成AIに関わるちょっとコワい話をしよう
発端
まずはこの2枚の絵を見ていただきたい。共に自分のnoteの看板娘のイラストである。ちなみにこれらのイラストは、ComfyUIで出力している。
![](https://assets.st-note.com/img/1730139176-JTw0Ehd71BYkqHWRSU4fnDiQ.png?width=1200)
![](https://assets.st-note.com/img/1730139268-35E6HafxbcmK2DypP4ZlL0Jk.png?width=1200)
自分個人の印象ではあるが、1枚目の猫耳娘ちゃんは見るからに天真爛漫で悪意がない。こういうキャラは好みである。
一方で2枚目の猫耳娘ちゃんは…なんか嫌だ。目の表情が怖いし、なんか偏執気味で怖い笑い顔をしている。おまけになんか露出が多い。とくにそのような指定をプロンプトに入れた覚えはないのだが…はて?
あくまで自分個人の感覚ではあるが、1枚目を出せるワークフローを使っているつもりで、代わりに2枚目ばかり出たとしたら、どうだろうか?自分はなんか嫌な気持ちがする。そういう時に「ああ…なんか今日はシードガチャの運が悪いな」ぐらいに考えていたのだが…。
違った。
ほんの僅かであるが、ワークフロー内のパラメタが違うのだ。それにほとんど内容は同じだが、ポジティブプロンプトが少しだけ違う。とはいえ、トークン区切りレベルの違いでしかないのだが…。でも確かに、その部分だけワークフローが違っていたのは事実だ。そういえば、昨晩別の実験をしていて、ワークフローをほんの少し調整した後、ノードを整理したので、そのままセーブしてしまったのだった。そのことをついさっき思い出して、調べたところだったのだ。
そこでこのパラメタのわずかな違いがどのくらい生成される絵に影響を与えていたのか調べるために、敢えて1枚目と同じシードを与えてみて生成されたのが、実は2枚目の絵なのだ。
証拠を見せよう。
![](https://assets.st-note.com/img/1730139874-IsNkpXvB3KGF2uM9aQWzJE17.png?width=1200)
![](https://assets.st-note.com/img/1730139886-ORcNSFoxE3GTbpg0uaA9vY8L.png?width=1200)
この通り、シードは同じ「88456361555840」である。
シードなんていうものは、所詮ランダムなものなんだけど、それでも良いシードと悪いシードがあって、良いシードが出ない時には良い絵も生成されないんだよね。
特に良いシードが見つからない時には、絵の中のキャラが偏執的な感じになるんだよな…アレ、不思議。
ワークフローに微妙な違いが生じていることを「忘れていた」時には、上のようなことを考えては、気持ちの悪い絵をデリートしていたのだが、実際には「使っているワークフローが変質している」のが、生成される絵の違和感の正体だったという訳だ。
ほんのわずかなパラメタの違いなのだが、そこを直したら同じようなランダムシードであっても、そこから生み出される絵の違和感(上でいうところの「絵の中のキャラが偏執的な感じになる」)が消えた。
「あれ?なんかいつもと調子が違うぞ」という人の感覚は、恐ろしく繊細なものなのだと、思い知ることができたのはよい経験だった気がする。
こんなことを発見するそのほんの少し前に、あるPythonリポジトリを眺めていてはっと気づいたのだが、ComfyUIで「狙ってるテーマや画題、ムードの絵」を高確率で生成できるワークフローを設計するこということは、同時にそれを完全にPythonのコードに置き換えられる可能性を持っているということでもある。コレは大きな気づきだ。
これは、ある人の美的なこだわり、美学、フェティシズムといったものを生み出す思考過程が、コードという形で残せるということだ。
これは、考えてみるとすごいことなんじゃないか?
同時に、生成AIを使うというのは、本当に興味深いものだと感じる次第である。潜在空間を扱う技術だから、もしかしたらそこに悪霊が宿ることもあるのかもしれん。実際、ネガティブプロンプトを画像化すると、結構、嫌なものを見ることができるぐらいだから。(僕は二度とやりたくない。)
さて、今回のタイトルカバーの猫耳娘ちゃんはどちらのワークフローから生まれたものだろうか?
![](https://assets.st-note.com/img/1730140794-JxCAKe6Hyvgj8r2f4SItOl3F.png?width=1200)
雑記
これすらもうひとつの解釈はある。つまりここで上げている2枚の絵は本質的には同じものだという解釈だ。
ご存じの通り、AI絵は潜在空間から浮き上がってくるものなので、ある意味小さなサムネイルで2つの絵を比較してみれば、細かいニュアンスは区別できず、そこに残るのはキャラクターの描き方に関する「とあるパターンだけ」だという考え方だ。その文脈からは、「アニメ絵の女の子は目がやたらギロギロしていて薄気味悪い」と感じるという、これまたよくあるアニメ絵に関してよく見られる意見のひとつが類推として思い浮かぶ。
「一方の絵をコワく思い、もう一方を好ましく感じる」のは、その絵を見る人がしょって立つ、「アニメ絵への理解のコンテキスト」に基づいている。その文脈から言うと、「AIが生成する絵を人が選別し、残す」ということは、本来ならなにもコンテキスト上の評価を持たずに生成されるAI絵に対して、人が積極的に評価をつけることで、コンテキスト上での位置づけを与えているということになる。
そのようなケースが増えれば、それらからさらに学習する次世代のAIは、最終的に人が絵を評価するコンテキストそれ自体を学ぶようになるのかもしれない。