VISIONS / 画像生成AI雑感
わたしの部屋にはテレビがない。
今時特に珍しいことでもないだろう。代わりにラジオはわりと聞く。タブレットに一言命じれば流れてくるので気軽である。そうやって昨夜も適当にラジオを流しながら作業をしていたら、そのうちお絵かきAIの話が始まった。モデル配布など一連の経緯の説明を経て、実際に生成してみましょうと言って騒いでいる。
ふむ、同じことをやっているな、と思う。わたしもその時ちょうどNovelAIにpromptを投げている最中だった。ラジオで画像生成するというのも挑戦的な企画だと思うが、そこは置いておく。社会的な影響の懸念なども言及されて通り一遍の話ではあるのだけど、出演者の間に流れていた感触といい、やはり世間一般的にはふうん、といった程度のものなのだろうと思う。
2022年8月下旬のStableDiffusion公開後、わたしが手元の端末に導入したのが9月10日、これを書いているのが11月3日だから、およそ2ヶ月弱が経った。……と書いてちょっと愕然とした。2ヶ月? そんなに経っていたかという気持ちと、物事の展開の早さにも関わらずまだその程度だったかという気持ちの両方がある。いずれにしても入れ込みすぎている嫌いはあって、一時は作業とPCの夜間騒音で睡眠状況が悪化して体調を崩したりしていた。低スペックのローカル環境からNovelAIへ移行したことでこれは概ね解決したが、自分の愚かさそのものは何にも解決していない気がする。WaifuDiffusionやTrinArtといったモデルにもそれぞれ味があって捨てがたいし、そろそろ環境を新調する頃合ではあるのだけど。
何でそんなにこの件に入れ込んでいるのか、と思ったりもする。
一番には、単純に楽しい遊び道具だからである。あるいは、これが間違いなく社会の一画に変動をもたらすものであるから、という興味もある。具体的な社会への影響については各所から優れた考察が出ているのでここでは触れない。技術的な興味もいくらかあるが、実際に仕組みに手を加えてみるほどではなく、概念的に理解しておきたいというあたりに留まる。
率直に言ってしまうなら、自分の手の届くところまで降りてきた愉快な、そしてひょっとすると危険な最新の玩具を放っておくなんて、そんな勿体ない話はないだろう、というくらいのところである。過去にVRに首を突っ込んだのと大体同じ理由とも言える。
とはいえ素直な感覚としては、ひとり勝手に砂場に山やら城やら何やら築いて遊んでいる子供とさほど変わらないようにも思う。やっているのはあくまで絵を描き出すことでしかないし、入れ込んでいるわりにはあまり込み入ったことは考えていない。議論があることは重々理解しているが、自分としては単純にただ面白いから遊んでいるだけである。
自作テンプレートに一文足して生成してみる。25枚目。ちょっと身体バランスやディテールが細かすぎるのは気になるが(そもそも指定が良くない)、まずまずといったところ。2枚目でも十分だったのだけど、誤って縦構図にしてしまったので破棄した。ものの数分でこれだけの出力が得られるなんて、かつて想像だにしなかった。
「絵を描く」ということ
「絵を描く」ということについて、いわゆるゲームや漫画等の同人文化周辺にあって、ある種の鬱屈を抱えている人はかなりいるのではないかと思う。たぶん、何かをつくろうと思ったことがある人にはいくらかの心あたりがあるはずである。
例えばゲームが好きで、勢い余ってつくってみようとする。サンプル的なものの領域から踏み出すとき、じゃあグラフィック面をどうするのかという問題に行き当たる(が、最近は高品質なフリー素材がいくらでもあるのでさほど問題にはならないのかもしれない)。描画そのものを主体とする漫画は言うに及ばず、小説や音楽でも装丁の問題などはある。そういった作品レベルでなくとも、イメージを絵に表す描画技能というのはいろいろなレベルで必要になる。単純にネット上で手短に何かを伝えるのには絵が強いということもある。
なので大なり小なり描画や画像加工技術にはみな手を出すのだが、それが満足の行くレベルに至る人は稀有である。まあそれはそうだ、古人を見れば画業というのは一生をかけるに十分値するほど深遠なものであって、そんなに甘いものではない。それでもやりたい表現があるか、絵を描くことそれ自体を強く志す人でもなければそこそこに放っておくことになる。
「絵を描く」ということには、おそらくふたつの層がある。絵を描く技能そのものと、何をどう描くかというビジョンの問題である。技能は具体的にどういう道具をどう上手く使うかという話である。技能とビジョンは、それぞれ手段と目的と言い換えてもよい。画材に依存した表現というのはあるが、本質的には独立している。多少違う画材を使用したとしても、同じ作者ならばある程度似たビジョンを表現するだろう。しかし技能そのものが十分でなければ、十分なビジョンを表現することはできない。技能は制約であり、表現されるビジョンは技能に隷属せざるを得ない。
画像生成AIは、かなり高度なレベルまで描画「技能」を請け負う。使用者がすることは、ビジョンを十分に伝達することだけである。伝達は主にpromptという文字列の形式をとる。promptは平易な文章でも可能なのだが、細かな制御のレベルでは非常に特異な記述形式であり、だから今まさに研究が続いている。とはいえ人間に描画を発注しても伝達の齟齬は生じるわけで、高速な試行錯誤が可能な画像生成AIの使用は単純に高効率である。
伝達の制約は残るが、ビジョンは技能の制約から解放された。ここに至って最も重要なのは、どのようなビジョンを抱くのかである。
ビジョンは必要なのか?
表現したいビジョンがなければ画像生成AIに何も用はないのかといえば、別にそういうわけでもない。実際のところ、わたしにもビジョンなんてあまりない。それでも遊んでいて楽しいのは、むしろ思い付きレベルのきわめて曖昧なビジョンを迅速に鍛え上げて形を成すことができるからである。出力を見てpromptを調整し、アイデアを付加していく過程には他にない面白さがある。
AIには深遠な意図をもったデザインをすることはできないが、特徴を混ぜ合わせることはできる。NovelAIに「cat|frog」と入力すれば、なんとも言いがたい薄緑色のネコガエルが出てくる(公式サイトのマニュアルに登場する例である)。ネコガエルくらいだとちょっと笑っておしまいになるが、ここで重要なことはAIがさまざまな要素を混ぜ合わせることができる強力なイメージミキサーであるということである。
ちょっと試してみよう。とりあえず服飾デザインがわかりやすい。
NAI標準画風に近いのであまり面白みはないのだが、それは置いておく。以下、思い付きにでdressにタグを追加していく。とりあえずストライプを入れてみる。
ちゃんとストライプ柄にしてくれる。柄だけではなく、七分袖みたいになっていたりと全体的に変化がある。スチームパンク方面に流してみる。
それっぽいけどだいぶ控えめで物足りない。足していく。
帽子も足してみる。
なるほどスチームパンク風。細部どうなってるのという突っ込みはさておき、そういう雰囲気の絵作りとしてはまずはこれで十分だろう。
とはいえ、あまりに順当すぎるので試しに"haeckel"を混ぜてみる。"haeckel"が何かは後述するが、スチームパンクとは関係がない。ただの思い付きと言っていいレベルである。
生物的な意匠がそれらしく追加される。一種独特な味が出るが、スチパン風味を損ねている気もする。さしあたり生物っぽさを中和するために"metalic"を追加してみる。
タグ追加によって出力バランスが変わったため、haeckel要素が強くなりすぎて背景にまで漏れている。後光みたいでちょっと面白いが、この要素はさらに強くなると生物的なものが絵全体に漏出してグロテスクな絵になってくる。なので{}による強化数を減らし、出力を調整する。
スチパン風に一味足したような雰囲気に落ち着いた。
あとはここに何か足してもいいし、このドレスを違う風景の中に持ち込んでもいい。seedをまたいだ時点で別物になったりするし、他タグとの関係で強化量の調整が必要になったりもするが、むしろ違うデザインがごろごろ出てくるのが面白いところでもある。
服飾というのは一例に過ぎない。絵を作る上では同様の合成を人物やさまざまなもオブジェクトに対しても行える。一見でたらめとしか思えない概念の組み合わせに意外な出力が得られることもある。単純には混ぜ合わせることのできない要素ももちろんあって、要素の選別や工夫は必要となる。
使える要素はほぼ無限と言っていいほどある。古くから現代に至るまでの膨大な画家や作品、描画技法、ゲームやアニメ、アルバムジャケット、建築、数学的概念図、日常的なもの、食べ物、何でも入力してみるといい。AIが認識していれば、何かしらそれに応じた出力が帰ってくるはずである。あなたが今日ハンバーガーを食べたなら、ドレスにハンバーガーを合成してみることもできる。
原理的にはこの世界で認識されている、何らかの図像と結びついた言葉すべてが描画や合成の対象となりうる。だから、あなたがひとつ知るたびに、あなたがAIを通じて描画できる要素も増えていく。AIはもちろん何でも知っているわけではないし、データの偏りでおかしな学習をしている場合もあるが、たぶんひとりの人間よりずっと多くのものごとを認識している。あなたが何かを知っていて、その名を命じることができるのならば、多くの場合AIはそれを描き出す。ときに想像もつかないような概念間の合成さえしてみせるだろう。画像生成AIは巨大なライブラリであり、同時にきわめて強力なイメージミキサーとしての機能をもつ。この価値は一般にはまだあまり正確に理解されていないかもしれない。
"heackel"
Ernst Heinrich Philipp August Haeckel。
生物学者。「個体発生は系統発生を反復する」という反復説で知られる。1834-1919とあるから、すでに没後100年を過ぎている。クラゲなどを中心に美麗な図版を多数残したことで知られ、今でも思いがない場所でそれらしき図に出くわすことがある。
NovelAIは(というよりおそらくStableDiffusionのレベルだと思うが)これらの図版を認識しているようで、"haeckel"のタグで引き出すことができる。服飾などに合成することもできるし、強化して空間に漏出させることで独特のパターンを描き出すこともできる。扱いにくせがあるが面白い挙動をするので、自作の標準人物prompt(先に使用したものとほぼ同じ)にも組み込んである。
いずれもリンク先のツイートにもう少し画像をぶら下げてある。
上は当初挙動がわからず、かなり高い強度で使用していた。その後適切に調整するようになったが、思わぬタイミングで要素が現れることがあって面白い。下は何も記述していないにも関わらず壁面の水槽(?)に笑う顔のようなパターンが現れたので驚かされた。同一promptの出力にも類例がない、奇妙な絵である。
また冒頭の絵にも同じ要素は入っているのだが、こちらはサメやら何やら別途導入した要素の方が目立っている。
もともとが生物学徒くずれなのでNAIにいろいろと生物学者の名前を入れてみたのだが、確かめた範囲でこれほど目覚ましい反応が得られたのはヘッケルだけだった。リンネなどの植物学者に対しては植物が出てくるが、あまり特有の図版という感じはしない(もし標本や標本画などを認識していたとしても、もともとあまり癖のない図像ではある)。ダーウィンは肖像写真に加えて何かの作品のキャラクターとしてのダーウィン像が反映されている印象で、古い人物はこういうパターンが結構あるようだ。そういえば葛飾北斎はNAIだとFGOの影響で本来の画家としての指定が難しいというような話も聞いた。
ヘッケル自体は有名な人物なので呼び出しを試みる人はいるだろうが、それを継続的にpromptに組み込んでみるようなことはあまりないかもしれない。こういう漏出しやすい、画面への影響が大きい要素はたまにある印象なのだが、いまいち挙動がつかめない。ノイズ生成の仕組みと何か相性のようなものがあるのかもしれず、面白いのだがかといって他人を巻き込んで調べるようなものでもない。漏出した要素に対して受け入れるためのオブジェクトを意図的に用意するといった考え方を聞いたことはあるので、何か全体を通じての理屈はあるらしい。おそらくすべての挙動に何らかの理屈はあるのだが、NAIで真面目にそれを調べたところで他モデルでどこまで汎用性があるのかといったこともある。
ともあれ、もし興味がある人がいれば試してみるといいと思う。基本的には先のdressみたいに服飾要素を修飾して、がんがん漏れるまで強化をぶっぱなすだけで再現はできるはずである。結構気持ち悪い絵が出てきたりもするがそこは適当に流していただきたい。
promptの公開
わたしが特定のタグを常用しているように、たぶんそれぞれの利用者にお気に入りのタグや表現があるのだと思う。結局そうやって吹き溜まった基盤の上にだんだんと成立していくのがそれぞれのビジョンなのだろう。
描画に用いたpromptを公開すべきか否かという議論がある。個人的には当初あまり公開したくないような気がしていたのだが、いろいろな人がそれぞれに絵をつくっている様子やpromptに関する情報を見ているうち、別に公開してもどうってことはないと思うに至った。気軽に利用できる表現の手法の数があまりに膨大であるために、公開promptを一部参考にしたとしても結局はそれぞれが自分のprompt、表現、ビジョンに帰っていくのである。ほんの一瞬交わったとしても、以後続けて同じ表現がされることは通常ない(意図的に継続的な模倣を行わない限りは)。
公開しない理由というのももちろんそれぞれにある。場の仕組み的に公開が面倒だとか、固有名詞が入っているので差し支えるとか、単に一切公開しない主義だとか。そういうのは好きにすればいいのだけれど、ただ問われた時に答えられる基準や理由は一応持っておいたほうがいいのだろうと思う。
画像生成AIを用いることで、描画技能の有無とは無関係に高度な表現を行うことができる。別の技能を鍛える必要はあるし、いくつかの機能的制約もあるにせよ(キャラクタの同一性、構造的に正確な描写など)、これまでビジョンを表現し得なかった人々が表現手段を得るというのは大きな変革である。たぶんこの先、その中から思いもよらなかったような優れた表現が現れるだろう。あらゆるものがイメージソースとして参照される可能性の中にあって、生成画像は既存画像の縮小再生産に過ぎないなんていう評価は嘘っぱちである。
過渡期なので何かと七面倒臭い話がついて回るけれど、とりあえず面白いからみんなちょっと遊んでみるといいと思う。意外と自分なりの表現が気軽に見つかるかもしれない。わたし自身はまだよくわからないまま、砂場を何度も掘り返しているばかりだけれど。