画像生成AIはイラストの世界に何をもたらすのか

2022年11月6日 04:27

はじめに

ここしばらく毎日NMKD Stable Diffusion GUIをいじくっております、島田寒月です。
Midjourneyの登場からStable Diffusionの一般公開、そしてNovelAIの衝撃からしばらく経ちまして、今やすっかり画像生成AI（以下煩瑣を避けるため、文脈上他種のAIと区別する必要がない場合には「AI」と呼称します）の存在も定着してきた感がありますね。他方で、特にNovelAIのデータ学習元やimg2img等を巡る一部ユーザーの問題行動などから、すっかり画像生成AIに対して反感や敵意を抱いておられる方も少なくないように見受けられます。
そういった方々の気持ちは、まあ心情としては理解できないものではありません。しかしながら、中には明らかに誤った知識や解釈、また他の分野に流れ弾が行きかねないような主張が散見されるというのもひとつの事実です。
画像生成AIに日々親しんでいる身として少し思うところもありますので、思考の整理がてら駄文をものしてみようかと思います。雑駁な内容になるかとは思いますが、お付き合いを願えれば幸いです。

前提、および結論として

最初からこのようなことを申し上げるのもなんですが、いわゆる「絵師」（本稿ではプロ・アマチュアを問わずイラストを作成し公開している人のことを「絵師」と呼称しています。以下煩瑣を避けるため「カギカッコ」を省略します）の方々がAIを敵視することで得られるものはおそらく何一つないと思います。いえ、何一つないと言ってしまうと語弊があるかもしれません。もし仮にそこから何かを得られるとしても、おそらく被る不利益の方が大きくなってしまうのではないかと思うのです。
残念なことかもしれませんが、一度世の中に出たAIが消えることはありません。NovelAIやmimicのような個別のサービスについてはいずれ終了するときが来るでしょう。しかし、そもそも昨今のAI業界がここまで盛り上がりを見せているのは、Stable Diffusionというとんでもない存在がオープンソースAIとして公開されてしまったからです。一度オープンソースとして公開された以上、これを完全な形で統制することはおそらく誰にもできません。つまり、我々は好むと好まざるとにかかわらず、二度と「それがなかった世界」に後戻りすることはできないのです。
既に多くの絵師さん方が利用しているソフトウェアである「CLIP STUDIO PAINT」や「Photoshop」でAIを動かすプラグインも登場しており、今後もこうした動き、つまり既存のグラフィックソフトウェアとAIを一体的に運用していく向きの機能開発は続いていくものと予想されます。そうなれば、今後のイラスト界隈はAIの存在を前提として動いていかざるを得ないということになります。

無論、これは直ちに「今後の絵師はAIを利用しなければならない」ということを意味するものではありません。しかしながら、AIが無視しえない存在になっていく（もうなっているかもしれませんが）以上、必要なのはそれを敵視することではなく、理解することです。AIを理解することは、翻って人間としての絵師の方々の強みを認識することにもつながるでしょう。

画像生成AIの概要

AIがどのように画像を生成しているかについては既に様々な方が説明を書いておられます（特に以下の記事が非常に内容が充実していますので是非ご参照ください）ので、私如きがことさらに繰り返す必要はあまりないかもしれません。簡単に、概要のみをかいつまんでお伝えすることにいたします。

現在最も広く用いられているのは先に述べたオープンソースAIであるStable Diffusionでしょうが、これは「ランダムなノイズに対してノイズ除去を行うことによって画像を生成する」という仕組みで動いています。要するに非常に強力なノイズ除去で、ありもしない「元画像」を作り出してしまう、という技術ですね。その証拠に、画像生成のステップを低くすると、ほとんどノイズそのもののような画像が出てきたりします。

「1girl, kimono」で生成した画像。CFGスケール10。ステップ数5。使用モデルはtrinart_characters_it4_v1。シード値は1756625463。サンプラーはEuler Ancestral。

AIがノイズを除去して、本来存在しない「元画像」を「復元」する際に必要となるのが「元画像」にどんな要素が含まれるかを示す語群、つまりプロンプトです。こうした技術により、我々は「文章を打ち込むことによって画像を生成する」ことができるようになった訳ですね。
以上のことからおわかりになるかと思いますが、AIは決して既存の画像をトレースしたりコラージュしたりして画像を生成しているわけではありません。また、プロンプトによる指示のみで画像を生成した場合、生成画像がたまたま他の絵師さんの作品とほとんど同一のものになってしまう…ということも考えづらいです。その画像を直接取り込んで参考にする、いわゆるimg2imgならあり得ますが、その場合はAIの問題というよりむしろそれを行うユーザー側に問題があるといえるでしょう。
どのような画像を生成するかはプロンプトの指定や使用するモデルによって変わります。まれに「女性の絵師が描いたようなAIイラストは見た事がない」とか「AIの描くイラストはどれもこれも個性のない判子絵だ」という主張を見かけることがありますが、それは単にそう主張してらっしゃる方のアンテナに引っかかっていないだけだと思います。おそらくNovelAIで生成された、いわゆる「マスピ顔」しか見てらっしゃらないのではないでしょうか。実際のところ、NovelAIにしても画風を変える方法はいろいろ考案されています。

画像生成AIはツールである、という認識

AI関連の議論でよく見かけるのが、AIは人間よりも優れている、いや人間の方がAIよりも上だ…というような主張の応酬です。しかしこれ、果たして意味のある議論といえるでしょうか。
AIは人間が生成したい画像の内容を「理解して描いている」訳ではありません。また、人間が入力を行わなわずに自律的に画像を生成する、ということもありません。現時点では、少なくとも画像生成AIについては「優れてはいるが、一つのツールに過ぎない」ということができます。
例えば、我々人間は火を利用する際にマッチやライターを用います。あるいはより原始的に火打石、もしくは火鑽臼と火鑽杵でもいいでしょう。これらを使わずに人間が素手で火を熾すことは相当に困難というか、おそらく不可能でしょう。しかし、だからといってマッチやライターが人間よりも優れている、という結論に至るでしょうか？
AIに画像を生成させる、という立場に人間がいる限り、どこまでいってもAIは人間の補助としての役割を果たすに過ぎません。それは、AIが出力する画像の精度や品質とは独立した問題だと言えます。

「画像の仮想サーチエンジン」としての画像生成AI

現在のAI（ここでは特にStable Diffusionを想定しています）は、プロンプトや使用モデル、シード値などの設定がすべて同一であった場合、生成される画像も同一になるという特徴を持っています。これを利用したのが、流出したNovelAIのモデルを利用してローカル環境を構築する際に行われる、いわゆる「ハロー・アスカ・テスト（Hello Asuka Test）」です（流出モデルを利用することの是非については今回は措くこととします）。

AIがその場その場で画像を生成していることは間違いありませんが、生成アルゴリズムの関係上、同一プロンプトからの生成パターンは有限となります（※）。そうした意味からすれば、AIによる画像生成は、いわば概念上存在している画像を、プロンプトその他の設定によって概念世界から現実の画像として「検索・表示」していると観念することもできるでしょう。Stable Diffusionの開発元であるStability AI社のエマド・モスタークCEOはBBCのインタビューに対して「Stable Diffusionは“生成型検索エンジン”と考えている」と述べたそうで、興味深い連関であるといえます。

※ただし、シード値のみで考えても10桁が与えられているので生成パターンはおよそ100億通りあります。画像の生成に必要な時間を無視して1秒に1枚見ると考えても300年以上かかる計算になります。プロンプトも単語の並び順が異なったり重みづけが違ったりすれば出力結果が変わりますし、サンプラーやCFGスケール、生成ステップなどの組み合わせも考えれば、相互の情報を参照せず完全に独立した状態の二者が全く同じ画像を出力する可能性は事実上考慮せずともよいように思われます。

「レディメイド」としての生成画像、選択者としての作者

AIによって生成された画像が「概念上既にそのようなものとして決定されていた」画像であり、プロンプトを打ち込んで生成した我々は実はそれを「検索・表示」しているに過ぎなかったとすれば、果たしてそうした画像は無価値なものなのでしょうか。いくら込み入ったプロンプトを自力で考えて生成したとしても、生成した画像は我々自身の「作品」とはなり得ないのでしょうか？
この問題については、（著作権法等での扱いはともかくとして）現代美術の歴史を踏まえて考えるならば、その画像を出力させ、いずれかの場へ提示した者の「作品」として扱って問題はないように思われます。
現代美術においては、既製品を素材とした芸術である「レディメイド」という表現が確立されています。この概念を開拓した美術家であるマルセル・デュシャンは、その作品『泉』（1917年。男性用小便器に"R. Mutt 1917"と署名したもの）がアンデパンダン展での展示を拒否されたこと（あるいは仕切り壁の後ろに置かれていて見ることができないようにされていたとも）を受けて、次のような一文を含む抗議文を雑誌に掲載しています。なお、デュシャン自身このアンデパンダン展の委員の一人であり、『泉』はリチャード・マットという架空の人物の作品という扱いになっていたという、なかなか複雑な背景もあります。

マット氏が自らの手であの〈泉〉を作ったか否かは重要なことではない。彼はそれを選んだのだ。

雑誌『ザ・ブラインド・マン』第2号。平芳幸浩／京都国立近代美術館編『百年の《泉》－便器が芸術になるとき』（LIXIL出版、2018）の88頁に日本語訳全文あり。
本稿では木村剛大「現代美術のオリジナリティとは何か？　著作権法から見た「レディメイド」（1）」（https://bijutsutecho.com/magazine/series/s22/20046）より孫引き。

画像そのものはAIによって生成されたものであるとしても、それを生成することを意図し、プロンプトや諸条件を整えたのはAIを利用している人間です。また、出力された画像を提示に値するものであると判断するのも人間です。意思決定や最終的選択を行っている人間がいなければその画像がAIによって生成されることはなく、提示されることもなかったわけですから、やはりそこにはある種の作者性を認めるべきでしょう。
もっとも、デュシャンを持ち出すのであれば、彼が「目の快楽」によって描かれた「網膜的絵画」を批判していた、という事実から目を背けてはならないと指摘する向きもあるかもしれません。過程についてはともかく、AIによって生成された画像はまさしく「網膜的絵画」そのものであり、デュシャン自身が見れば間違いなく批判の対象である、というようなご意見については確かにその通りといえるかもしれません。しかしながらここで重要なのは、デュシャンの思想そのものではなく、デュシャン以降の美術において「作者は作品を自らの手で自作せねばならない」という前提条件はもはや存在しなくなったという事実そのものです。画像生成AIの登場は、そうした「作品」に対する観念の一大転換が、ファインアートの世界のみならずサブカルチャーとしてのイラストレーションの分野にまで到達することとなる契機となるのかもしれません。