画像生成AIと一緒に過ごした約一年を振り返る 4 2022年11月以降
この記事では、2022/7から2023/10にかけて筆者が画像生成AIとどのように関わってきたかを実際の生成画像や一般的なニュースを交えながら振り返っていきます。今回は
前回の記事はこちら。
個人的な停滞期
今考えると勿体ないのだが、2022年11月ごろから画像生成AIに触れる頻度が急減し、特に12月は全くと言っていいほど触らなかった。新しいDLCが出たrimworldにはまっていた事なども理由として考えられるが、それ以外の要因のほうが大きいと思う。
12月にはAI絵作り研究会のオフ会があったので、顔を出して人脈を作っておくべきだったと思うが、その気力がなくなっていた。9月と10月に誇大妄想を膨らませながら熱心に画像生成をしていた事への反動があったと思う。他にも思い当たる節があるが、全部を不特定多数の人の前にさらけ出したくはない。
活動再開と環境の変化
1月頃にモチベーションがある程度回復し、いくつかのDiscordに加入したり、画像を生成したりするようになった。ただ、10月に得ていた先行者利益の多くが水の泡になっていた。
当時の画像生成AI界隈では階層マージという手法が発見され、これを用いたモデルデータがhugging faceやcivitaiに多く流通されはじめていた。また、LORAも登場し始めていたが、画風を微調整したりするのに役に立つようなものはまだ少なかった。
この記事を書くにあたってモデルの来歴について確認したわけではないので事実誤認があるかもしれないが、AnythingやAbyssOrangeMix、BasilMix、Counterfeit、PastelMix、ChilloutMixなどのモデルが毎日登場したり、更新されたりしていた。こうしたモデルを吟味するために多くの時間を費やしたりした。自身でも階層マージを試しに行ってみたが、そこまで本気でやろうとしなかったこともあり、満足のいく出来のものは作れなかった。
この頃、2022年11月30日にリリースされたchatGPTのすごさが日本語圏で認知され始めた結果、社会全般でのAIに対する関心が高まっていった気がする。ただ、個人的にchatGPTに本格的に触れたのは2023年の3月ごろからだった。
それから、この時期にControl-Netが登場したが、検出精度に難があって使いこなせなかった。
アンソロジー同人誌『アイアイエー』創刊
2022年2月に寄稿した『弱酸コミック』という合同誌に触発されたことや、AIに対する社会的な関心の高まりなどの影響を受け、『サイバーパンクペーパーマガジン アイアイエー』を創刊し、寄稿者様と一緒に雑誌を作り、いくつかの同人誌即売会などに出展した。
募集から雑誌の制作、出展までの間にはタイムラグがあるが、これを思い立ったのは2023年の2月だった。
2023年の春
2023年の3月~4月ぐらいは、『アイアイエー』の制作、編集、出展をしたり、RTX4090(グラフィックボード。この時点でコンシューマー向けのグラボの中では最も高価で高性能だった)と電源などを買ったり、chatGPTを本格的に使ってみたり、読書会を開いたりしていた。PCを新調した割にはあまり画像を生成しなかったかもしれない。
5月ぐらいからまた本格的に生成するようになった。
5月にはLORAの作成に手を出した。欠損少女LORA(非公開)と肌色調整LORAを作った。
Chocoskinは肌の色を黒っぽくできる。Wheatskinは肌の色を濃くしつつ、モンゴロイドのやや黄色寄りで彩度の高めな肌色になる。どちらも上記のリンク先からダウンロードできます。
停滞期その2
2023年の7月ぐらいから、またモチベーションが下がってしまった。それまでの時期は、新しいサービスが登場したり、新しいモデルやLORAが公開されたりといった出来事が毎日のように起こっていたのが、この頃からはその頻度が大きく落ちてしまった。出来ることが増えないのでやる気が上がらなかったが、ある程度は画像を生成したりとうこうしたりし続けた。
今振り返ると絵のクオリティーは少しずつ上がっている気がする。これは色々なLORAなどを使って瞳の大きさを微調整するなどのプロンプトエンジニアリングによるところが大きい。
Twitterのアクティブユーザーが激減したこともあり、どこで公開してもほとんど反応がもらえないのでやる気が落ちている。
DALL-E3の登場
2023年9月下旬、画像生成AI界隈の環境が激変する出来事が久しぶりに起こった。DALL-E3の発表である。OpenAIの開発したこのモデルはかなり性能が高く、複雑なプロンプトを入力しなくても高品質な画像を生成できるようになった。
DALL-E3にも不便なところは多い。たとえば規制によりポルノなどを生成することができないし、LORAを使って画風を微調整したりできない。私は当面の間StableDiffusionを使い続けると思う。
それでも、これまで通用していたプロンプトエンジニアリングのノウハウが近いうちに一気に陳腐化するかもしれない。例えばもしStableDiffusionのようなオープンソース系のAIがDALL-E3に匹敵する性能のモデルを公開すれば、従来の複雑なプロンプトを用いる理由がほとんどなくなる。あるいは、マルチモーダル化したAIとの対話を介して画像を生成するようなインターフェイスが主流になることでプロンプトを使う場面がほとんどなくなるかもしれない。
そういった情勢を踏まえると、DALL-E3の登場が一つの節目だと考えられるので、この記事を書いて今までの出来事を振り返ることにした。
終わり
この記事は以上です。停滞期とか書きつつもそれが何年も続いているわけではなく2ヶ月程度しか続いていないので、2022年の9月頃の出来事のせいで感覚がおかしくなっているかもしれません。
どのような技術が登場する(または登場しない)にせよ、これからも画像生成AIを使った創作活動を続けていくつもりなので、これからもよろしくお願いします。
この記事が気に入ったらサポートをしてみませんか?