AI画像生成の現在地
世界変革の前夜は思ったより静かの衝撃から9日が経ちました。
まずこれを見て自分が思ったのは、「いやまだ9日しか経ってないんかいww」ということではありましたが、そんなことはどうでもいいことです。
この記事が書かれたころは、雨後の筍のようにタイムラインが画像生成AIで作られた画像まみれだったような記憶がありますが、そのビッグウェーブは今は少し落ち着いたんじゃないでしょうか?
まあ、まだ9日しか経ってないんですが、今世界がどう変革し始めているのか、その全体像をなんとなくでも捉えようと頑張り、自身の身の振り方を地考えるのは結構大事なのかもしれんと思ったので、記事にまとめることにしました。
(ちなみに自分はAI画像生成サービスにそれなりに重課金しているただの一般人でしかないので、専門家的な知見ではありません、申し訳ないです! 色んな情報のまとめ記事みたいなノリで見てもらえると助かります笑)
3大AI画像生成サービス
とりあえず自分が勝手に3大AI画像生成サービスと認定しているものを挙げてみます。
DALL・E2
めちゃくちゃ使っていたし、今も好きなんだが、正直特徴が分からないと言えば分からないやつ。
使いたい機能がちゃんと使えるので(もしこういう用語に詳しい人がいればより伝わりやすいかもしれないので書いておくと、UI/UXがめちゃめちゃいいと自分は思う)正直AI画像生成サービスとしての「使いやすさ」はもっとも追及されていると思う。
出力される画像で、他サービスより秀でた点があるかは分からない。特徴について言えば、キャラクターを書いてもらうと、全体的に水彩画っぽいテイストになる。
Midjourney
圧倒的芸術肌。
正直に言うと、最近自分の語彙が崩壊してきて、人によってつくられた美しい風景画や荘厳な感じを覚えさせるアート作品を見ると、「すごい、midjourneyみたい……」と完全に素晴らしい芸術作品の代名詞と化しつつある。
最近はまってるワードは「人間midjourney(midjourney並にすごいものを生み出せる人)」。
個人的にはmidjourneyで芸術やデザインの在り方が少なからず変革を迫られる感覚を覚えている。
dreamstudio(stablediffusion)
最も急進的でオープンでパンクなヤバさを持つサービスがdreamstudioと、その基盤となっているAI生成技術stablediffusion(技術屋ではないのでこういう捉え方でいいのか分からなんですが……)です。
上で挙げた記事で述べられている通り、このstablediffusionというやつが、オープンで誰でも使えるようになっていることにより、世界がひっくり返りそうな変革が色んな所で起きてる感じです。
全ての元凶ってやつ。
あと、ここ最近界隈で話題になっている中国のサービスもあるので、三大サービスとは別で紹介しておきます。
最近話題だなと思うので入れておきました。
AI画像生成サービスは何を生み出せるのか?
さて、それぞれのAI画像生成サービスはどんなものを生み出せるのか?
これを把握することで、社会にどんな変革を与えるのかを理解する助けになると思うので知っているのをまとめていってみます。
stablediffusionは、オープンであるという性質からかなり広範に影響が渡っている感じがするので、一番最後にまとめます。
漫画や絵本
漫画を生み出せます。
すでに著名な作品が出てきました。
まだキャラの統一性を保つのは困難な感じですが、以下のような記事を見るとたぶん近いうちに解消されそうな課題だと思うので、些末な問題かもしれません。
絵本ではこちらが。
結構エモくて個人的にはすでに商用レベルなのでは? と思っています。
デザイン
感性に響く「デザイン」を生み出せます。
個人的に好きなアカウントがこちら。
超美麗なドレスデザインを作りまくってます。
プロダクトデザインにも使えるかもしれない事例もあります。
AIによってデザインされたプロダクトが世に出てくるのも案外遠くない未来かも?
ほぼ写真の絵(状況限定的に)
この辺の特徴はほかのAIサービスでも同様化と思いますが、状況限定的にほぼ写真の絵を出力できます。
(これもアップロードしている時に画像が荒くなってて、ここに載せているやつの方が粗さがでてイラストっぽく見えています、悲しみ……)
ただ、かなり状況限定的というのは否めなくて、自分はもうてっきり、あらゆるシチュエーションの写真をばっちりアウトプットできる万能性を持っているかと思ったら、そうではないかなという印象を持ちました。
以下に例を挙げていきますが、天井や壁の色遣いや、逆に雲の解像度が低かったりなど、色々よく見ると「イラストかな?」と思うものが多い気が済ます。
(ちなみにパソコンの中にあるデータの時は、下の画像で見えるような、空の模様の目立つグラデーションとかも全くなかったです。やっぱり確実に画質落ち取るやん……)
なので、結構限定的にはなりますが、ほぼ写真の絵を生み出せます。
こちらは今後描画能力とかが上がってほぼ写真というレベルでアプトプットできるものが増えてくるかもなー、という印象です。
イラストの背景
イラストの背景として活用する事例もあります。
これは画風が近いものを出力できる場合かなり実用性が高い感じなのでは? と思います。
アート
アートを産み出せます。
かつ、そのアートに心を動かされる人も出てきています。
あとこのアカウントも。
たぶん先ほどのドレス特化のアカウントも、少なくない人がアートとして鑑賞しているとおもいます。他ならぬ自分もそうですね。
なので、今後はこのAI生成アートという領域も少なからず出てくる可能性はあるかなと思います。
テクスチャの生成
ちょっとこの分野は分からない点も多いのですが、繰り返しのテクスチャを軽々生成できるのはとてもヤバいようです。
ある程度構図を指定したイラストの作成
image2imageという機能を使って、ある程度構図をしたイラストの作成をすることができます。
image2imageというのは、ある画像を元にして別の画像を作る、という機能で、公式ページでは以下のような紹介がされています。
上の画像を投げたら、下の画像が出てくる、的な感じですね。
この機能は構図の指定に使えることが研究されており、ある程度の構図を指定イラストや背景の作成が可能になっています
イラストの一部補完
DALL・E 2の特筆すべき機能がこれです。
アップロードしたイラストや画像の好きな部分を消して、その部分をAIが書き足してくれます。
最近はstablediffusionでも、有志が開発したそういう機能がありますが、いかんせん使える環境を作るのが大変で誰もが使いやすい機能かといわれるとそうではない状態です。
その点、DALL・E 2は最初から機能としてこれがあってそれだけで称賛に値します!!
この機能は、あるイラスト・画像の気に入らないところを的確に修正したりできる機能です。
簡単に流れを説明すると、イラストを入れて、気に入らないところを消しゴムで消して、もう一回AIに投げると消しゴムで消されたところだけを周りのテイストに合わせてAIが勝手に補完して書いてくれるという感じです。
・手が気に入らなかったら消しゴムで消して書き直す
・目が気に入らなかったら消しゴムで消して書き直す
といった一般的な使い方ができます。
そして、この使い方を活用した素晴らしい技術があります。
AI画像生成サービスは全身画をいきなり書こうとすると、細部に割と目立つ粗が出てくるという欠点があります。
例えばこれとか、一番右の子は顔しかない分いい線行ってますが、左1,3番目のことか作画崩壊もいいところです笑
左から3番目の子の目なんて完全にヤクを決めててヤバいです笑
そう、全身を描こうとするとAIイラストは作画崩壊必至という悲しい性を抱えているのです……!
ただ、それを乗り越えるのが上の画像補正機能です!!
原理は簡単で、いい感じの顔の画像を以下のようにペイントなどに貼り付けて画面を切り出し、顔が画像の中の一部になるようにします。
そして、DALL・E 2の補正機能で、顔以外の部分を全部消しゴムで消し、足りない部分をどんどん補完させていきます。
そういう感じで以下のようなそこそこいい線まで行く全身画像をアウトプットできます。
(なんか、アップロードしている時に画像が荒くなっているのか、ここに載せているやつの方が粗さがでてます、辛すぎる……)
あと以下の画像もその方法で作りました。
目とか明確に作画崩壊していた上の事例とは違い、全身をあまり作画崩壊せずに描ききれています。
こういう使い方がごく普通にできるのがDALL・E 2で、もう正直これだけでかなりすごいサービスだなと思います笑
また、顔の部分の出力について、自分はDALL・E 2でいい感じの顔を直接アウトプットするのが好きですが(DALL・E 2で出てきたんだから、全身まで画風を崩さずにやれるだろう、という仮説の元。ほかのサービスより色の塗り方は全身を通じて近しい感じになります)、waifulabsなど可愛いキャラの顔画像を生成してくれるサービスがいくつかあるので、そこを起点にすることも可能です。あと、Crypkoというサービスはより全身に近い萌えアニメイラストを出せます。
また、この方法のいいところは、AIイラスト生成では現在2つ以上のモチーフをいい感じに書くことが簡単ではないですが、「2つ以上のモチーフを配置すると、その2つのモチーフを踏まえてちゃんと追記をしてくれる」という点で、描きたいモチーフを何個配置してもうまくいく可能性を秘めているので、そこもすごい機能だと思う点の1つです。
この辺の技術については以下のアカウントなどでも詳しく言及されているので見ると参考になります。
モチーフを2つ配置して描かせる取り組み。
DALL・E 2はこの機能を生み出した時点で最強ツールの1つなのは間違いないです。
自分が見つけているだけでもこれだけの広がりを持って活用されています。
ただ、まあさらにヤバいのがstablediffusionによるあらゆるサービスのクオリティの底上げというところです。
これは次章でまとめて取り上げます。
Stablediffusionの早すぎる広がりと進化
stablediffusionは英語で直訳すると、「安定した拡散」的な感じですが、安定とは一体というレベルで社会に拡散してます。たぶん明日あたりからveryfastdiffusion(死ぬほど早い拡散)って呼んだ方がいいと思う(適当)。
それぐらいstablediffusionは社会のサービスに高速で実装されていっています。
もう一度かなりざっくりstablediffusionを説明します(専門家ではないので解釈が違ったりしたらごめんなさい! まあだいたいこんなものというイメージでお願いします)。
「誰でも使えて、色んなサービスに組み込める超クオリティAI画像生成機能」
まあこんなところです。
こういう特性を持っているので、色んなサービスに死ぬほど早く取り込まれていますし、色々な実験がなされています。
ここでは、その広がりがいかに高速であるかを理解してもらうために、stablediffusion誕生から、何日で何が起きたかを記載していきます。
0日目(8/22):stablediffusionがオープンに(誰でも使えるようになった)
1日目(8/23):midjourney betaの衝撃
midjourneyにstablediffusionが活用されてアニメ絵などが奇跡的なクオリティで出力できるようになる事件。
右が現行版、左がbeta版、どちらも全く同じ文章で入れてこれ。
冷静に考えればこれはstablediffusionが使われたかは推測の域を出ない話でしたね、実際のところどうだったんでしょうか?
まあ、midjourney betaがすごかったことは誰も否定しない事実でしょう!
2日目(8/24):アニメ絵のチューニング版予告、デザインツールへの導入
おいおい、まだ2日目だぞ……?????
3日目(8/25):stablediffusionのimage2image(ある画像を元に別の画像を作る)がartbreederに実装
(このコメント欄では、当日はまだ実装されていないみたいな話をしていたのでこの日にするのは不適切かもしれませんが、すでに今は使える感じです)
image2imageが誰でも超楽にできるようになったのはでかい。
4日目(8/26):Photoshopプラグイン登場予告
5日目(8/27):いらすとやの画風を16枚程度の画像で割と学習した結果が発表
元データにないであろう画風を16枚でここまで学べるのはかなり衝撃だなと思いました。
上で挙げたアニメ絵の件も合わせて、画風のチューニングの実例が出てき始めた感じです。
6日目(8/28):アニメ絵チューニング版サービス開始
画力は思ったよりも「ん?」という感じではあるけども今後に期待。
たしかに、こういう雰囲気の絵ってstablediffusion単独やmidjourneyでは生み出せなかったイメージなので、こういう雰囲気の絵が出せるようになっただけですごい。
ちなみに書きませんが、7日目は業界を騒がしているmimicがリリースされており、これもまあおそらくはstablediffusionが絡んでいるのかなとも思いつつ。
こういった感じで、とにかく広範で多大なる影響を、高速で与えていっているのがstablediffusionです。
また、実はstablediffusion開発チームからもアニメ版のリリースの発表がされています。
この人はstablediffusionの新発表をする時はカウントダウンしがちなんですが、カウントダウンが始まっています。
また何かが起きそうな予感です……!
AI画像生成サービスに関わる想い・権利・法律回り
AI画像生成サービスについて語るなら、そして大きく問題が発生している今だからこそこの点のまとめは避けては通れなさそうです。
初期権利問題
とりあえず、mimicの出現以前で権利・法律に関する点でとても参考になるのは以下です。
さて、ここからは最近騒ぎになっているところについてですが、最近のSNSは特に、自身と似たような趣味嗜好の人と繋がることで、その世界の偏った情報しか入ってこなくなる、いわゆる「フィルターバブル」という現象が起きてしまいます。
この件については、色々な人が意見表明をしているので、色々な意見を知り、考える材料とするためにも、さまざまなものを載せていこうと思います。
mimicに関わる種々の見解
まず、問題の一件についての否定的な見解は以下の前者のツイートのリプライ、肯定的や改善要望など、少なからず前向きな見解は後者のツイートのリプライに集約されています。
いいねやRT数が多いやつは一般的意見として把握しておくべき点だと思います。
そして、mimicのサービスがリリースされたことにより、さまざまな意見表明が行われています。
mimicネガティブ意見
mimicフォロー等の意見
「AI学習禁止」や権利問題についての意見
今ここで止めるのは良い手なのかどうかの論点
このように多くの視点が存在しているので、それらを総合して考えて、自分はどうしていくかを考えていく必要があるかもしれないなというところです。
8/30追記
いったんmimicについてはサービスの停止が決まりました。
皆さん、落ち着いて聞いてください。
これがstablediffusionを使っていたかは明言されていませんが、何にせよオープンなAI画像生成サービスが出てきてから、まだ9日です(白目)。
終わりに
AI画像生成サービスの現在地についてまとめてきました。
オープンになってから1週間ですが、本当に色々ありましたね、なんかもう3か月ぐらいたった気分です笑
この記事で一番感じてほしい点は、
1.AI画像生成サービスの浸透度、社会的な拡散速度は異次元である
2.流れとしても止めることは不可避である
というところです。
たぶんですが、AI画像生成サービスが社会的に浸透し、色々なところに影響を与えてくるのは、思った以上に高速です。
なので、今後どんなことができるようになりそうか、大まかなところを想像、把握した上で、今後自分はどう動こうか?
そういうことに思いを巡らすための材料になればいいかなと思って今回の記事をまとめました。
今後何が起こるかについては、著名人の見解では以下のようなものがあり、自分もこの速度を見ていると、確かにそれぐらいのスパンでは起こるのではないかな、と思ったりしています。
何ならもっと早いかも?
何せ皆さん、まだほぼ1週間しか経ってません……!
今後も未来予測が出てきた場合は、それよりちょっと早く実現するかも? みたいな仮説を持ちながら、今後のことを考えていくといいのかもしれないですね。
ただ、AIがどんな形で社会に入ってくるかは分かりませんが、「それと共存、使いこなしてやる!」という気概はきっとみんなが持っていていいものだと思います。
そうやって多くの人の心を勇気づけられると思う、自分の好きな投稿を流して結びとします。
まころんさんのイラストは神なのでぜひみなさんご覧ください!
大変長い間お付き合いいただきありがとうございました、もし内容がいいなと思ったり、多くの人に知っておいてほしいなと思ったら、ぜひいいねやリツイートお願いします!