日刊 画像生成AI (2022年9月27日)
画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。
そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。
昨日までの投稿はこちら
開発
DreamBoothが一気にcolabで利用できるレベルに進化。
DreamBoothは24GBのVRAM18GBのVRAMで実行可能になったと思ったら、12.5GB VRAMで動くように改良されました。つまり、Google Colabで動作するようになりました。(DreamBoothは、モデルにすでにある知識をすべて台無しにせず、新しい一貫した知識を与えられる方法です)
24GBの方はこちら。
18GBの方はこちら。
12.5GB VRAM(google colabで動く方)の方はこちら。
(ただこちらうまく動作しないという話を聞いていたので、うまく動かない場合すみません。多すぎて最もうまく動作するものが不明なので、お聞きしたい..。)
npakaさん(布留川さん)がGPU 16GBで動くDreamBooth実装を使用されるプロセスについてまとめられていますので是非。
Stable Diffusion for Photoshop 0.3.0v
ドキュメント全体のimg2imgと、inpainting機能が追加で搭載されました。これであとはローカルのStable Diffusionで軽量に動作するようになればかなり普及するかと思われます。フォトバッシュワークフローがかなりやりやすくなると思います。
Composable Diffusion
これは素晴らしい進化。現状の普及してる画像生成AIモデルは2つのオブジェクトを綺麗に分離して生成できないことが多く、下絵を描いて、img2imgするのを繰り返す、フォトバッシュワークフローが必要です。Composable Diffusionは文章の定義をうまく反映してくれるようです。もしかしたらそういうワークフローもかなり必要なくなっていくかもしれません。
Stable Diffusion WebUI (by AUTOMATIC1111)の今週の新機能一覧
全てこちらのページにまとまっているようです。
ひたすらアップデートが繰り返されているようです。
Lama Cleaner
SOTA AI モデルを利用した無料のオープンソースinpaintingツールが公開。
Dezgo V2
Gradioが3.4にアップグレード
StableDiffusion WebUIなどのSD改良版で認知度がかなり上がっと思うのですがGradioがアップグレードしました。主に今回の画像生成の流れに乗ったアップデートな感じがします。詳細は以下に記載。
HuggingfaceでSDのInpaintingが試せる、「Stable Diffusion Multi Inpainting Spaces」が公開。
Joe PennaさんのDreamBooth
200万人以上の登録者がいるyoutuberで、映画製作者のJoe PennaさんがDreamBoothを改良(複数人で)。人々の顔をトレーニングするために、@XavierXiao のリポジトリに多くの変更を加えたそうです。
表現
死んだ有名人が生きていたら..
ピザボール
ゾウの赤ちゃんと猫のミックス
Saito Akiraさんの検証
ジブリバニー
動画からジブリ風アニメを生成している事例。製作者本人は「1フレーム抜き出した」と言われているので、おそらくEBsynthで作られているものかと思われます。
研究
長い呪文の後半は本当に切り捨てられる? 「,」を削っても変わらない?
ISIDの比嘉さんのブログ。からあげさんの75個のトークンを超えるプロンプトに関しては切り捨てられるという記事を基に検証されています。記事内では、実際に検証されて、75個のトークンをはみ出したものは切り捨てられるということ、呪文を圧縮するテクニックとして、カンマ(、)を削ることが有効であること(削っても変わらない。)という衝撃の事実が検証されています。
Greg rutkowskiが使えないなら、Darek Zabrockiだ!
Midjourney、Stable Diffusionで最も多く使われているプロンプトの一つ、「greg rutkowski」というアーティストの方がいます。彼は「A.I.は存命中のアーティストをデータベースから除外し、代わりに "パブリックドメイン下の作品に焦点を当てるべきだ」とも述べており、自分の似たスタイルで大量のアートが生成されることで引き起こされたことがこちらのニュースにまとめられています。
そこで「Greg rutkowski」ではなく、「Darek Zabrocki」という存在しないがGregと似た名前のアーティストを入力すればなんとなく、彼のスタイルに似てるけど違うものが出るという話。めちゃめちゃ面白くないですか?
彼も同じポーランド人だし、彼は架空の人物なので何も言わないという..
なるほど..。
他にも、「Beksinski」「Gerfonso Zalopskins」はいい結果を出すとのこと。
そうなんですよね..日本人の名前とか、プロフィール文を適当に入れたらプロフィールの顔っぽいのが出てくるように、名前も少し変えたら若干違うものが出てくるという..。人間の芸術の歴史がこれから超圧縮されていく感覚..。もうここから先のアートの歴史は歴史は追えないかも知れません。
「BigCode」プロジェクト
WebUI (by AUTOMATIC1111) の CodeFormer "restore faces"がかなりいいらしいです。
WebUIにある「restore faces」がかなりいいらしいです。目線はどうしても変わったりしてしまうようですが、Codeformerすごいですね。WebUI使ってる方は必見。
マージモデルの比較
tomo-makesさんの技術的にどういう仕組みか解説されているツイートで知りました。septendecさんのマージモデルの比較。
思想・ムーブメント
GUIの終焉
魔法のAI動画編集ツールを開発しているRunwayのCEOのCristóbal Valenzuelaさんが将来の仮説を話されています。
学習データをトリミングしないことで大きく変わる..?
画像生成AIが描いた「主人公が実在する女優そっくり」なコミックが著作権を取得する
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。よかったらフォローしてくれるとうれしいです。
画像生成AIの実験, 最新情報のまとめはこちら
前回の号はこちら
次の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます