日刊画像生成AI (2022年11月11日)

やまかず

2022年11月15日 14:39

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..！って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

過去の投稿はこちら

開発

Metaphor

ついに公開。生成AIに基づく検索エンジン「Metaphor」がついに公開されました。生成AIで20年間変わらなかった検索の形が変わるかもしれない、そんな話が少し想像しやすくなるようなサービスが公開されました。

https://t.co/NX99LxC7vL is now publicly available!

Metaphor is a search engine based on generative AI, the same sorts of techniques behind DALL-E 2 and GPT-3

1/
— Metaphor (@metaphorsystems) November 10, 2022

テキストに続く可能性が最も高いリンクを予測して表示してくれるもので、
例えば以下のようなことができます。通常の検索とは全く毛色が違い、ここでもプロンプトエンジニアリングは有力ですね

今までの検索ではできなかったことができてる

例えば「これは19世紀のイーロン・マスクのような人物のWikipediaのページです。」と入力したら1番上にNikola Teslaが、「18世紀」にしたら永久機関を作ったとされてるJohann BesslerのWikiが表示されるpic.twitter.com/uPm8mwyYDW https://t.co/ArBtWkiWfZ
— やまかず (@Yamkaz) November 11, 2022

めちゃめちゃ昔..確か2ヶ月半前くらいにwaitlist登録があって、新しい検索エンジンを作るとか言われていて気になっていたけど忘れていたんですが、こういうものだとは思っていなかったです。使うページはこちらから

使い方などはこちら

ついでにこちらの記事もどうぞ
『次のGoogle検索エンジンはGenerative AIになる』

8つの画像を4秒で生成するDemoが公開

8つの画像が4秒で出力されるらしいです。
DPM-Solver++、TPU v2-8、JAXを利用することでStableDiffusionのHuggingfaceのデモは8つの画像が4秒で生成されるらしい。Demoページでも8秒くらいで4枚生成できてる。

Stable Diffusion demo Spaces run twice as fast! How on Earth?

We adopted DPM-Solver++, a new scheduler by @ChengLu05671218 et al. that gets the job done in fewer steps.

8s → 4s for 8 images, using JAX on TPU v2-8. 🤯https://t.co/PW5JZPcSZY
— Pedro Cuenca (@pcuenq) November 10, 2022

RayCastにOpenAIの拡張機能が追加

ランチャーツール、RayCast（Alfredみたいなやつです）にOpenAIの拡張機能が追加されました。インストールしてOpenAIのAPI Key入れたら使えます、使ってみたんですが結構いいかもしれない。option+spaceでメニュー出して、DALL-E2やGPT-3でその場でプロンプト入力してすぐ生成できる感じです。

5,263人のアーティストスタイルで136,916枚の画像をレンダリングした

合わせて48 時間以上のレンダリング時間（ 3080/4090）がかかったらしいです。ここからダウンロードできます。magnetリンクも同時に公開されています。

https://drive.google.com/file/d/1ojnD_bPa0jRIAYf_0RJSMCMEpSVcKgB4/view?usp=share_link

DreamBoothモデルを１カ所で見れるサイト、Civitai

https://www.reddit.com/r/StableDiffusion/comments/yrp2l8/we_made_a_tool_to_find_all_the_dreambooth_models/

モデル共有サイト「Civitai」が公開されましたhttps://t.co/IxrAdYxnh3

既に存在しているモデルが沢山まとまっていて、ログインすればアップロードができます pic.twitter.com/pKiJfaJeGC
— やまかず (@Yamkaz) November 11, 2022

Colossal-AI

モデルを高速かつ安価に学習・fine tuningする新しい方法が登場。

プレトレーニングのコストを6.5 倍、fine tuningのハードウェアコストを7 分の1 に削減すると同時に、プロセスをスピードアップする、完全なオープンソースのソリューション。

NovelAIDiffusionがアップデート Furry(Beta V1.2)に。

ケモノや人間以外のコンテンツをより良く生成できるらしいです。ケモノ好きの人には嬉しそう

#NovelAIDiffusion Furry(Beta V1.2)が到着しました！
ケモノモデルの2番目のイテレーションを発表できることが嬉しいです。これは、ケモノや人間以外のコンテンツをより良く生成します:モンスターガール、エルドリッチ・アボミネーション、ケンタウルス、ロボ、エレメンタルなど！
暴れ回りましょう! pic.twitter.com/NpzFGXsXNe
— NovelAI (@novelaiofficial) November 10, 2022

注意：#NovelAI Diffusion Furry (Beta V1.2)モデルはモデルドロップダウンの古いバージョンを置き換えます。 pic.twitter.com/9a1Okm4dWG
— NovelAI (@novelaiofficial) November 10, 2022

#NovelAIDiffusion Furry (Beta V1.2) has arrived!
We're excited to announce the second iteration of the Furry model, which generates even better content for furry and non-humans: monster girls, eldritch abominations, (cen)taurs, living vehicles, robots, elementals, etc!
Go wild! pic.twitter.com/BmUD0KU3Kx
— NovelAI (@novelaiofficial) November 10, 2022

Popup diffusionが公開

本から飛び出したような画像が生成できるモデルが公開されました。

クロスアテンションによるStableDiffusionの解釈

Cross Attentionを使用してプロンプトからピクセルレベルの属性マップを生成し、プロンプトが出力画像にどのように影響するかを示すことができる。

Interpreting Stable Diffusion Using Cross Attention

producing pixel-level attribution maps from prompts, helping to show how different parts of the prompt affect output image

arxiv: https://t.co/Sv1tc3p7Zw

github: https://t.co/kCkNH5JmFQ

hf demo: https://t.co/Ts7rQCEbFk pic.twitter.com/i9uyswOPFs
— nearcyan (@nearcyan) November 11, 2022

Rivers Have WingsさんのSDアップスケーラーのDemoが公開

前日のnoteに記録していたRiversHaveWingsさんのSDアップスケーラーのDemoが公開されています。さくっと試してみたい人はここから。

I've created a @huggingface Space demo from the colab notebook, thanks! @RiversHaveWings fell free to uploads the weights to our hub, rn it downloads it from your serverhttps://t.co/KoWHaoVYLU
— Radamés Ajna (@radamar) November 10, 2022

CycleDiffusion

The @Gradio Demo for CycleDiffusion with Stable Diffusion, an image-to-image translation method that supports stochastic samplers for diffusion models is out on @huggingface Spaces using @diffuserslib 🧨 by @ChenHenryWu

demo: https://t.co/kww2gMRPtD pic.twitter.com/fS7DV994uW
— AK (@_akhaliq) November 10, 2022

NovelAI呪文生成器「Tags.novelai.dev」

画像生成AI「NovelAI」でイラストを描くのに使えるDanbooruのタグを使ったプロンプト・呪文をクリックしていくだけで自動生成できる「https://t.co/oab6yZnXzg」https://t.co/XfqA8glDQp
— GIGAZINE(ギガジン) (@gigazine) November 11, 2022

表現

完全にAIで生成された顔と、顔アニメーション

Thin-Plate-Spline-Motion-Model を使用して、生成画像をアニメーション化
video2X を使用して拡大する
フレームを抽出し、GFPGAN を使用して顔を修正します
フレームを保存し、必要に応じて、投稿で行ったようにそれらをビデオに再結合します

"Postmodern Labor"

研究

スタンフォード大学の研究者らが、大規模なモデル編集を高速に行う人工知能（AI）アプローチ「MEND」を開発

[実装付き]Stable Diffusionの追加学習に適する画像をVAEで選別する

書いた！

[実装付き]Stable Diffusionの追加学習に適する画像をVAEで選別する｜なんか https://t.co/OBFxPJd9AN #zenn
— なんか (@_determina_) November 11, 2022

思想・ムーブメント

累積最適化パワーによるAIタイムライン。より長く、より短く

このモデルを将来に外挿すると、AI タイムラインが短くなります: 2032 年までに AGI が発生する可能性は ~75% です。

AGI コンテンツ / タイムラインが短い理由 ~ AGI まで10年以内

ジェネレーティブAI が現在の 10 年間でどのようにすべてを破壊するか

ジェネレーティブ AIモデルがゲームの未来をどのように変えるか

ジェネレーティブ AI — 脳の右側が再発明される?

2022年はいかにしてジェネレーティブAIの年になったか

シンギュラリティ：人類最後の発明？

勉強

Machine Learning Algorithms Cheat Sheet

拡散モデルの高速化に関するサーベイ動画

拡散モデルの高速化に関するサーベイ動画を公開しました。ほっとくとめっちゃ遅いので、重要な研究テーマです！

ついでにスコアベース生成モデルやSDE/ODEとの関係も解説してます。拡散モデルは理論がめっちゃ面白いのに日本語解説をなかなか見かけないので是非！https://t.co/9qu9w4LIKH pic.twitter.com/J23ShS4HYd
— mi141 (@mi141) November 11, 2022

例によって宣伝ですが、拡散モデルの基礎的な解説はこちらです。https://t.co/924H6GpIya

拡散モデルによるtext to imageに興味がある方は、DALL-E 2関連に関しては以下で解説してます。https://t.co/zu1VsTPRv5
— mi141 (@mi141) November 11, 2022

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

Tweets by Yamkaz

画像生成AIの実験, 最新情報のまとめはこちら

過去の号はこちら

次の号はこちら

いいなと思ったら応援しよう！

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年11月11日)

開発