日刊 画像生成AI (2022年11月19-20日)
ジェネレーティブAI界は、今とても早いスピードで進化し続けています。
そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。
OpenAI Startup Fundに提出したよ😆
過去の投稿はこちら
開発
元素法典 2.5巻が公開!
あるふさんのCool Japan Diffusion進歩共有
Haruさん(WD開発者)がArtstation-Diffusionが公開
VRoidの衣服アセットでトレーニングされたモデルが公開
Anything V3ベースで、VRoid衣装アセットでトレーニングしたモデル。でもここまで行くとAnything V3がNovelAIリーク使ってるよねとかもうどうでも良くなるくらい違うものになっている。
StableDiffusion+DALLE2 for Photoshop by Cantrellに新しいinpaintingモデルを追加するらしい
StabilityAIのプロダクト担当副社長のCantrellさんのプロダクトに新しいinpaintingモデル(runwayの1.5モデル?)が追加されるようです。
Art of MtG v1モデルが公開
このモデルは、Dreambooth でトレーディング カード ゲーム Magic: the Gathering の約 5000 アートでトレーニングされ、アーティストや画像に関連するさまざまな情報が適切にタグ付けされています。
Nagel inspired model v1が公開
Yoji Shinkawaモデルが公開
(ここから少し画像生成AIと離れます)
Clip.audioがリリース
OneFormerのdemoが公開
研究としては、一度学習すれば3つの画像セグメンテーションタスク(セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション)すべてにおいてSOTA性能を達成できる、真に普遍的な画像セグメンテーションフレームワークを開発することが目的。
このOneFormerモデルは、ADE20k、CityScapes、COCOの3つのセグメンテーションタスクすべてにおいて、Mask2Formerモデルが3倍のリソースで3つのタスクそれぞれについて個別に学習したにもかかわらず、Mask2Formerモデルを上回る性能を発揮するらしいです。そのdemoが公開。
OneFormerのArxivはこちら
UniformerV2のHuggingface demoが公開
動画からキャプション生成できている。野球ボールを打ってる動画を入力して「hitting baseball」と出力されてる。
UniformerV2は、識別可能な時空間表現を学習するための新しいパラダイム。つまり動画からキャプションを生成するモデル..?
このアプローチは既存のVision Transformer (ViT)モデルをベースとし、性能向上のためにnew localおよびglobal relation aggregatorsを追加したものらしい。Kinetics-400, Kinetics-600, Kinetics-700, Moments in Time, Something-Something V1, Something-Something V2, ActivityNet, HACSといった8つの有名なビデオベンチマークにおいて既存のモデルより優れた性能を発揮することができるとのこと。
大きくしない方がいい。
GPT-3の品質を0.1%のコストで手に入れる方法
データを中心としたアプローチがどのようにモデルのサイズを縮小し、パフォーマンスを向上させ、モデルのトレーニングとデプロイのコストを削減するために使用できるかについて。
ただ、全ての基盤モデルの性能向上、コスト削減にはならないらしい。
表現
Disturbed - Bad Man [Official Music Video]
Midjourneyの画像で構成されているミュージックビデオをDisturbedが公開。制作に1ヶ月を要したそうです。すげぇ!
Izumi Satoshiさん、DreamBoothで元動画を学習させ破綻を防ぎつつ、プロンプトで任意の絵柄を適応する
izumi satoshiさんの実験。めちゃくちゃ上手くっている。かわいい。
これ見てさこゆい体操にハマってしまいずっと聞いてる..
映画の風景みたいなMidjourney v4出力物
このクオリティで動画生成できる未来楽しみすぎる。
30分でStable DiffusionとBlenderで宇宙船の3Dモデルを作ってる事例
私の2人の友人の写真で訓練されました(ワークフロー有)
研究、検証など
Disco Diffusion Artist Study
proximaさん、KyrickYoungさんなど古参勢がやってるプロジェクト、DiscoDiffusion Artist Studies が本日正式に終了。
4,243 のスタイルを完成がまとめられています。すごい!
ResNet guided Stable Diffusion
StableDiffsionで作るウォーキングのアニメーション事例
Lattent Diffusion modelによる超解像
サンプラーの得意、不得意まとめ
やっぱりddimいいですよね!個人的にもddim一番好き。
世界での画像生成AIサービス比較調査
Nijijourneyざっくり感想
電々さんのNovelAI、年齢の表現まとめ
メモ: 「#」など特殊文字で好きなモデルを整理できるよ
プロンプトの影響の与え方の図
Automatic1111 の WebUI を使用するための Noob ガイド
思想・ムーブメント, ブログ, メモ
Mira Murati - DALL-E 2とAIの力|The Daily Show
(3週間前のもので拾えていなかったもの)
OpenAI最高技術責任者のMira Muratiさんが、『DALL-E 2』の創造力、AIを使うことで生じる倫理的・道徳的問題、そして人工知能がどのように社会の想像力を高め、形づくることができるかについて語っています。
概要のメモ
画像と言葉。2026年のAI
(前に載せていたらごめんなさい。)
【悲報】AI絵師さん、頼まれてもないのに他人のイラストをAIアレンジしてしまう
コマーシャル アート テクノロジーの波に乗ってきた 40 年間を振り返る
AI を使用して 12 年間のテレビ出演を研究
AIアートは本当にアートなのか?カリフォルニアのギャラリーは「イエス」と言う
検索の黄昏
AIの可能性を広げる新チップ
https://www.quantamagazine.org/a-brain-inspired-chip-can-run-ai-with-far-less-energy-20221110/
ニューラル言語モデルは実際には非常に長い間存在していましたが、今日の範囲に近いところは誰も気にしていませんでした
Search is Overfitted Create; Create is Underfitted Search
「Generative AIは、今後ニューラル検索にとって最大の競争相手となるかもしれない。」であったり「検索と創造は表裏一体。」など
勉強
5分以内にHFにDreamBoothのDemoをアップロードする
あまり知らなかったのでメモ。こんな感じでアップできるんですね
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。
画像生成AIの実験, 最新情報のまとめはこちら
過去の号はこちら