Google さんが画像生成についての論文をシュッと出しておりましたです。はい。
DeepL 先生に翻訳してもらうとこんな感じ
毎度のことながら言わせてもらおう。
ほーん?( ゚д゚)
ということで真相を探るべく論文をシュッと読んで見たわよ。という話。
論文はこちら
で、要するに?
ふにゃふにゃーんと要約しますわよーーー
(間違っていても責任は取りませんわよーーー)
押さえるポイント(*´▽`*)
従来の画像生成アーキテクチャだとテキストに画風(スタイル)を黒魔術的に含めてなんとか再現していた。駄菓子菓子、、、ムズイ。
StyleDrop では出力したい画像の描写をテキストとして受け取る
StyleDrop は画風(スタイル)についてはそれを体現している画像として受け取る
結果的にテキストで指示された内容と画像で指示された画風(スタイル)をうまく掛け合わせていい感じの画像を作成する
ヨースルニコレダケーーーーー(*´▽`*)
実際の生成画像なんかは
をみてね☆
おまけ
自分メモに書いておくぞ☆
StyleDrop はテキストの入力と画像の入力を要求するぞ☆
テキストと画像は別々のエンコーダーに入力されるぞ☆
StyleDrop はテキストの入力情報をもとに画像生成を試みるぞ☆
画像生成の過程でアダプターとして入力画像のスタイルの特徴が混ぜられるぞ☆
結果として入力された画像とテキストの両方を反映した画像が生成されるぞ☆
モデル☆
StyleDrop を実現するためにはテキストから画像を生成するモデルと、スタイル画像から特徴を抽出する2つのモデルが必要だぞ☆
そしてその組み合わせが StyleDrop を形成しているということだぞ☆
テキストは画像を表現するベクトルに変換されるぞ☆
画像はスタイルを表すベクトルに変換されるぞ☆
テキストから画像を生成される過程でアダプターとしてスタイル情報が混ぜられるぞ☆
仕組み的には StyleGAN が使われていそうだぞ☆
というわけでシュッと理解して満足したのでおしまい。