見出し画像

Google さんが論文だしてたのでシュッと読む

Google さんが画像生成についての論文をシュッと出しておりましたです。はい。

We present StyleDrop that enables the generation of images that faithfully follow a specific style, powered by Muse, a text-to-image generative vision transformer. StyleDrop is extremely versatile and captures nuances and details of a user-provided style, such as color schemes, shading, design patterns, and local and global effects. StyleDrop works by efficiently learning a new style by fine-tuning very few trainable parameters (less than 1% of total model parameters), and improving the quality via iterative training with either human or automated feedback. Better yet, StyleDrop is able to deliver impressive results even when the user supplies only a single image specifying the desired style. An extensive study shows that, for the task of style tuning text-to-image models, Styledrop on Muse convincingly outperforms other methods, including DreamBooth and Textual Inversion on Imagen or Stable Diffusion.

https://styledrop.github.io/

DeepL 先生に翻訳してもらうとこんな感じ

我々は、テキストから画像への生成ビジョン変換器であるMuseを搭載し、特定のスタイルに忠実な画像の生成を可能にするStyleDropを発表します。StyleDropは非常に汎用性が高く、配色、陰影、デザインパターン、ローカルおよびグローバル効果など、ユーザーが提供するスタイルのニュアンスや詳細をキャプチャします。StyleDropは、ごく少数の学習可能なパラメータ(モデルパラメータ全体の1%未満)を微調整することで新しいスタイルを効率的に学習し、人間または自動フィードバックによる反復学習によって品質を向上させることで動作します。さらに、StyleDropは、ユーザーが希望するスタイルを指定した1枚の画像しか提供しない場合でも、素晴らしい結果を出すことができます。広範な研究により、テキストから画像への変換モデルのスタイルチューニングにおいて、Styledrop on Museは、DreamBoothやTextual Inversion on Imagen、Stable Diffusionといった他の手法を説得力を持って凌駕していることが示されています。

Translated by DeepL

毎度のことながら言わせてもらおう。








ほーん?( ゚д゚)











ということで真相を探るべく論文をシュッと読んで見たわよ。という話。

論文はこちら


で、要するに?

ふにゃふにゃーんと要約しますわよーーー
(間違っていても責任は取りませんわよーーー)


押さえるポイント(*´▽`*)

  1. 従来の画像生成アーキテクチャだとテキストに画風(スタイル)を黒魔術的に含めてなんとか再現していた。駄菓子菓子、、、ムズイ。

  2. StyleDrop では出力したい画像の描写をテキストとして受け取る

  3. StyleDrop は画風(スタイル)についてはそれを体現している画像として受け取る

  4. 結果的にテキストで指示された内容と画像で指示された画風(スタイル)をうまく掛け合わせていい感じの画像を作成する


ヨースルニコレダケーーーーー(*´▽`*)


実際の生成画像なんかは

をみてね☆

StyleDrop とその他技法の差



おまけ

自分メモに書いておくぞ☆

  • StyleDrop はテキストの入力と画像の入力を要求するぞ☆

  • テキストと画像は別々のエンコーダーに入力されるぞ☆

  • StyleDrop はテキストの入力情報をもとに画像生成を試みるぞ☆

  • 画像生成の過程でアダプターとして入力画像のスタイルの特徴が混ぜられるぞ☆

  • 結果として入力された画像とテキストの両方を反映した画像が生成されるぞ☆


モデル☆

StyleDrop を実現するためにはテキストから画像を生成するモデルと、スタイル画像から特徴を抽出する2つのモデルが必要だぞ☆

そしてその組み合わせが StyleDrop を形成しているということだぞ☆


テキストは画像を表現するベクトルに変換されるぞ☆
画像はスタイルを表すベクトルに変換されるぞ☆

テキストから画像を生成される過程でアダプターとしてスタイル情報が混ぜられるぞ☆


仕組み的には StyleGAN が使われていそうだぞ☆


というわけでシュッと理解して満足したのでおしまい。

いいなと思ったら応援しよう!