論文解説:Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

project page : https://diptychprompting.github.io/
arxiv : https://arxiv.org/abs/2411.15466

ひとことまとめ

Fluxのinpaintingを利用したsubject driven(物体条件付き)生成

概要

subject drivenなtext-to-imageは、ターゲットの視覚情報とテキストの両方を正確に捉えた画像を生成することを目的としている。従来の方法では時間と計算リソースを使用したファインチューニングに依存している。zero-shotの場合はターゲットを正確に描画するのが難しい。そこで本論文ではDiptych Promptingという新しいzero-shotの手法を提案する。

提案手法


Diptych Generation of FLUX

"Diptych"とは、2つのパネルがつながったアートのことで、関連したコンテンツが2つ横に並んでいる特徴がある。
また、近年、オープンソースのText-to-ImageモデルであるFLUXは強力な言語理解と画像生成能力を持っている。この能力はDiptychに使用することにも利用でき、以下のようなプロンプトを入れると、それぞれのパネル同士で情報を交換し合い、各パネルの説明に従った画像が生成できる。

“A diptych with two side-by-side images of the same {object}. On the left, {description of left image}. On the right, replicate this {object} but as {description of right image}”

高品質なDiptych画像の生成には、大規模なtext-image間の強い整合性が必要であるが、小規模なモデルだとこれが不足している。SD系列と比較するとFluxのみがパネル間で同一の猫の描画に成功しており、そのため提案手法はFLUXを利用した。

Diptych Prompting Framework

zero-shotのsubject drivenなtext-to-image生成は、ほとんどの場合専用の画像エンコーダに頼っている。提案手法では、Inpainting ControlNetを用いてこれを実現する。
ControlNetへの入力画像は、左側に参照画像を、右側に空画像を入れ、マスクを設定する。しかし、単純なinpaintingでは、参照画像の背景・ポーズ・位置などの無関係な内容までミラーリングしてしまう。そこで、Grounding DINOとSegment Anythingを利用した背景除去を通して参照物体の背景を除去する。

Diptychプロンプティングでは、左側の画像をもとに右側を再構成するが、Fluxのinpainting moduleでは対象の細部を完全にとらえるのが難しい場合がある。そこで、右パネルのクエリと左パネルのキー間の注意重みをスケールパラメータ$${\lambda}$$で再スケーリングすることで、参照を強化する。

実験

実験にはFLUX-devを用いた。解像度は768×1536を用いた。条件スケール$${\lambda}$$は1.3を用いた。

提案手法はzero-shotでの推論にもかかわらず、高品質で正確な描画ができていることがわかる。また、多様な物体や状況において、卓越した性能を示していることがわかる。

また、人による評価では、他の手法と比較して提案手法の方が優れているとする割合がかなり多い。

DINO、CLIPを用いた評価において、提案手法は他の手法と同等もしくは優れた性能を示していることがわかる。


また、提案手法はスタイル転写や物体指定の画像編集などにも使用することができる。


まとめ

  • zero-shotでのsubject drivenなtext-to-imageを目的としたinpainting手法を提案

  • 背景除去と参照の強化で対象の整合性を向上させた

  • スタイル変換や画像編集にも対応しており、動画や3Dなどへの応用も期待される

いいなと思ったら応援しよう!