FLUX.1 Tools の概要

2024年11月22日 07:41

以下の記事が面白かったので、簡単にまとめました。

・Introducing FLUX.1 Tools

1. FLUX.1 Tools

「FLUX.1 Tools」は、Text-to-Imageのベースモデル「FLUX.1」に制御と操作性を追加し、実際の画像と生成された画像の変更と再作成を可能にするように設計されたモデルスイートです。リリース時には、FLUX.1 [dev] シリーズのオープンアクセスモデルとして提供される4つの機能で構成されています、

・FLUX.1 Fill
最先端のインペインティングおよびアウトペインティングモデル。
テキスト記述とバイナリマスクを指定して、実際の画像と生成された画像の編集と拡張を可能にします。
・FLUX.1 Depth
入力画像とテキストプロンプトから抽出された深度マップに基づいて構造ガイダンスを可能にするように学習されたモデルです。
・FLUX.1 Canny
入力画像とテキストプロンプトから抽出されたCannyエッジに基づいて構造ガイダンスを可能にするように学習されたモデルです。
・FLUX.1 Redux
入力画像とテキストプロンプトを混合して再作成できるアダプターです。

このリリースは、研究コミュニティに最先端のオープンウェイトモデルを提供すると同時に、APIを通じてクラス最高の機能を提供します。「BFL API」の各ツールは、「FLUX.1 [pro]」バリアントとしてリリースされ、推論コードとウェイトはガイダンスが抽出されたオープンアクセスのFLUX.1 [dev] バリアントとして利用できます。さらに、リリースされたモデルがパートナーの「fal.ai」「Replicate」「Together.ai」「Freepik」「krea.ai」を通じて利用できるようになります。

2. インペインティングとアウトペインティング

「FLUX.1 Fill」は、「Ideogram 2.0」などの既存のツールや、AlimamaCreative の「FLUX-Controlnet-Inpainting」などの人気のオープンソースバリアントを上回る高度なインペインティング機能を提供します。

さらに、「FLUX.1 Fill」はアウトペインティング機能もサポートしており、ユーザーは画像を元の境界を超えて拡張することができます。

ベンチマークを実施し、こちらで公開しています。結果によると、「Flux.1 Fill [pro]」は他のすべての競合手法よりも優れており、現時点で最先端のインペインティングモデルとなっています。「Flux.1 Fill [dev]」は、独自のソリューションよりも優れており、推論効率も優れています。

「Flux.1 Fill [pro]」は「BFL API」で利用可能です。

「Flux.1 Fill [dev]」は「Flux Dev License」下で利用可能です。

・フルモデルのウェイトはHugging Faceで入手可能: [ Fill ]
・推論コードはGitHubで入手可能

3. FLUX.1 Canny と Depth による構造調整

構造調整では、エッジまたは深度検出を巧みに利用して、画像変換中に正確な制御を維持します。エッジマップまたは深度マップを通じて元の画像の構造を保持することで、ユーザーはコア構成をそのまま維持しながらテキストガイドによる編集を行うことができます。これは、画像の再テクスチャリングに特に効果的です。

ベンチマークを実施し、こちらで公開しています。「FLUX.1 Depth」は、「Midjourney ReTexture」などの独自モデルよりも優れています。特に、「FLUX.1 Depth [pro]」は出力の多様性が高く、「FLUX.1 Depth」の開発バージョンは深度認識タスクでより一貫した結果を提供します。「Canny Edge」モデルについては、ベンチマークはここで入手できます。「FLUX.1 Canny [pro]」がクラス最高で、次に「FLUX.1 Canny [dev]」が続きます。

「LUX.1 Canny / Depth」には、最大のパフォーマンスを実現するフルモデルと、開発を容易にする「FLUX.1 [dev]」に基づくLoRAの2つがあります。

「Flux Depth / Canny [dev]」は「Flux Dev License」の下で利用可能です。

・Hugging Face で利用可能な完全なモデルのウェイト: [ Depth ][ Canny ]
・Hugging Face で利用可能な LoRA ウェイト: [ Depth ][ Canny ]
・推論コードはGitHubで入手可能

「Flux.1 Depth / Canny [pro]」は「BFL API」で利用できます。

4. FLUX.1 Reduxによる画像のバリエーションと再スタイリング

「FLUX.1 Redux」は、画像バリエーション生成を行うベースモデル「
LUX.1」用のアダプタです。入力画像を指定すると、「FLUX.1 Redux」はわずかなバリエーションで画像を再現し、特定の画像を改良することができます。

より複雑なワークフローに自然に統合され、プロンプトを介して画像の再スタイリングが可能になります。再スタイリングは、画像とプロンプトを提供することで、APIを介して利用できます。この機能は、最新モデルの「FLUX1.1 [pro] Ultra」でサポートされており、入力画像とテキストプロンプトを組み合わせて、柔軟なアスペクト比で高品質の4メガピクセル出力を作成できます。

ベンチマークを実施し、こちらで公開しています。「FLUX.1 Redux」が画像バリエーションにおいて最先端のパフォーマンスを達成することを実証しています。

「Flux.1 Redux [dev]」は「Flux Dev License」の下で利用可能です。

・Hugging Face で利用可能なモデルのウェイト: [ Redux ]
・推論コードはGitHubで入手可能

「FLUX1.1 [pro] Ultra」をサポートする「Flux.1 Redux」が「BFL API」で利用可能です。