見出し画像

Flux.1触ってみました

きましたね。大きな波が。
8月になったとたんに、Black Forest Labs 立ち上げの発表。更に同時に画像生成AIモデル『Flux』がリリースされました。

しかも、ComfyUI でサポートされることも同時に発表されました。
このときの対応バージョンは v0.0.4(執筆時点の最新はv0.1.3)です。

いやぁ~、先月から触り始めた ComfyUI に、こんな大きなおまけがついてくるとは思いませんでした。

Comfy Org から、サンプルのワークフローが公開されていたので、早速触ってみました。


ひとまず触ってみる

とりあえず、Comfy Org から公開されているとおりの手順で触ってみます。

サンプルをそのまま実行

サンプルワークフローをそのまま流しただけなので、動くのは当たり前といえば当たり前なのですが、結構あっさりできました。
Flux.1-Dev は VRAM が 12GB以上ないと動かないなんて噂もあったように思いますが、VRAM 8GB の GeForce RTX 2070 でも問題なく動きますね。
いろいろ出力してみた結果は 𝕏(旧Twitter)にアップしています。

フォトリアリスティックなポン出し画像が欲しいのであれば、もう Flux さえあれば十分かもしれません。

Tシャツの文字も自然な感じ

しかも、さまざまなスタイルの指定にもかなり忠実で、プロンプトの最後に ", black and white line art ink drawing" と追加するだけで、漫画の素材に使えそうな画像が出力されます。

フォトリアリスティックな画像と、漫画調の画像。同じモデルから生成されたとは思えません。
Flux は、テキストエンコーダーに T5 を使っています。T5 は、プロンプトに対して CLIP よりも GPT に近い理解をするという人もいますが、これが T5 の威力なのでしょうか。
作りたい漫画の内容によっては、線画LoRAがなくても大丈夫かもしれません。

軽量版の Flux.1-schnell は、stepsの値を1~4に設定して使う高速モデル。VRAM が 8GB しかなくても、画像のサイズを 512x688 に落とせば、1枚30秒ぐらいで生成できます。

ちょっとクオリティが落ちるといえば落ちるのですが、使い方次第というところではないでしょうか。

ただ、Midjourney や Stable Diffusion が公開された当初ならまだしも、単体のベースモデルにひたすら長い呪文のようなプロンプトを与えて、ガチャを回すように大量に画像生成するような使い方はもうしないですよね。

当面は、これまで大量に作られてきた LoRA や、便利な ControlNet などの資産がある Stable Diffusion で遊ぶことになるのだろうな……

などと、思っていたのですが、驚きの速さで Flux 用の LoRA や ControlNet の情報がネット上に流れ始めました。

LoRA

この2、3週間のうちに、CivitAI にかなりの数の Flux 専用 LoRA が公開されていて、Flux の注目度の高さがうかがえます。

例えば、
アニメスタイルLoRA

漫画スタイルLoRA

アメコミスタイルLoRA

など、どれも気になります。

また、CivitAI には Flux 用の LoRA を作るときのコツなども共有されています。

ControlNet

ControlNet に関しても開発は進んでいて、XLabs-AI から、canny、depth、hed が公開され、それぞれバージョン3になっています。

また、InstantX からは、一つのモデルで、canny、depth、pose、low quality、tile、blur、gray に、対応する Controlnet Union が公開されています。

更に、InstantX は、ShakkerAI Labs と共同で、ControlNet Union Pro も公開しています。こちらは、canny、tile、depth、blur、pose、gray、low quality に、対応しているようです。

IPAdapter

XLabs-AI は、IPAdapter も公開しています。

ただし、まだ FaceID には対応していないようです。FaceID があると、顔loRA がなくても安定して似たキャラクターを生成できるので、Flux を使って漫画を描きたい場合などは結構重要な機能になると思います。
"Face support very soon..." とのことなので、素直に待つことにします。

【雑談】Black Forest Labs 登場

突然の Black Forest Labs のニュースには驚きました。Stable Diffusion の開発メンバーが立ち上げたとのこと。
ホームページのリリース文もたいへんクレバーな印象。
こんな会社やってられねぇや! と勢いで飛び出した人たちの集団ではないのだなと感じました。

なるほど、SD3Mの性能がイマイチだったのも、comfyanonymous氏やmcmonkey4eva氏があっさり StabletyAI を退社したのも、Comfy Org や、CivitAI が StabletyAI に対して常に強気だったのも、StabletyAI が SD3 で無理やり収益化をは図ろうとしたのも、なんとなくつながったなという気がします。

Flux.1-Pro のようなベースモデルを開発するには、かなりのコンピューティングリソースが必要になりますので、ハイスペックPCを自宅に買い込んでコソコソやっていれば作れるというものではないですよね。ということは、初期段階からそれなりの資金も必要になるので、かなり前から資金調達に動いていたのですね。
しかも、Black Forest Labs が、Flux.1 の発表のタイミングで、ComfyUI での対応状況を同時発表できるということは、少なくとも ComfyUI の開発者である comfyanonymous氏には、そこそこ前から情報を共有していたはず。
……つまり、知らないかったのは我々ユーザーだけで、StabletyAI の周辺にいた人たちはみんな知っていたのでしょうね、かなり前から。

そうなると、StabletyAI は、強大なライバルが新たに出現することが周知の事実となっている状況で、追加の資金調達に奔走していたということになりますね。
資金調達が難航しているという話もありましたが、いま思えば当然です。
StabletyAI も Black Forest Labs も、同じような顔触れを周っていたはずですから。

たぶんですが、いまのところ StabletyAI は、画像生成AI を主軸に据えての黒字化を半ば諦め、新CEOプレム・アッカラジュ氏を迎えて、動画生成AI に主軸を置いて出直す方向で黒字化の絵を描いているのだと思います。

そこへ持ってきて、なんと、それを追撃するように Black Forest Labs のリリース文の最後には、"Up Next: SOTA Text-to-Video for All" という宣言と共に、Flux.1 は text-to-video systems の基盤として機能するものであることが記載されています。

画像生成AI としての Flux.1 の性能を見せつけておいて、StabletyAI が動画生成AIで黒字化を狙っていることを知った上での、このリリース文はまさに宣戦布告。もう、怖さで言えばハリソン山中級。下村警部でなくてもチビってしまいそうです。

もちろん、これは筆者が想像しているだけなので、Black Forest Labs は StabletyAI を全く意識していないのかもしれません。

とはいえ、StabletyAI は、極めて厳しい状況に追い込まれたことに違いはありません。いよいよ勝ち筋はプレム・アッカラジュ新CEOがどれだけ走り回れるかの一本に絞られてきたように思います。

技術力も、オープンソースコミュニティとの関係構築も、現時点では Black Forest Labs のほうが一枚上手のように見えます。
実際には、Black Forest Labs もそれほどうまくいっているわけではないのかもしれません。しかし、少なくとも遠目に眺めている限り、StabletyAI の方が上手くやっているようには見えません。

こうなってくると、StabletyAI が優っているところは、新CEOがこれまでのキャリアの中で築いてきた映像業界とのコネクション。これがいまの最大の武器でしょう。
このコネクションを使って、新CEOがB2B案件をどれだけ取ってこれるかが黒字化の鍵になるのだと思います。
スタートアップのCEOなんて、リーダーシップだなんだと言うけれど、実のところそんな内向きの話は二の次で、まずは、どれだけお金を集めてこれるか、どれだけ客を取ってこれるか、どれだけ仕事を取ってこれるか、そのためにどれだけ走り回れるかが勝負ですからね。

陰ながら、新CEOのご活躍をお祈りしております。

頂いたサポートは今後の記事作成のために活用させて頂きます。