見出し画像

建築ビジュアル CG AI 活用法⑨ ~FLUX.1:画像生成AIの新たなゲームチェンジ~

こんにちは。STUDIO55技術統括の入江です。
先ずは、こちらの 建築画像 をご覧ください。

いかがですか?
写真と言っても分かりませんね。

実は、これらの画像は、最新の画像生成AI『Flux.1』を使って生成したものです。建築表現の評価のために、私がテストとして生成したものですが、そのクオリティは驚異的です。
高層建築や商業スペース、インテリア、美術館、スタジアム、ランドマークタワーなど、どれも実在の建築に見え、プロンプト(テキスト)から生成されたとは思えない仕上がりです。
これまでのAIが生成した画像と比べると、まるでプロの写真家が撮影したかのようなリアリズムと精度で、従来の技術を大きく超えています。


画像生成AIのゲームチェンジ

8月1日。突如として現れたAIに、世界が震撼しました。

 画像 : Black Forest Labs : X 8月1日リリースより

画像生成AI「Stable Diffusion」などの開発に携わったAI研究者とエンジニアが、新しく「Black Forest Labs」という新会社を設立すると同時に、画像生成AIモデル『Flux.1』を発表しました。

”Stable Diffusion、Midjourney、Dall-E 超え” と言われる驚異の性能を示す Flux.1 は、120億のパラメーターを持つ、現時点で最大規模のオープンソース text-to-image モデルです。

FLUX.1 text-to-image model suite

Flux.1には3つのモデルスイートが用意されています。以下にその要点をまとめます。

・Flux.1 [pro] : (プロ版)
Flux.1の最高峰のクォリティと性能。API経由でのみ利用可能なクローズドソース バージョン。
Replicatefal.aiでも購入可能。
エンタープライズソリューション対応可能。
商用利用可。
※画像1枚当たり、0.055ドル(約8円)

Flux.1 [dev] : (開発版)
Flux.1 の基本モデルであり、コミュニティが構築できるように非商用ライセンスでオープン化された蒸留モデル
ウエイトはHuggingFaceアクセス。Replicatefal.aiで使用可能。
商用コンテキストでのアプリケーションは問い合わせが必要となる。

👆 蒸留版 : AIや機械学習の分野の専門用語。元のモデルの知識を効率的に引き継いだ軽量かつ効率的なバージョンのモデルを指す。

Flux.1 [schnell] : (高速版)
最大10倍高速に動作する基本モデルの精製バージョン。
HuggingFaceアクセス。Replicatefal.aiで使用可能。Apache2.0ライセンス。ローカル開発向けで、商用利用可。
ComfyUI 統合使用モデル。

👆 schnell(シュネル) : ドイツ語で ”速い” の意味

最初に挙げた一連の画像は、Flux.1 [schnell] でテスト生成したものです。
Flux.1で生成した画像は、基本的に商用利用可で、所有権はユーザーに帰属します。

当社は出力に対する所有権を主張しません。お客様は、本契約に定められた制限に従い、出力を個人的または商業的な目的で使用できます。

引用 : FLUX利用規約より

建築ビジュアライズ制作においては関係者から細かな指示があることから、AIを利用するにはハードルがあります。しかし、デザインの初期検討で活用するには効果的です。

現在はどの画像生成AIにおいてもプロンプト反映の度合いが格段に向上していますが、Flux.1 のプロンプト反映のクォリティレベルは群を抜いています。
その意味では、ある程度のプロンプトへの理解も必要ですが、AIユーザーであれば当然とする基本部分なので、特に詳しい説明は不要かもしれません。イメージに基づいた短いプロンプトの方が、目的の画像を生成しやすいところがあるように思います。

各スコアシート

Black Forest Labsのホームページの ”お知らせ” には、グラフが図示されており、Flux.1の優れた性能がわかりやすく示されています。
簡潔に解説を加えますので、合わせてご覧ください。

Flux.1 モデルファミリーの ELO Score 

画像の出典:Black Forest Labs

ELO スコア(イロ レーティング)は、モデルの性能を他のモデルと直接比較するための数値です。高いスコアほど、そのモデルが他のモデルに対して優れていることを示します。
上の表では、BFL(Black Forest Lab)のFlux.1 モデルの性能スコアのポジションを確認できます。

Flux.1 creative capabilities (創造力) とcostの図式

画像の出典:Flux.1 creative capabilities

クリエイティブとそれにかかるコスト。Schnell(シュネル)のクリエイティブ性能より、デヴやプロの性能がカーブを描いて上に伸びる点で、驚異的な印象を受けます。

Flux.1 Benchmark(ベンチマーク)

(左)Midjourney v6.0、DALL·E 3 (HD)、SD3-Medium と、Flux.1スウィートの性能比較(ベンチマーク)
(右) SD-Turbo3、SDXL-Lightningと、Flux.1[schnell]の性能比較(ベンチマーク)

画像の出典:Flux.1 ベンチマーク

ビジュアル品質プロンプトフォローサイズ/アスペクトの変動性タイポグラフィ出力の多様性、合計5つのカテゴリのすべてにおいて、他を凌駕りょうがするベンチマークが一見して確認できます。

見た目の印象だけにとどまらず、明確なスコアを挙げて Flux.1の性能を示す辺りも、最先端を行く強い自信が感じられます。

Black Forest Labsについて

Black Forest Labs は、ドイツに拠点を置く会社です。
our team ページで立ち上げに携わったAI研究者とエンジニアの名が連なっています。

画像 : Black Forest Labs. "our-team" ページ画像

開発者向けメディアプラットフォーム fal によると、Black Forest Labsを立ち上げたのは Stable Diffusionのオリジナル開発チーム だということです。

Black Forest Labs(略称 BFL)のチーム名や FLUX.1 のネーミングからして、独特のセンスとスタイリッシュさが際立ちます。
Webサイトも極めて洗練された構成で、無駄を徹底的に排し、シンプルで無彩色を基調としたデザインは、これまでのカラフルなAIサイトと一線を画す、ゲームチェンジを予感させる印象的なコントラストです。

画像 : Black Forest Labs. "Announcements." ページ画像

BFLはシード投資で驚異の3100万ドル(約45億円)を調達し、その出資者には、IT業界のベンチャーキャピタル界で名高いアンドリーセン・ホロウィッツ(a16z)も名を連ねています。
さらにコンテンツ制作業界で豊富な経験を持つマイケル・オヴィッツ (Michael S. Ovitz) 氏や、欧州AI研究の第一人者であるマティアス・ベスゲ (Matthias Bethge) 教授をアドバイザリーボードに迎え入れました。
この強力な支援体制により、BFLは欧州発のAI技術を世界へと広めるミッションをさらに強化しています。

👆 アドバイザリーボード(Advisory board) : 経営におけるあらゆる課題に対する助言を目的に設置された諮問しもん委員会の事。

これまでにない最強の画像生成AIを用途に応じて提供し、従来の月間・年間サブスクではなく、使用量に基づく課金制度を導入。商用利用が可能であることを明示し、技術力の高さを視覚的に図式にして表し、さらに、オープンな蒸留モデルを活用してコミュニティを構築。資金力の強固さに加え、ハリウッドの最強代理業者CAAの創設者であるオーヴィッツ氏や、AI研究の第一人者ベスゲ教授を含む諮問しもん委員会の支援を受け、盤石な体制を整えています。

これらのまったく新しいAIの企業スタイルが、今後のジェネレーティブメディアの民主化を確実に推進する力強さを感じさせます。

ジェネレーティブAI研究コミュニティに深く根ざした私たちの使命は、画像やビデオなどのメディア向けの最先端のジェネレーティブディープラーニングモデルを開発および進歩させ、創造性、効率性、多様性の限界を押し広げることです。私たちは、ジェネレーティブAIが将来のすべてのテクノロジーの基本的な構成要素になると信じています。私たちのモデルを幅広いユーザーに提供することで、そのメリットをすべての人に提供し、一般の人々を教育し、これらのモデルの安全性に対する信頼を高めたいと考えています。私たちは、ジェネレーティブメディアの業界標準を構築することを決意しています。本日、この目標に向けた第一歩として、テキストから画像への合成のフロンティアを押し広げる一連のモデルであるFLUX.1をリリースしました。

出典 : Black Forest Labsの発表

名前の由来

独自のセンスとスタイリッシュさを感じるネーミングについて、私なりの見解を述べておきます。

『Black Forest labs』

「Black Forest」 というのは、ドイツ南西部にある有名な「黒い森(Schwarzwald)」を指しています。この地域は自然の美しさで知られており、神秘的で深い森が広がる風景が特徴です。シュヴァルツヴァルトは、グリム童話のゆかりの地でもあります。
名前に「Black Forest」を含めることで、自然の神秘や力強さ、あるいは革新的な精神を象徴する意図があるかもしれません。
また、「黒い森」という言葉自体が、秘密や未知、冒険を連想させるイメージを持っています。科学研究所や技術系企業にとって、このような名前は新しい発見やイノベーションに挑む姿勢を示すものとなります。

したがって、「Black Forest Labs」という名前は、自然と科学技術が交錯する場所、あるいは未知の領域を探求する企業であるという印象を与える意図を感じさせます。

『FLUX.1』

「FLUX」という言葉にはいくつかの意味と象徴的な意味合いが含まれています。一般的に「FLUX」は、流動性や絶え間ない変化、進化を意味する英単語です。

つまり、常に何かが変化し続ける状態を表すことから、FLUX.1とは、画像生成AIが絶えず進化し、変化し続けるテクノロジーであることを象徴しているように思えます。また、多様な用途やスタイルに柔軟に対応できる、高度に適応性のあるAIモデルであることを示唆している可能性もあります。
名前に含まれる「1」は、おそらくこのモデルがシリーズの最初のバージョンであることを示しているか、または、最初の、あるいは最高のものを意味する可能性もあります。

これらの要素を考慮すると、『FLUX.1』という名前は、このAIモデルが変化や進化を続ける最先端の技術であり、その柔軟性と適応力を持つことを強調していると言えます。

今後の展開

BFLは、今後の展開として "what's next" ページで、次は動画生成AIをリリースすると掲げています。
この予告が、更なる衝撃を業界に与えていることは言うまでもありません。

画像 : Black Forest Labs. "what's next" ページ画像

Up Next.
次は。
State-of-the-Art Text to Video for all.
最先端のテキストからビデオへの変換をすべての人に。

出典 : "what's new" にあるメッセージより

黒い森(Black Forest)の中に忽然こつぜんと置かれたブラウン管テレビ。そこには、すでにテストされているBFLのAIビデオが映し出されています。その内容から、映画やドキュメンタリークラスのリアルな映像が生成されているのが分かります。

シンプルながらも、伝えたいメッセージがビジュアルを通して明確に伝わる卓越したセンス。最先端のAI技術を駆使しつつ、あえてアナログテレビを使う表現が、AIの本格的な進展の期待感を一層高めます。

今年の夏は、暑さも吹き飛ぶ 激アツなAIのゲームチェンジの夏となりました。