【Flux.1】 AIから学ぼう! 最高の写真の撮り方を考える
はじめに
こんにちは、きまま / Easygoing です。
AI は 50億もの画像データから学んでいます。
その知識をうまく引き出すことができれば、私たちはもっと魅力的な写真が撮れるようになるのではないでしょうか?
アニメ構図の記事は前に書いた
以前、アニメの構図をイラストに活かす方法について記事を書きました。
今回は、その時に気づいた点をもう少し掘り下げてみたいと思います。
お題:苺のショートケーキ
最初のお題は、食欲の秋にぴったりの苺のショートケーキです!
画像生成AIの SDXL / Flux.1 について、3つのモデルを比較してみます。
SDXL:前世代モデル、完成度が成熟
Flux.1:新世代モデル、リアルな質感に優れる
モデルによって、どのような特徴があるのでしょうか? 今回はイラストと一緒に明るさのグラフも見てみます。
SDXL - anima_pencil-XL_v500 (アニメ)
SDXL のアニメモデル
表情や柔らかさの表現が得意
キャラクターの顔を明るく描写
アニメモデルは、グラフの右側の明るい部分が多くなっています。
アニメモデルでは、全体が 明るくポップ なイラストに仕上がります。
おしゃれなカフェのメニューに載っていたら、なんだか注文したくなるイラストです!
SDXL - RealVisXL_V5.0 (実写)
SDXL の実写系モデルの最高峰
FP32形式 13.6 GB
推奨 50 STEP のスーパーモデル
RealVisXL は SDXL の実写系の最高峰モデルです。最新版は 2024年9月にリリースされていて、モデルの容量やステップ数からそのレベルの高さが伝わってきます。
前世代の SDXL モデルにも関わらず、ケーキのスポンジや苺の切り口など、質感がとてもリアルに表現されています。
明るさは 黒が強調されていて、コントラストが強く写真全体が引き締まった印象 になります。
Flux.1 - FluxesCore-Dev_V1.0 (実写)
最新の Flux.1 [dev] の実写系モデル
「Japanese」と入力すると人物がアニメ化する問題を修正
追加学習を行って特にアジア人の描写に優れる
FluxesCore シリーズは、とーふのかけらさん制作の Flux.1 のフォトリアル系モデルです。
FluxesCore シリーズのうち、FluxesCore-Schnell モデルはメンバー限定配信ですが、FluxesCore-Dev モデルは無料で公開 されています。(商用利用は不可)
Flux.1 はショートケーキのイメージが少し日本人のイメージと違うようですが、質感と立体感の表現はさすがです。
明るさの分布はグラフの 中央部分が多く、実物に近い分布 になっています。
Flux.1 は地味?
3つの写真を比べると、最新のモデルにも関わらず最後の Flux.1 の写真は地味に感じます。
これは写真のコントラストが低いので、パッと見たときに目に映るインパクトが少ないからです。
コントラストは補正できるが・・・
Flux.1 の写真はコントラストが低いですが、オリジナルに忠実なので補正することができます。
ただし、この場合の補正は RAW 現像と違って PNG に対して行うので、もともと無い情報は復元できませんし、補正するにたびに情報は失われていきます。
コントラストが低い写真は自然な表現として良いのですが、やはり見た目に映える写真にするには、AI による生成段階での明るさ補正 が欲しいところです。
Flux.1 でアニメ構図と明るさを再現する!
さて、ここからが本題です。
今回は、成熟した SDXL モデルの構図と明るさを、最新の Flux.1 で再現するワークフローを考えます。
ここでは、構図を固定するために controlnet の depth(深度情報)を使うことにします。
動作確認モデル
FluxesCore-Dev_V1-Q_8.gguf (flux_tool で FP16 から作成)
上のモデルのうち、FluxesCore-Dev は商用利用不可 のモデルです。
なぜ RealVisXL を挟むのか?
今回は、アニメモデルから Flux.1 に直接深度情報を渡すのではなく、SDXL の実写モデルの RealVisXL を挟んでいます。これは次の考えから来ています。
RealVisXL の明るさを取り入れる
Flux.1 の controlnet モデルはまだ登場から日が浅いので、SDXL モデルの方が信頼性が高い
Flux.1 は VRAM の使用量が多いので、controlnet を VRAM の余裕があるSDXLで動作させる
Girl を描いてみよう!
それでは、実際に描いてみます。アニメ構図を再現するために、プロンプトに dutch angle と close up を入れておきます。
realistic, photorealistic, girl, teenage, dutch angle, close up
anima_pencil-XL
きれいな栗色の髪の女性が生成されました。anima_pencil-XL はアニメモデルですが、実写の表現も優れています。
ただし、アニメモデルの特徴で目が大きいのと、実写で使うには明るさ補正が強いので全体が明るくなっています。
depth (深度情報)
先ほどの画像から得た深度情報です。青色が手前、赤色が奥になります。
RealVisXL
深度情報をもとに実写モデルで画像を生成します。画像生成AI のあるあるで、プロンプトで指定しないと多くの場合 金髪の女性 のイラストになります。
構図は深度マップの通りになり、目が小さくなって明るさもリアルな写真寄りになりました。
FluxesCore-Dev
最後に Flux.1 で再描画して高解像度化します。
FluxesCore シリーズはアジア人の表現を得意にしていますが、今回は比較のために金髪のまま描写します。
Flux.1 の全体の質感や立体感はさすがです。
一方で、肌の自然な表現 については、今のところ成熟した SDXL モデルに軍配が上がります。
作例をドドン!
それでは作例集です。
上:SDXL → Flux.1 アニメ構図
下:Flux.1 オリジナル
果たして、アニメモデルからどのような構図が出てくるのでしょうか?
パリの街並み
教会のステンドグラス
精巧なジオラマ
空港で行き交う人々
日本の路地
着物の女性
料理人
競馬
摩天楼のカップル
サイバーパンクの少年
アニメ構図には動きがある!
アニメモデルの構図は大胆で、イラストに動きが生まれます。
それに対して、Flux.1 のオリジナルのイラストは対象を正面から捉えた構図で重厚感があります。
それぞれ、「動」と「静」を表現したいとき に応じて使い分けるのが良さそうです。
明るさは SDXL が使いやすい
明るさについてみると、SDXL を通した画像は明るくコントラストが強くなるように補正されていて、生成した画像をそのまま使うことができます。
私たちが、プロンプトの調整や出来上がった写真の補正にかけられる時間は限られているので、前世代モデルの SDXL を通して完成に近い画像がすぐに得られる のは大きなメリットです。
Flux.1 の質感はさすがですが、使い勝手はまだ SDXL に分があるといえそうです。
まとめ:AIを教師として使おう!
アニメモデルは構図が多彩
SDXL は完成度が高い
controlnet で Flux.1 に応用
AI は、人間が到底学習できない 50億 もの画像データから学んでいます。
また、それぞれのカスタムモデルには製作者のセンスが凝縮されています。
今回の取り組みを通して、AI に構図のアイディアをもらう という新しい使い方ができると思いました。
私は、普段はアニメイラストを生成していますが、SDXL / Flux.1 ともに実写系の表現力が高い ことも再認識しました。
画像生成AIは、まだまだ興味が尽きません。これからも探求を続けたいと思います。
最後までお読みいただきありがとうございます!
御礼
この記事を、K_Kameno さんにご紹介いただきました。
AI を教師として使うことについて、示唆に富んだ分析をされていて、とても参考になります。
モデル紹介
anima_pencil-XL_v500
RealVisXL_V5.0
FluxesCore-Dev_V1.0
DepthAnything-V2
参考書籍
先読み!画像生成AI インプレス 2023年3月
名画から学ぶ 写真の見方・撮り方 東京カメラ部 2022年10月