Depth anything2/Negitoolsでステレオ画像を作成して立体視を試す/ComfyUI x Xreal Air
Xreal Airは、「1920x1080」の画像をside by sideにしたものに対応しています。
通常の画像生成で1920x1080は若干厳しいと言わざる得ないサイズですので、「1280x720」で生成するのが良さそうです。
ノード項目の説明
①「Divergence」:深度のことのようです。デフォルトが5.00です。ただ、webui版は2.5がデフォルトです。
Divergence の効果:
左側:小さい Divergence 値。左右の画像の差が小さく、穏やかな立体感を生み出します。
右側:大きい Divergence 値。左右の画像の差が大きく、強い立体感を生み出しますが、過度に大きいと目の疲労を引き起こす可能性があります。
②「stereo_offset_exponent」:左右の画像のずれ具合
Stereo Offset Exponent の効果:
左側:Exponent < 1 の場合。背景(青い四角)の立体感が強調されます。
右側:Exponent > 1 の場合。前景(ピンクの四角)の立体感が強調されます。
③「fill_techique」:左右のずれ具合を補完する技術の様。デフォルトが最新っぽい
①②については、作成された画像を見て、調整していく値になるかと思います。
txt2imgをした画像を変換するフロー例
こんな感じの画像が生成されます。
パッと見たらさっぱり違いが分からないかと思いますが、左右を重ねてみると結構違うことが分かります。
以下は、上半分が左、下半分が右の画像を重ねたものです。
ワークフローに関しては、生成された画像のIMAGEを以下のような流れに入れただけになります。
DepthAnything2については、最初に生成する際にモデルがダウンロードされるので時間がかかります。
ということで、生成されたステレオ画像については、前記事のXreal Airなどで見ることが出来ます。
<注意点>
①Depth anythingモデルの選択
「DownloadAndLoadDepthanythingv2Model」ノードを選択すると以下の一覧が出てきます。多い!!
Githubサイトを見ると、Depth anything v2は大きく分けて3つのモデルがあるようで、それが上の6つに相当するようです。
①「Depth-Anything-V2--Small」がvits_fp16, fp32に相当
②「Depth-Anything-V2--Base」がvitb_fp16, fp32に相当
③「Depth-Anything-V2--Large」がvitl_fp16, fp32に相当
④「Depth-Anything-V2--Large-Indoor」がmetric_hypersim_vitlに相当
⑤「Depth-Anything-V2--Large-Outdoor」がmetric_vkitti_vitlに相当
④⑤はファインチューニングされたものの様です。使用する状況が決まっている場合は屋内は④、屋外は⑤と使い分けるのが良いと思われます。
ただ、③よりも④⑤の方が生成に時間がかかり、 vram使用が多いです。paperspaceのA4000だと厳しい可能性があります。
一応、下に①から⑤の比較画像を載せておきます。
ということで、④⑤は他のと比較すると大きく異なることが分かります。
人物メインなら③で良い気がしますが背景も含めると④⑤になりそうです。
①-③は大きな差がこの画像だと出ませんでした。
②生成ミスが多くなる
1920x1080の大きさで生成する場合、通常生成と比較すると人物描写を含めて上手く出来ない場合が多いです。プロンプトでしっかり記載をする必要があります。例えばよくやるような、1girl, young girlみたいな記載をすると高い確率で2人になります。1280 x 720でも良い気がします。
別な方法として、img2imgもありますが、注意点として、そのまま行うと画像が中心に配置されないため3dになりません。
1024x1024の画像をそのまま生成すると以下のようになります。
生成されたものを3Dモードで見ると、上のように中央に寄せられてしまいステレオ画像としての効果がなくなります。
以下のように画面の中心になるように配置した1920x1080の画像に作成しなおすと問題ありません。
パワーポイントとかペイントソフトを使用して作成できます。
<感想>
通常の画像生成に飽きてきたら、こういう味付けも面白いと思います。
この記事が気に入ったらサポートをしてみませんか?