aesthetic predictor-v2.5/ComfyUI x GPT壁打ちで、画像レベルが上がるのか試してみた
生成画像に客観的な評価をつけるとどうなるか?
その様な方法の一つとして上記のcomfyUIのカスタムノードがあります。
これを利用するのはとても簡単で、カスタムノードをインストールして実行するだけというものです。
※Paperspaceで使用する際は依存環境の相違の影響かインストールするとうまく起動しなくなる場合があります。
以下のコマンドをしてから立ち上げ直す必要があります。
# CUDAおよびCuDNNのインストール
!sudo apt-get update
!sudo apt-get install -y nvidia-cuda-toolkit
!sudo apt-get install -y libcudnn8 libcudnn8-dev
# PyTorchの再インストール
!pip uninstall -y torch
!pip install torch==2.0.0+cu118 torchvision==0.15.0+cu118 torchaudio==2.0.0+cu118 -f https://download.pytorch.org/whl/torch_stable.html
# 環境変数の設定
import os
os.environ['LD_LIBRARY_PATH'] = '/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:' + os.environ.get('LD_LIBRARY_PATH', '')
内容としては、生成した画像を1-10点で採点するというもののようです。
ワークフローは上の様にイメージに繋げて、show textで数値を出すという、簡単に導入出来るものです。
注意点:この解析をするモデルが3.5GBあるため、容量の余裕が必要になります。
この機能を用いて、高得点が取れればいい画像ということになるかもしれないので、それをGPTさん壁打ち方法で試してみたという内容になります。
※別記事にあるOmostを使用する方法の方が簡単です。。。
この方法は、Omostを使用しない場合のチャレンジになります。
どれだけ意味があるか分かりませんので、ご了承ください。
試してみた所、なぜかアップスケールした画像の方が点数が低くなったりする場合があるのと、人物は小さい方が点数が高くなる傾向がありました。
今回は背景描写が苦手なポニー系のモデルを使用していますので、そのあたりも関係しているかも知れません。
以下のプロンプトに同じ品質系のプロンプトを追加
方法 ⇒ GPTに聞きながらやる
GPTのプロンプトを検討してみました。
Stablediffusionのcomyfuiのカスタムノードで以下のものがあり、生成画像を評価しました。
<Aesthetic Predictor V2.5>Aesthetic Predictor V2.5 is a SigLIP-based predictor that evaluates the aesthetics of an image on a scale from 1 to 10.
これは、画像の要素を機械学習したモデルを通じて美的評価を行うものです。
添付した生成画像と得点と生成時に使用したプロンプトから、より高得点となるような改善点を指摘して、以下の手順に沿って、プロンプトを再構築して
<手順①>
生成画像を分析して以下の項目に関して評価を行い、改善点を挙げる。
①背景のディテール: 自然で詳細な背景を提供する。
②キャラクターのディテール: 自然で詳細なキャラクター描写。
③光と影のコントラスト: 効果的な照明と陰影のバランス。
④環境とのインタラクション: キャラクターが環境と相互作用している様子を強調。
⑤全体的なバランス: 色調、コントラスト、ディテールの全体的なバランスを保つ。
<手順②>
生成時に使用したプロンプトを要素に分けて整理し、それぞれに①で検討した内容を反映させる。
<手順③>
Stable dissuionで使用できる自然言語を用いたプロンプトを生成しなおす。
<生成した画像の得点> 5.34375点
<生成した画像のプロンプト>
1girl, young child, japanese, black hair, long hair, big eyes, smile, small breasts, red summer dress, bare foot, natural and detailed appearance, soft and smooth skin texture, beautiful landscape in the background, summer, blue sky, sea with gentle waves,
以下、生成された画像をさらにGPTさんに修正依頼したものです。
修正されたプロンプトに一部付け加えて生成した画像です。先ほどと同様に高得点になるように修正点を検討して
<生成した画像の得点> 6.71875点
<生成した画像のプロンプト>
1girl, young child, Japanese, upper half body, black hair with intricate texture, long hair, big expressive eyes, warm smile, small breasts, detailed red summer dress with patterns, barefoot, natural and highly detailed appearance, soft and smooth skin texture, engaging with environment by holding a flower, standing in a vibrant and detailed landscape with flowers, detailed mountains, and a vibrant sunset sky, dynamic lighting with sunrays and pronounced shadows for depth, summer, blue sky with gradient, sea with gentle waves
修正されたプロンプトに一部付け加えて生成した画像です。先ほどと同様に高得点になるように修正点を検討して
<生成した画像の得点> 6.625点
<生成した画像のプロンプト>1girl, young child, Japanese, upper half body, black hair with intricate texture moved by wind, long hair, big expressive eyes, warm smile, small breasts, detailed red summer dress with intricate embroidery and texture, natural and highly detailed appearance, soft and smooth skin texture, engaging with environment by holding a flower and looking towards the horizon, standing in a vibrant and detailed landscape with flowers, detailed mountains, vibrant sunset sky, distant birds, rainbow, detailed reflections in water, dynamic lighting with sunrays, lens flares, and subtle shadow gradients for depth, summer, blue sky with gradient, sea with gentle waves
修正されたプロンプトに一部付け加えて生成した画像です。先ほどと同様に高得点になるように修正点を検討して
<生成した画像の得点> 7.46875点
1girl, young child, Japanese, upper half body, black hair with intricate texture moved by wind, long hair, big expressive eyes with reflections, warm smile, small breasts, detailed red summer dress with intricate embroidery and texture, natural and highly detailed appearance, soft and smooth skin texture, engaging with environment by holding a flower and interacting with a butterfly, standing in a vibrant and detailed landscape with various types of flowers, detailed mountains, vibrant sunset sky, distant birds, rainbow, more intricate water reflections, dynamic lighting with enhanced sunrays, more pronounced lens flares, and deeper shadow gradients for depth, summer, blue sky with gradient, sea with gentle waves, wildlife elements like birds in flight or a deer in the background
修正されたプロンプトに一部付け加えて生成した画像です。先ほどと同様に高得点になるように修正点を検討して
<生成した画像の得点> 5.90625点
1girl, young child, Japanese, upper half body, black hair with intricate texture moved by wind, long hair, big expressive eyes with reflections, warm smile, small breasts, detailed red summer dress with intricate embroidery and texture, natural and highly detailed appearance, soft and smooth skin texture, engaging with environment by holding a flower and interacting with a butterfly on her hand, standing in a vibrant and detailed landscape with various types of flowers, detailed mountains, vibrant sunset sky with diverse cloud formations, distant birds, rainbow, more intricate water reflections, dynamic lighting with enhanced sunrays, more pronounced lens flares, deeper shadow gradients for depth, summer, blue sky with gradient, sea with gentle waves, wildlife elements like birds in flight, a deer in the background, and a distant cottage or waterfall
まあなかなか難しいことが分かりました。
修正されたプロンプトに一部付け加えて生成した画像です。先ほどと同様に高得点になるように修正点を検討して
<生成した画像の得点> 5.4375点
1girl, young child, Japanese, upper half body, black hair with intricate texture moved by wind, long hair, big expressive eyes with reflections, warm smile, small breasts, detailed summer dress with intricate embroidery and texture, natural and highly detailed appearance, soft and smooth skin texture, engaging with environment by holding a bouquet of flowers and interacting with a butterfly on her hand, standing in a vibrant and detailed landscape with various types of flowers and greenery, detailed mountains with enhanced textures, vibrant sunset sky with diverse cloud formations, distant birds, rainbow, more intricate water reflections, dynamic lighting with enhanced sunrays, more pronounced lens flares, deeper shadow gradients for depth, summer, blue sky with gradient, wildlife elements like birds in flight, a deer in the background, and a distant river or pathway
個人的な感想としては、GPTさんが低い点数を提示した場合に、高かったパターンを混ぜ込んで生成したりしました。
同じモデルを使用していますがOmostの方が良い画像を出力している気がします。点数を見るとそれほど変わりませんでしたが。。。。。
ということでした。
点数を確認してみたところ、縦長の画像の方が良い点数になっている傾向があり、全身が映っている方が評価が高くなっている可能性もあります。
この記事が気に入ったらサポートをしてみませんか?