
Stable Diffusionを使ったイラスト作成の記録(13) ~ 画質タグの効果を検討 ~
前回の記事
シリーズ一覧
Layered Diffusion Pipelineを使うためのリンク集
ライブラリの入手先と使用法(英語) : Githubリポジトリ
日本語での使用方法の解説 : Noteの記事
今回やること
前回の記事で選んだポジティブ画質タグの影響を、生成画像を見ながら検討していきます。その際、これまでとは違って、画質タグの影響だけに絞って調査するために、これまで使っていた下絵やプロンプトを使わず、ほぼ画質タグだけを用いて画像生成を行います。
なお、この分析は使用するモデルによって大きく結果が異なると考えられます。今回の分析では、Anything V3.0を使用しています。
スクリプト
そのため、スクリプトはこれまでのものとは異なり、次のものを使います。
# スクリプト(13-1)
negative_quality_tags = "" # ネガティブ画質タグ
start = 1.0
positive_tags = "" # ポジティブ画質タグ
images = pipe(
num_steps=30,
size=image_size,
rand_seed=rand_seed,
iterate=Layer(
prompt=using("1girl", until=start).then("1girl " + positive_tags),
negative_prompt=negative_quality_tags,
),
)
negative_quality_tagsには、これまで使ってきたネガティブ画質タグを使います。startとpositive_tagsは実験パラメータで、ポジティブ画質タグ(positive_tags)をstartから適用します。またプロンプトには、人物が生成されるように"1girl"を全生成工程で含めるようにしています。
ポジティブ画質タグ
ポジティブ画質タグの影響をさらに細かく分析するため、タグのリストの独自部分を前半と後半に分割します。
# 共通部
"""
outdoors,
sunny,
spring,
wind,
hdr,
ambient light,
sunlight,
full body,
looking at viewer,
"""
# カラー挿絵イラスト風 - 前半 = 「イラスト風&高精細」
"""
novel illustration,
official art,
8k wallpaper,
extremely detailed
highres,
"""
# カラー挿絵イラスト風 - 後半 = 「標準レンズ&光にじみ」
"""
SIGMA 85 mm F/1.4,
bloom effect,
"""
# カラー手書きスケッチ風 - 前半 = 「スケッチ風&色彩」
"""
colored pencil,
watercolor,
sketch,
millipen,
colorful,
"""
# カラー手書きスケッチ風 - 後半 = 「広角レンズ&陰影&粒子」
"""
SIGMA 24 mm F/1.4,
beautiful glow,
dramatic shadow,
light particles,
"""
そして、独自部分のタグは次の4つの組み合わせで画像生成します。最初と最後の2つが、大元のカラー挿絵イラスト風とカラー手書きスケッチ風のタグの組み合わせになります。
イラスト風&高精細 + 標準レンズ&光にじみ + 共通部分
イラスト風&高精細 + 広角レンズ&陰影&粒子 + 共通部分
スケッチ風&色彩 + 標準レンズ&光にじみ + 共通部分
スケッチ風&色彩 + 広角レンズ&陰影&粒子 + 共通部分
生成画像一覧では、これらのタグは次の図のように配置されています。

全行程で適用した結果の生成画像






上段と下段を比較
上段と下段は、タグの前半部分に違いがあります。この2つのグループの間には、一目見て気づくほど大きな違いが見て取れます。目につくところを挙げると、次のようになります。
上段は、人物の特に衣装のデザインが細かく複雑で、面積が広い。
下段の方が、やや色彩が豊かな傾向でくっきりしている傾向にある。
絵のタッチは上下で大きな違いは見られない
この違いは、タグを選んだ時の想像とは大きく異なります。
おそらく高精細を示すタグ(8k wallpaper, extremely detailed, highres)は想像していたような繊細な絵のタッチではなく、デザインの細かさや複雑さに影響を与え、1.のような結果になったのではないかと予想しています。
対して、色彩を示すタグ(colorful)は、予想通りに色彩を豊かにして2.の結果を導いたのではないでしょうか。
挿絵イラストを示すタグ(novel illustration, official art)や手書きスケッチを示すタグ(colored pencil, watercolor, sketch, millipen)は、あまり期待するような効果はなかった可能性があると思いました。
左列と右列を比較
左列と右列には、タグの後半部分に違いがあります。この2つのグループの間には、上段と下段ほどの分かりやすい差異の傾向は見られませんが、生成画像に変化が見られます。目につくところを挙げると、次のようになります。
右の方が影がやや濃い
背景のボケ感に大きな変化はない
光の効果や光の粒子の量に大きな変化はない
はっきりとした傾向として指摘することができるのは、影の濃さだけではないかと思われます。これはdramatic shadowのタグに関係していると思われます。
0.7以降で適用した結果の生成画像






画像の類似性
全行程でポジティブ画質タグを適用した場合と比較して、strength=0.7でポジティブ画質タグを適用した時は、画像の基本的な構成に大きな差が生まれていないことが分かります。これは、第8回でネガティブレイヤーを導入した時の観察とも一致します。
画像の相違点
しかし、基本的な構成が一致していたとしても、各画像の間には誤差とは言えないレベルの大きな差が生まれていることも確かです。
まず上下の比較ですが、上が細かく複雑なデザインになり、下が色彩が強いという特徴は維持されているように思われます。さらに加えて、上の画像には金色が多く使われているという特徴もあるようです。
左右の比較については、右の方が影あるいは暗い色が増え、白い部分が減っているという特徴が現れています。白い部分が減っているというのは、単純に衣装の白い布の面積が減って、他の色の布や肌に置き換わっているという変化が起きています。
タグの内容を減らして生成画像を比較
上記の観察結果をさらに確認するため、タグを交換する代わりに、一部のタグを削除して比較してみます。
まず、最も効果が不明瞭だった次のタグをそれぞれのポジティブ画質タグから減らして画像を生成します。(1)
カラー挿絵イラスト風から削除
novel illustration,
official art,
SIGMA 85 mm F/1.4,
カラー手書きスケッチ風から削除
colored pencil,
watercolor,
sketch,
millipen,
SIGMA 24 mm F/1.4,
light particles,
次に、そこからさらに効果がややあいまいだった次のタグを減らして画像を再度生成します。(2)
カラー挿絵イラスト風から削除
bloom effect,
カラー手書きスケッチ風から削除
beautiful glow,
元の生成画像と(1)の生成画像、(2)の生成画像を上段から下段に順に並べて比較します。
生成画像






縦の列ごとに比較すると、それぞれ類似点があり、ある程度予想した要素が残っていることが言えます。しかし、同時にかなり大きな変化も観察され、効果が不明瞭だったタグも生成画像に影響を与えていることが分かります。
何よりも問題として、タグの変更と生成画像の変化の関連が分かりづらく、どのようにタグを変えれば生成画像に望むような変化を起こせるのかが予測しづらい点が挙げられます。
まとめ
高精細タグ
8k wallpaper,
extremely detailed,
highres,
この3つの組み合わせの効果は比較的はっきりした変化を生み出すようです。主にデザインの細かさや複雑さに影響を与え、特に衣装の布の量が増え、儀礼的で豪華なものになるようです。
光と影、色合い
光や影や色合いに関するタグも、理解可能な変化を生み出すのではないかと思われます。ただし、確認された高い効果を持つタグのセットを突き止めるところまではできませんでした。
スケッチ風タグ
colored pencil,
watercolor,
sketch,
millipen,
これらのタグの中の1つ、あるいはいくつかの組み合わせが、高精細タグの反対にデザインの細かさや複雑さを抑え、衣装を質素なものに変える影響を与えている可能性があるのではないかと思います。しかし、これについては、今回十分に実験することができませんでした。
その他のタグ
しかし、その他のタグについては、タグの持つ辞書的な意味と画像に対して与える影響の関係が直感的でなく、どのようなタグがどのような画像の変化を生み出すかを事前に予測することが難しいように思われました。
適用開始のタイミング
ポジティブ画質タグを遅らせることで、生成画像の構図に大きな変化を与えることなく、画像の細部のみを変化させることができました。