見出し画像

【生成AI】AI画像とAI動画に関して①

※自分自身の備忘録かねてなので乱筆・駄文にご容赦願います。(ってどうせ数人しか読まへんやろ)

2024年9月5日。

最近は画像生成AIでいわゆる「AI美女リアル」を追求したり、動画生成AI(基本的にrunway Gen3 AlphaとMiniMaxのhailuoai)を触って色々試しています。

まず、画像生成AIでの「AI美女リアル」

こういうAI画像です。

ただ、AI画像自体、人それぞれ好みがありますし、”何をもってリアルとするのか・しているのか”という基準もおそらく生成する側・観る側それぞれあるのかなと。

で、こういった「AI美女リアル」画像を追及というか生成していると、ふと最近感じたことがあります。

画像生成AIで生成した実写系の人物画像って、アップスケールしたらパっと見は綺麗だけど、拡大したりよく見ると機械的なテカリやツルツルさとか色々と粗があって偽物感が出やすいなーと。(中にはアップスケールしてもバッチリ!なケースも有)

でもアップスケールしなきゃ小さな生成画像なんてそれも拡大したら粗が見えるし困ったもんだなと。

もう少し掘り下げていうと、生成された実写系の画像はパっと見では綺麗に見えることが多いですが、拡大したり、ディテールに注意を払うと、人工的な要素や不自然な光沢、繊細さに欠ける部分が目立つことがあります。

これは、AIが完全に現実的なディテールを再現するのがまだ難しいためだと、私は解釈しています。

一方で、生成画像をアップスケールしなければ、元のサイズが小さくなるため、解像度が低くなり、粗さが目立ってしまいます。

これも悩ましいところです。

AI技術は進歩しているとはいえ、まだ完璧には程遠い部分があり、特に実写系の画像ではその限界が感じられます。

でもこの辺が上述したように、こと「AI美女リアル」画像においては何をもってリアルとするのかにも関わってくることだなと。

「いやぁ、これはAIっぽさもないし凄い」と思う人もいれば、「画質も綺麗だけど、いかにもAIって感じだね」と思う人もいるでしょう。

↓の画像は、Stable Diffusionで1年ちょっと前に生成した古い画像です。

画像①:514×713

この画像を4K画像にアップスケールすると

画像②:4112×5704

アップスケールしたAI画像は、パっと見よく出来てるというか、まあ綺麗に感じられるかもしれません。

ただ、拡大すると、ここまで書いてきた内容がより理解してもらえるかと思います。

↑画像①を拡大すると

画像①:514×713拡大
画像②:4112×5704拡大

このように、アップスケールを施すと、”AIっぽい”というのか人工的だという粗を露呈してしまいます。

パッと見はイイのですが、実際に拡大して詳細を確認してみると、画像の解像度やディテールに差異が見られるケースがほとんどです。

リアル系のAI画像をアップスケールした際に、主に顔が「テカテカ」「ツルッツル」になる現象は、AIによる処理の限界が現れている可能性があるのかなーと。

拡大すると、特に人物の顔や肌の質感が過剰に滑らかになり、不自然に感じることがあります。これは、AIが元々持っているデータや情報が不足している場合や、詳細を生成する際のアルゴリズムによるものなのだろうと。

このような場合、あまり大きなサイズにせず、適度な解像度に留めることが、リアリティを保つ上で効果的なのでは?

特に、顔の表情や肌の質感が重要な画像の場合、この点を意識して調整することが推奨されるような気がしてる今日この頃です。

もう少し専門的に言うと

アップスケールによって「唇の周り」や「髪の毛(特に毛先)」がツルツル、テカテカになるというのは非常に典型的な現象なんです。

AIが生成した画像では、解像度を上げることでディテールが失われたり、過剰に滑らかになることがあります。

これは特に、顔のパーツ、例えば唇や髪の毛に顕著です。

アップスケールを行う際、AIは「補完」を行いますが、その結果として自然な質感やディテールが失われ、光沢感が不自然に強調されてしまうことがあります。

具体的には、唇の周りの影や微妙な質感が、本来のリアルなディテールよりも過度にソフト化され、滑らかすぎる仕上がりになりやすいです。

また、髪の毛の毛先もアップスケールの過程で微細なディテールが滑らかにされ、艶が出すぎたり、髪の繊細な流れが不自然になることがよくあります。

解決策としては、特定の用途や距離で使用することを前提に、画像を選んで使うことや、場合によってはAI画像を手動で修正を加えることで、より自然な仕上がりにする、といったことが考えられます。

SNSにアップする際は、適切な解像度を選択するのが良いのかなーと。

例えば、816×1456のような中間解像度は、ディテールが保たれつつも、AIの過剰な補完による「ツルツル・テカテカ感」を抑えるために効果的だと感じてます。拡大すると粗は出ますが、その粗は人工的というよりは、実際の本当の写真を拡大するのと近いくらい自然な粗さ。

また、一部のAIツールでは、アップスケール機能を使用する際に、補正やフィルタリングを設定できることがあり、これを調整することで、質感のオーバー補完を抑えることが可能だとは思います。

手動で修正を加えるという観点では、AI画像をアップスケール後にPhotoshopや他の編集ツールでディテールを修正することで、不自然な部分を手動で調整することも効果的なのかなーと。

AI画像は、そのままでは全ての場面で完璧ではないので、少しの工夫や調整が必要になることが多いです。

ここまでをまとめると

AI画像、特に実写系のリアルな人物画像において、アップスケールして高解像度にすると、最初の印象は「すごく綺麗で高画質」に見えることが多いですが、拡大すると顔やディテールが不自然に滑らかで「偽物」っぽいという問題がよくあります。これは、AIが細かいディテールを完璧に再現できず、肌や表情が過剰に滑らかになる「プラスチック感」が原因です。

(816×1456などの)中間的な解像度が実際にはバランスが取れている場合が多いです。このサイズは、ディテールをしっかりと保ちながら、過剰な滑らかさや不自然なテクスチャの問題を避けやすい解像度なのではないかと。

画像生成AIは、あくまで”生成”する技術なので、元のデータが不足している場合、アップスケールを施してもリアリズムが崩れてしまうことが多々あります。

そのため、リアルさを追求する場合は、無理に高解像度にアップスケールするよりも、適度な解像度に抑えた方が自然で見栄えが良いことが多いなーと。

尤も、この”バランス”を見極めることが、AI画像の効果的な利用には重要なんだろうと考えています。


最後に、816×1456と私が中間解像度として考えているAI画像の「AI美女リアル」がこんな感じです。

↑の2枚とも同じプロンプトで生成したものです。生成はMidjourneyで、私好みに反映するべくトレーニングを積んでの生成結果です。

プロンプトは実は2枚ともまったく同じ、以下のプロンプトがベースになっています。

Photo of an attractive Japanese woman 's selfie, with  bob hair.lying on her bed in the morning.movie boost.kawaii.no make.

まだ少し、自撮りというよりは、ある程度腕のあるカメラマンが撮影した感があるので、まだまだ引き続き私の考える「AI美女リアル」、いや、「AI美女リアルガチ」を追求したいところです。


今回、自分自身が学んだことをサクサクっと備忘録的な感じで残そうと書き出したんですが、続けてAI動画のことを書くとだいぶ長くなってしまうので、AI動画については次に書きます。

ここまで読んでいただいた方、有難うございました。




この記事が気に入ったらサポートをしてみませんか?