【AMD Amuse】モデル評価 - 最高品位タイプ
AMD Amuseのモデルについて、勝手に4つのタイプに分類して、各モデルを評価しようということになりました。
今回はその4回目で最終回、最高品位タイプです。1024x1024での出力を行うモデルのうち、生成時間が100秒を超えるモデルです。
モデルの評価には、共通して次のプロンプトを使用しました。今回対象のモデルのうち、対応しているモデルはネガティブプロンプトも指定します。
プロンプト
ultra quality, realistic photo, a Japanese woman, casual, city, fingers, flower
ネガティブプロンプト
extra fingers, extra hands, , extra hands, extra arms, extra legs, missing fingers, missing hands, missing arms, missing legsextra arms, extra legs, missing fingers, missing hands, missing arms, missing legs
評価観点は🌈全体、👧日本人女性、👗カジュアル、🏡街、🖐指、🌸花の6点で、本文中にこれらのアイコンを示します。また、参考生成時間も掲載します。評価基準の詳細、および測定環境のスペックは、上記「AMD Amuseモデルの分類」の記事を参照してください。
前回までの高速タイプ、通常タイプおよび高品位タイプの記事はこちら。
モデル別出力結果(最高品位タイプ)
評価用プロンプトを用いて、高品位タイプに分類した各モデルにおいて生成できた画像を、紹介します。
AMD Amuseのウリのひとつである次のモデルは私の環境で動作させることができなかったため除外しています。すみません。
StableDiffusion 3.5
StableDiffusion 3.5 Turbo
StableDiffusion 3.5 Medium
FLUX.1-schnell
写真はひとつのモデルにつき2枚+1枚ずつ掲載します。1枚目はなるべくプロンプトの内容に忠実な描画が行えたもの、2枚目は一部に乱れや不具合があってもモデルの特徴を表現できているもの、であると私が判断したものを選びました。
さて、3枚目は、このタイプの描画はどれも素晴らしくシンプルなプロンプトでは差が付かなかったため、次のプロンプトによる生成画像を追加しました。(ネガティブプロンプトなし)
プロンプト
a smiling young Japanese woman, wearing in a light blue wedding dress, in a church with stained glass windows, raises her bare hand above her head, holds a bouquet of red roses, close up of her face
モデルごとの特徴的なことを評論家的に説明していますが、いかんせんシロウト目線ですので的が外れていたらすみません。プロンプトが悪い可能性は十分にありますので、たまたまこのプロンプトではこうなった程度の生成画像にあれこれ言うのは見当違いかもしれませんが、率直な意見を述べたいと思います。
なお、評価はタイプごとになりますので、あるタイプの⭐評価が他のタイプの✅評価より優れているとは限りません。ご了承ください。
第4位 Zavy Chroma XL
ネガティブプロンプト指定 : あり
参考生成時間 : 102.8s
ライセンス制限 : なし
女性の顔は好みの問題があるので評価しないようにしていますが、この女性は若干眉毛にインパクトがありますね。あとは光の当たり方で損をしているのか、人物の評価を落としています。
手はおそらく50回ぐらいは試しましたが、どうしても上に挙げてくれませんでした。たとえ上に挙がっても正しく5本指で描画されるか不安でした。
このタイプに限ると最下位ですが、ほかのタイプと比べると描画内容は格上です。すべてのモデルの中ではかなりの上位ですので、誤解のないように。
🌈 メリハリのある描画だが光の具合が不自然✅
👧 少し誇張している感じで、ややイラスト風✅
👗 レースと光沢感のある素材の表現が秀悦⭐
🏡 描画は悪くないが、もっと描きこんでも良い✅
🖐 頭の上に手をどういても挙げてくれない➖
🌸 少しぼんやりするが色も形も好印象✅
第3位 Copax TimeLess XL
ネガティブプロンプト指定 : あり
参考生成時間 : 103.7s
ライセンス制限 : なし
このモデルもなかなか手を挙げないので評価に苦労しました。やっと手を挙げたと思ったら引きの絵になってしまい、細かい描画が行えているのか判別できないなど。プロンプトの再現性にやや難ありという評価になってしまいました。
シード値で損しているだけかもしれませんが、とにかくプロンプトの内容が反映されないことが多い感じでしたので、思い通りの描画が行われないのは評価が低いです。
あと、このモデルも眉毛がちょっと濃いです。
🌈 全体は良いが指示が無視されることが多い✅
👧 近影が少なかったので詳細が見えない✅
👗 シンプルな服だが描画内容は好印象⭐
🏡 ステンドグラスは優秀で、調和性も良い⭐
🖐 成功率は悪くないが手をなかなか挙げない✅
🌸 人物と比較すると瑞々しさがやや不足気味✅
第2位 Fluently XL Final
ネガティブプロンプト指定 : あり
参考生成時間 : 102.3s
ライセンス制限 : なし
寄りの絵の出力が少なかったために評価を落としているかもしれませんが、たくさん生成しての結果ですのでご了承ください。
寄ってくれたときの顔の描画は悪くないので、それに特化したプロンプトであれば1位を狙えたモデルだったかもしれません。
花や背景の描画も素晴らしいので、なかなか優秀なモデルと言えそうです。
🌈 明るめの雰囲気だがかなり最高級な描画⭐
👧 陰影と表情は良いが寄りが少ないのが残念✅
👗 素材、透け感は良いが形状に少し違和感✅
🏡 暗い雰囲気が和み、窓が強調されて良い⭐
🖐 手の表現は良いが若干成功率が低い感じ✅
🌸 本物の花のような形と、色鮮やかな描画⭐
第1位 iNiverse Mix XL
iniv |iNiverse Mix XL |あり|102.2s||⭐|⭐|⭐|✅|⭐|✅|人物描画の王者
ネガティブプロンプト指定 : あり
参考生成時間 : 102.2s
ライセンス制限 : なし
光の当たり方による陰影の表現、全体のやわらかい雰囲気をうまく描画できています。
特に、人物の肌の描画がとても自然な感じで素晴らしいモデルです。クローズアップされた画像が生成されたときは、ドキっとするような表情です。
現実的写真にふさわしい画像を生成できるモデルとして、王者に君臨できる実力です。
🌈 全体は鮮やかで明るい雰囲気で、細かさもある⭐
👧 顔に関しては完璧で、アップも全く問題なし⭐
👗 ドレスの透け感と細かい細工の表現が優秀⭐
🏡 プロンプトの内容を的確に表現✅
🖐 ちゃんと手を挙げて、描画がきれいでした⭐
🌸 色鮮やかで存在感あり、形はやや造花っぽい✅
最高品位タイプのまとめ
今回はどのモデルもライセンスの制限がなく、さらに生成時間の違いも誤差範囲ですので、まさに描画内容だけの勝負になりました。シード値による運要素は残るものの、結果はどの生成結果も優秀で、均衡した勝負を展開してくれました。
一応順位はつけましたが、自分の好きなモデルを使う、または気分によって適当なモデルを使う、で良いのかもしれません。どのモデルも時間が100秒超えですので、穏やかな気持ちで生成されるのを待つような使い方が向いています。
最高品位タイプのモデルをランク順にまとめた一覧は次の通りです。
N/P はネガティブプロンプトの有無です。
Elap. は測定環境における生成時間です。
Limit はライセンスによる制限事項です。🖊は「要クレジット表記」、🚫は「画像の販売禁止」です。
🌈全体/👧日本人女性/👗カジュアル/🏡街/🖐指/🌸花は各評価項目です。5段階(💩❌➖✅⭐)で評価しています。
次回予告
4つのタイプについては今回で完結とさせていただきますが、次回から何をしようか思案中です。
AMD Amuseで1枚ずつではなく、たくさんお画像を自動で生成する方法など、運用について説明しようかなと思っています。
他に、こんなこと説明してほしいとかありましたらコメントいただけると嬉しいです。
おまけ1
ウェディングドレスのプロンプトを用いて、最高品質タイプ以外のタイプで1位になったモデルによる出力を紹介します。
高速タイプからは「CyberRealistic LCM」、標準タイプからは「unStable Illusion」、高品位タイプからは「DreamDiffusion XL」による生成です。
この記事を書くために最高品位タイプでばっかり生成していたから、これらのタイプの生成時間の短さに感動です。
おまけ2
最高品位タイプの4モデルについて、「女性と狐」のプロンプトによる生成。ネガティブプロンプトはあまり効果がなさそうですので、今回はなしとしました。
プロンプト
ultra quality, realistic photo, a Japanese woman and a brown fox