【AMD Amuse】モデル評価 - 標準タイプ
AMD Amuseのモデルについて、勝手に4つのタイプに分類して、各モデルを評価しようということになりました。
今回はその2回目、標準タイプです。
モデルの評価には、共通して次のプロンプトを使用しました。今回対象のモデルのうち、対応しているモデルはネガティブプロンプトも指定します。
プロンプト
ultra quality, realistic photo, a Japanese woman, casual, city, fingers, flower
ネガティブプロンプト
extra fingers, extra hands, extra arms, extra legs, missing fingers, missing hands, missing arms, missing legs
評価観点は🌈全体、👧日本人女性、👗カジュアル、🏡街、🖐指、🌸花の6点で、本文中にこれらのアイコンを示します。また、参考生成時間も掲載します。評価基準の詳細、および測定環境のスペックは、上記「AMD Amuseモデルの分類」の記事を参照してください。
前回の高速タイプの記事はこちら。
モデル別出力結果(標準タイプ)
評価用プロンプトを用いて、標準タイプに分類した各モデルにおいて生成できた画像を、ランキング形式で紹介します。
(私の環境にインストールしたもののみとなっています)
写真はひとつのモデルにつき2枚ずつ掲載します。1枚目はなるべくプロンプトの内容に忠実な描画が行えたもの、2枚目は一部に乱れや不具合があってもモデルの特徴を表現できているもの、であると私が判断したものを選びました。
また、モデルごとの特徴的なことを評論家的に説明していますが、いかんせんシロウト目線ですので的が外れていたらすみません。プロンプトが悪い可能性は十分にありますので、たまたまこのプロンプトではこうなった程度の生成画像にあれこれ言うのは見当違いかもしれませんが、率直な意見を述べたいと思います。
なお、評価はタイプごとになりますので、高速タイプの⭐評価が標準タイプの✅評価より優れているとは限りません。ご了承ください。
第9位 Stable Diffusion 1.5
ネガティブプロンプト指定 : あり
参考生成時間 : 13.8s
ライセンス制限 : なし
ある意味、世紀の傑作を生み出しているのかもしれませんが、現実的写真とはかけ離れた描画を行うモデルです。
今回は現実的写真の評価を行っているため、このモデルの評価は当然低くなります。
🌈 写真ではなくアートですので、今回は低評価です💩
👧 顔が描画されないのは奇抜、描画されても不気味💩
👗 服のセンスもサイケデリックで着こなしも雑過ぎる❌
🏡 写真のような描画をする気がさらさらない、やる気の問題❌
🖐 成功率は低空飛行、本数や形状の種類は四次元ポケット❌
🌸 なぜか花だけは最高品に仕上げてくる⭐
第8位 SDXL Turbo
ネガティブプロンプト指定 : なし
参考生成時間 : 11.6s
ライセンス制限 : なし
名前に「XL」が含まれていますが、1024x1024ではなく512x512の画像を生成するモデルです。どうやら学習は1024x1024ですが、生成は512x512ということらしいです。(違っていたらごめんなさい)
花は持たずに背景として出現することが多い気がします。
全体の雰囲気が水彩画っぽく、やたらと雑に描画されている印象です。
🌈 水彩画っぽい感じで、全体的に下手💩
👧 顔が粗ぶっていて、たまに老婆を生成する❌
👗 種類豊富だが、花柄が多い気がする➖
🏡 ボケ強めで、人物と調和できていない❌
🖐 無理な形状に挑戦することが多く、成功率が低い❌
🌸 花がメインになりがちだが大きな問題はない➖
第7位 Jib Mix Turbo XL
ネガティブプロンプト指定 : なし
参考生成時間 : 11.5s
ライセンス制限 : 🚫生成画像の販売禁止
なかなか良い雰囲気かと思いきや、左目の描画に必ず失敗する謎なモデルです。
全体の雰囲気も暗くぼんやりしていて、チェキのような仕上がり。
味があると言えなくもないですが、評価は低いです。
🌈 チェキっぽい感じ(画像が荒くくっきり感がない)➖
👧 ちょっと描画が荒っぽい、左目の描画が特に雑❌
👗 無難だが大きな特徴がない➖
🏡 ボケ感強めだが特に問題ないレベル➖
🖐 無理しちゃう感じで、結果失敗している❌
🌸 無難だが悪くはない印象➖
第6位 Fluently v4
ネガティブプロンプト指定 : あり
参考生成時間 : 13.4s
ライセンス制限 : なし
どこかで見た画風だと思ったら、「Fluently v4 LCM」のLCMなしのモデルでした。でも、こちらのほうが若干明るくなり、若干印象が良くなっています。
写真風かといわれると相変わらずの油絵風、昔のキネマ看板のようなイメージです。
🌈 やや油絵風、全体的な雰囲気が暗め❌
👧 表情暗いが描画は丁寧➖
👗 種類、質感ともに良し➖
🏡 良く描きこまれていてボケ感も良好✅
🖐 少し成功率低いが描画は良し➖
🌸 種類はあるが無視されがち、やや雑な印象❌
第5位 Dreamshaper v8
ネガティブプロンプト指定 : あり
参考生成時間 : 13.6s
ライセンス制限 : なし
距離がないとき(寄ったとき)と距離があるとき(離れたとき)で人物の表現方法が異なる。離れたときのイラスト風の描画がどうしても目立ってしまい評価を落としている。
一方、服や指の表現力はなかなか良く、プロンプトによっては素晴らしい出力が行える可能性あり。
🌈 顔のせいかリアル感が乏しく、人物が浮く感じ➖
👧 寄ればリアルだが離れるとイラスト風で違和感あり❌
👗 色や形の豊富さ、素材の表現力ともに良好✅
🏡 描画は丁寧で好印象だがワンパターンになりがち➖
🖐 失敗が少なく、顔と違い離れてもリアル✅
🌸 程よい色や種類の花を程よく描画➖
第4位 EpicRealism v5
ネガティブプロンプト指定 : あり
参考生成時間 : 13.5s
ライセンス制限 : 🖊要クレジット表記
適度な人物描画、種類の多い背景描画と、全体的に良い感じでまとめられるモデルです。
指自体の描画は良好ですが、爪を描画させると完璧ではないですね。ただ、出力が512x512であることを考えると、このレベルは大したものです。
やはり、ライセンスの制限がなければと思ってしまします。
🌈 自然な描画で好印象✅
👧 美人過ぎず自然な描画✅
👗 種類多いが、たまに服のつながり方が変➖
🏡 くっきりもボケもOKで、描きこみも優秀✅
🖐 きれいな指で成功率も悪くない✅
🌸 種類も色も豊富で丁寧な描画✅
第3位 Realistic Vision v6
ネガティブプロンプト指定 : あり
参考生成時間 : 13.5s
ライセンス制限 : 🖊要クレジット表記
このモデルによる背景の描画はほぼ完璧です。プロンプトの再現性はわかりませんが、「街」というワードだけでここまで豊富で美しい描画が行えるとなると、風景画の個展を開きたくなるレベルです。
残念なのはやはり「要クレジット表記」、これさえなければガシガシ使いこなせるモデルだと思いました。
🌈 やや人物が浮くが、全体的にはかなり良い感じ✅
👧 単調だが雰囲気は良く、描画も細かい✅
👗 形が微妙に崩れることがあるが問題なし➖
🏡 最高。街角風景だけの写真種を作れそうなレベル⭐
🖐 たまに崩れるが成功率はかなり高めで、描画も良好✅
🌸 種類も豊富で色鮮やか、描画も丁寧✅
第2位 AIrtist Photo Realistic
ネガティブプロンプト指定 : あり
参考生成時間 : 13.8s
ライセンス制限 : なし
人物と背景がパーフェクトな仕上がりですが、それらを総合した全体の雰囲気が少し惜しい感じがするモデルです。
とはいえ、すべての項目が平均以上であり、ほぼ完璧な画像をライセンス制限なしで生成できます。
🌈 自然な感じの写真画像を無難に出力します✅
👧 容姿も表情も様々な女性が出現しとても良好⭐
👗 形状、色、素材も様々で、着こなしも良い感じ✅
🏡 絶対どこかに存在しそうな現実的な街を難なく描画⭐
🖐 成功率もそれなりに良く、形状も好印象✅
🌸 種類が豊富で出現方法も様々、それでいて丁寧な描画✅
第1位 unStable Illusion
ネガティブプロンプト指定 : あり
参考生成時間 : 13.5s
ライセンス制限 : なし
このモデル、すべての項目で平均以上の描画を行える、オールマイティーな強さがあります。このタイプでは文句がありません。
ライセンスの制限もないため、512x512の生成を行うのであれば気軽に試してみたいところです。
🌈 全体の構図も多種多様、背景との調和も良い⭐
👧 どこにでも居そうな美人を丁寧に描画⭐
👗 種類も色も豊富で、布の質感も良い✅
🏡 ボケとくっきりの使い分けでかなり良い感じ✅
🖐 失敗が少ない感じで、だいぶ好印象✅
🌸 表現方法がたくさんあり、どれも美しい✅
標準タイプのまとめ
標準タイプのモデルをランク順にまとめた一覧は次の通りです。
N/P はネガティブプロンプトの有無です。
Elap. は測定環境における生成時間です。
Limit はライセンスによる制限事項です。🖊は「要クレジット表記」、🚫は「画像の販売禁止」です。
🌈全体/👧日本人女性/👗カジュアル/🏡街/🖐指/🌸花は各評価項目です。5段階(💩❌➖✅⭐)で評価しています。
次回予告
次回はついに1024x1024の描画、高品位タイプについてまとめます。
どんどん生成時間が長くなるので、まとめるのも時間が掛かりそう…
おまけ
勝者「unStable Illusion」によるウイニングラン。
プロンプト
ultra quality, realistic photo, a Japanese woman and a brown fox
ネガティブプロンプト
extra fingers, extra hands, extra arms, extra legs, missing fingers, missing hands, missing arms, missing legs
おまけ2
評価用プロンプトで生成された、「Stable Diffusion 1.5」によるお花畑画像。