見出し画像

【AMD Amuse】モデル評価 - 標準タイプ

公開後に気づいたのですが、ひょっとしたら一部のモデルにおいて、512x512ではない出力をするともっと高品質な画像が得られるかもしれません。AMD Amuseで出力解像度の指定、いったん指定してしまうとほかのモデルにも影響しちゃうなど、操作性がおかしかったりするので今回のような結果になってしまっています。
引き続き調査して、もしランキングが入れ替わるようなことがあれば記事を訂正したいと思います。

AMD Amuseのモデルについて、勝手に4つのタイプに分類して、各モデルを評価しようということになりました。

今回はその2回目、標準タイプです。

モデルの評価には、共通して次のプロンプトを使用しました。今回対象のモデルのうち、対応しているモデルはネガティブプロンプトも指定します。

プロンプト

ultra quality, realistic photo, a Japanese woman, casual, city, fingers, flower

ネガティブプロンプト

extra fingers, extra hands, extra arms, extra legs, missing fingers, missing hands, missing arms, missing legs


超高品質、現実的写真、日本人女性、カジュアル、街、指、花
/
指が多い、手が多い、腕が多い、脚が多い、指が足りない、手が足りない、腕が足りない、脚が足りない

日本語訳

評価観点は🌈全体、👧日本人女性、👗カジュアル、🏡街、🖐指、🌸花の6点で、本文中にこれらのアイコンを示します。また、参考生成時間も掲載します。評価基準の詳細、および測定環境のスペックは、上記「AMD Amuseモデルの分類」の記事を参照してください。

前回の高速タイプの記事はこちら。


モデル別出力結果(標準タイプ)

評価用プロンプトを用いて、標準タイプに分類した各モデルにおいて生成できた画像を、ランキング形式で紹介します。
(私の環境にインストールしたもののみとなっています)

写真はひとつのモデルにつき2枚ずつ掲載します。1枚目はなるべくプロンプトの内容に忠実な描画が行えたもの、2枚目は一部に乱れや不具合があってもモデルの特徴を表現できているもの、であると私が判断したものを選びました。

また、モデルごとの特徴的なことを評論家的に説明していますが、いかんせんシロウト目線ですので的が外れていたらすみません。プロンプトが悪い可能性は十分にありますので、たまたまこのプロンプトではこうなった程度の生成画像にあれこれ言うのは見当違いかもしれませんが、率直な意見を述べたいと思います。

なお、評価はタイプごとになりますので、高速タイプの⭐評価が標準タイプの✅評価より優れているとは限りません。ご了承ください。

第9位 Stable Diffusion 1.5

ネガティブプロンプト指定 : あり
参考生成時間 : 13.8s
ライセンス制限 : なし

この人物描画はかなりうまくいったほうで、本当はもっと×××です
このプロンプトでこの画像を生成する発想は人間にはないかも

ある意味、世紀の傑作を生み出しているのかもしれませんが、現実的写真とはかけ離れた描画を行うモデルです。
今回は現実的写真の評価を行っているため、このモデルの評価は当然低くなります。

🌈 写真ではなくアートですので、今回は低評価です💩
👧 顔が描画されないのは奇抜、描画されても不気味💩
👗 服のセンスもサイケデリックで着こなしも雑過ぎる❌
🏡 写真のような描画をする気がさらさらない、やる気の問題❌
🖐 成功率は低空飛行、本数や形状の種類は四次元ポケット❌
🌸 なぜか花だけは最高品に仕上げてくる⭐

第8位 SDXL Turbo

ネガティブプロンプト指定 : なし
参考生成時間 : 11.6s
ライセンス制限 : なし

ヘタウマという感じの画像を生成しますが、現実的ではない
遠目で見れば良い画像なんですけど、全体が雑過ぎます

名前に「XL」が含まれていますが、1024x1024ではなく512x512の画像を生成するモデルです。どうやら学習は1024x1024ですが、生成は512x512ということらしいです。(違っていたらごめんなさい)
花は持たずに背景として出現することが多い気がします。
全体の雰囲気が水彩画っぽく、やたらと雑に描画されている印象です。

🌈 水彩画っぽい感じで、全体的に下手💩
👧 顔が粗ぶっていて、たまに老婆を生成する❌
👗 種類豊富だが、花柄が多い気がする➖
🏡 ボケ強めで、人物と調和できていない❌
🖐 無理な形状に挑戦することが多く、成功率が低い❌
🌸 花がメインになりがちだが大きな問題はない➖

第7位 Jib Mix Turbo XL

ネガティブプロンプト指定 : なし
参考生成時間 : 11.5s
ライセンス制限 : 🚫生成画像の販売禁止

これでもマシなほうですが、なぜか左目の描画に毎回失敗します
近づいても左目は若干おかしくなっています

なかなか良い雰囲気かと思いきや、左目の描画に必ず失敗する謎なモデルです。
全体の雰囲気も暗くぼんやりしていて、チェキのような仕上がり。
味があると言えなくもないですが、評価は低いです。

🌈 チェキっぽい感じ(画像が荒くくっきり感がない)➖
👧 ちょっと描画が荒っぽい、左目の描画が特に雑❌
👗 無難だが大きな特徴がない➖
🏡 ボケ感強めだが特に問題ないレベル➖
🖐 無理しちゃう感じで、結果失敗している❌
🌸 無難だが悪くはない印象➖

第6位 Fluently v4

ネガティブプロンプト指定 : あり
参考生成時間 : 13.4s
ライセンス制限 : なし

どこかで見たような油絵風の特徴的な描画
でも作品がダメかと言うと、そんなことはなかったりします

どこかで見た画風だと思ったら、「Fluently v4 LCM」のLCMなしのモデルでした。でも、こちらのほうが若干明るくなり、若干印象が良くなっています。
写真風かといわれると相変わらずの油絵風、昔のキネマ看板のようなイメージです。

🌈 やや油絵風、全体的な雰囲気が暗め❌
👧 表情暗いが描画は丁寧➖
👗 種類、質感ともに良し➖
🏡 良く描きこまれていてボケ感も良好✅
🖐 少し成功率低いが描画は良し➖
🌸 種類はあるが無視されがち、やや雑な印象❌

第5位 Dreamshaper v8

ネガティブプロンプト指定 : あり
参考生成時間 : 13.6s
ライセンス制限 : なし

離れれば離れるほどイラストっぽくなってしまう顔(これはマシなほう)
近づけば近づくほど写真っぽくなってしまう顔(これはかなり奇跡)

距離がないとき(寄ったとき)と距離があるとき(離れたとき)で人物の表現方法が異なる。離れたときのイラスト風の描画がどうしても目立ってしまい評価を落としている。
一方、服や指の表現力はなかなか良く、プロンプトによっては素晴らしい出力が行える可能性あり。

🌈 顔のせいかリアル感が乏しく、人物が浮く感じ➖
👧 寄ればリアルだが離れるとイラスト風で違和感あり❌
👗 色や形の豊富さ、素材の表現力ともに良好✅
🏡 描画は丁寧で好印象だがワンパターンになりがち➖
🖐 失敗が少なく、顔と違い離れてもリアル✅
🌸 程よい色や種類の花を程よく描画➖

第4位 EpicRealism v5

ネガティブプロンプト指定 : あり
参考生成時間 : 13.5s
ライセンス制限 : 🖊要クレジット表記

どういう服なのか理解不能だけど、全体の雰囲気は良い
(generated by EpicRealism v5)
正面からの顔の描画もかなり良好です
(generated by EpicRealism v5)

適度な人物描画、種類の多い背景描画と、全体的に良い感じでまとめられるモデルです。
指自体の描画は良好ですが、爪を描画させると完璧ではないですね。ただ、出力が512x512であることを考えると、このレベルは大したものです。
やはり、ライセンスの制限がなければと思ってしまします。

🌈 自然な描画で好印象✅
👧 美人過ぎず自然な描画✅
👗 種類多いが、たまに服のつながり方が変➖
🏡 くっきりもボケもOKで、描きこみも優秀✅
🖐 きれいな指で成功率も悪くない✅
🌸 種類も色も豊富で丁寧な描画✅

第3位 Realistic Vision v6

ネガティブプロンプト指定 : あり
参考生成時間 : 13.5s
ライセンス制限 : 🖊要クレジット表記

シチュエーションは謎だけど、街の描画自体は素晴らしい
(generated by Realistic Vision v6)
服は変だが光の当たり方がとても自然
(generated by Realistic Vision v6)

このモデルによる背景の描画はほぼ完璧です。プロンプトの再現性はわかりませんが、「街」というワードだけでここまで豊富で美しい描画が行えるとなると、風景画の個展を開きたくなるレベルです。
残念なのはやはり「要クレジット表記」、これさえなければガシガシ使いこなせるモデルだと思いました。

🌈 やや人物が浮くが、全体的にはかなり良い感じ✅
👧 単調だが雰囲気は良く、描画も細かい✅
👗 形が微妙に崩れることがあるが問題なし➖
🏡 最高。街角風景だけの写真種を作れそうなレベル⭐
🖐 たまに崩れるが成功率はかなり高めで、描画も良好✅
🌸 種類も豊富で色鮮やか、描画も丁寧✅

第2位 AIrtist Photo Realistic

ネガティブプロンプト指定 : あり
参考生成時間 : 13.8s
ライセンス制限 : なし

自然な雰囲気がかなり良い、この表情も完璧
無理やり花を持たせてすみません、それがなくても良い画像です

人物と背景がパーフェクトな仕上がりですが、それらを総合した全体の雰囲気が少し惜しい感じがするモデルです。
とはいえ、すべての項目が平均以上であり、ほぼ完璧な画像をライセンス制限なしで生成できます。

🌈 自然な感じの写真画像を無難に出力します✅
👧 容姿も表情も様々な女性が出現しとても良好⭐
👗 形状、色、素材も様々で、着こなしも良い感じ✅
🏡 絶対どこかに存在しそうな現実的な街を難なく描画⭐
🖐 成功率もそれなりに良く、形状も好印象✅
🌸 種類が豊富で出現方法も様々、それでいて丁寧な描画✅

第1位 unStable Illusion

ネガティブプロンプト指定 : あり
参考生成時間 : 13.5s
ライセンス制限 : なし

プロンプトの再現性はほぼ完璧、このタイプはこのモデルで間違いなし
2位と僅差ですが、こちらのほうが表情豊かな感じがしました

このモデル、すべての項目で平均以上の描画を行える、オールマイティーな強さがあります。このタイプでは文句がありません。
ライセンスの制限もないため、512x512の生成を行うのであれば気軽に試してみたいところです。

🌈 全体の構図も多種多様、背景との調和も良い⭐
👧 どこにでも居そうな美人を丁寧に描画⭐
👗 種類も色も豊富で、布の質感も良い✅
🏡 ボケとくっきりの使い分けでかなり良い感じ✅
🖐 失敗が少ない感じで、だいぶ好印象✅
🌸 表現方法がたくさんあり、どれも美しい✅


標準タイプのまとめ

標準タイプのモデルをランク順にまとめた一覧は次の通りです。

標準タイプのモデル評価結果

N/P はネガティブプロンプトの有無です。
Elap. は測定環境における生成時間です。
Limit はライセンスによる制限事項です。🖊は「要クレジット表記」、🚫は「画像の販売禁止」です。
🌈全体/👧日本人女性/👗カジュアル/🏡/🖐/🌸は各評価項目です。5段階(💩❌➖✅⭐)で評価しています。


次回予告

次回はついに1024x1024の描画、高品位タイプについてまとめます。
どんどん生成時間が長くなるので、まとめるのも時間が掛かりそう…


おまけ

勝者「unStable Illusion」によるウイニングラン。

プロンプト

ultra quality, realistic photo, a Japanese woman and a brown fox

ネガティブプロンプト

extra fingers, extra hands, extra arms, extra legs, missing fingers, missing hands, missing arms, missing legs

超高品質、現実的写真、日本人女性と茶色い狐
/
指が多い、手が多い、腕が多い、脚が多い、指が足りない、手が足りない、腕が足りない、脚が足りない

日本語訳
狐と女性の接触部分の描画も良い感じ
ソファーでくつろぐ女性と、女性でくつろぐ狐
大胆な狐、やや違和感あり
反省中の狐、女性の表情が良い
仲直り、狐の表情が素晴らしい
おっとハプニング

おまけ2

評価用プロンプトで生成された、「Stable Diffusion 1.5」によるお花畑画像。

桜の描画が美しい
良く見ると良い構図かもしれない
このオバサン、邪魔だなぁ
頭に何か付いてますよ
こんな環境でもきれいな花を咲かせます
スマホケースに挟んで押し花を作ります
せめて人物の顔や姿は登場させて
独眼竜マリメッコ
首長族の衣装
もしかして左下に散らばっているのが花?

いいなと思ったら応援しよう!