
【AMD Amuse】モデルの分類
前回までの記事で、AMD Amuseの概要、AMD Amuseのモデルを使用する上でのライセンスを紹介しました。
ここで、AMD Amuseでインストールできるモデルについて紹介したいと思いますが、全部のモデルをいっぺんに紹介するのは大変ですので、タイプ別に分類して、何回かに分けて紹介したいと思います。
※今回の挿絵はImageFxによる生成であり、AMD Amuseによる生成ではありません。
モデルの勝手な分類
AMD Amuseでインストールしたいくつかのモデルについて、同一プロンプトで画像を生成した時間を測定してみました。
測定環境は例のノートPCのようなPCで、AMD Amuse v2.2.2を使用しました。数回生成を行い最も短い時間を採用しました。生成時間は測定環境や実行するタイミングで変化しますので、モデルごとの相対的な値として捉えてください。

生成画像のサイズはモデルを選択したときのデフォルトのサイズ、つまり、モデルが学習したピクセル数になっているはずです。具体的には、512x512、または1024x1024です。
生成時間を集計してみたところ、分布に偏りがあることがわかりました。
処理時間の範囲から、便宜上、勝手に次のような4種類のタイプに分類することにしました。
高速タイプ : 5秒未満
標準タイプ : 10~15秒程度
高品位タイプ : 25~80秒程度
最高品位タイプ : 100秒以上

秒数に隙間がありますが、たまたまその範囲に該当するモデルが存在しなかったためです。今後もし、たとえば20秒のモデルが現れたとき、標準タイプと高品位タイプのどちらの特性を持っているかで範囲を広げていく(隙間を狭めていく)かもしれません。
高速タイプ

参考生成時間 : 5秒未満
出力イメージサイズ : 512 x 512 ピクセル
このタイプのモデルは共通して、スケジューラーがLCMとなっていました。
LCM (Latent Consistency Models)とは日本語で「潜在的一貫性モデル」。詳しくはわかりませんが、反復のステップ数を大幅に抑えることに特化した画像生成を行える技術です。
実際に、生成時間は5秒未満と、ほかのタイプと比べたらほとんど一瞬で生成が完了します。それでいて、ほかのタイプと比べても劣らない画像を生成することも多いです。
ただし、プロンプトによっては苦手な描画があるようで、手や足が乱れた画像を生成することも多いです。また、学習が偏っているのか、生成のバリエーションが少ないようにも思えます。
ダメでも良いからたくさん生成して、奇跡的にうまく出力できたものを抽出するような使い方に向いています。私はやりませんが、プロンプトを編集しながらリアルタイムな生成にも使えそうです。
標準タイプ

参考生成時間 : 10~15秒程度
出力イメージサイズ : 512 x 512 ピクセル
「標準」と呼んでしまうと特徴のないタイプのように思えますが、512x512での生成を行うモデルのうち、「高速タイプに属さない」モデルです。
ピクセル数こそ上位の1024x1024を生成するモデルには及びませんが、ぱっと見の印象は劣っていない画像を生成を行うモデルも中にはあります。
1024x1024での出力は生成時間が大幅に長くなりますので、そこまでのピクセル数は要らないというときはこのタイプを使うことをお勧めします。
または、このタイプでプロンプトをいろいろ試したのち、1024x1024が出力できるタイプに同じプロンプトを流し込むというプロトタイプ的な使い方もできます。
高品位タイプ

参考生成時間 : 25~80秒程度
出力イメージサイズ : 1024 x 1024 ピクセル
さすがに1024x1024での生成は、512x512での生成を行うモデルに対して、大幅に生成時間が伸びてしまいます。
そんな1024x1024の生成を行うモデルのうち、80秒より短い時間のものをこのタイプとしました。
25秒程度のモデルであれば、ちょっと待てば出力される感じですが、80秒だと少し長いですね。それでも、80秒待つだけの価値がある画像が生成されることがある優秀なモデルがいくつか含まれています。
それに混じって優秀ではないモデルもいくつかありますので、もし80秒待ってそんな画像が生成されたときはガッカリします。使い方が悪いのでしょうか...?
なお、80秒という区切りは適当です。その次のタイプが100秒を超えるため、そこに区切りを設けました。
最高品位タイプ

参考生成時間 : 100秒以上
出力イメージサイズ : 1024 x 1024 ピクセル
私の環境のAMD Amuseで考えられる最高品位の画像を生成してくれるモデルのタイプです。
高品位タイプに対して、より多くのステップ数でプロンプトの内容をより忠実に再現できるように苦労しているようです。
私の環境では実行できませんでしたが、FLAX.1-schnellやStableDiffusion 3.5もおそらくここに該当します。
私の環境でインストールしたモデルのうち、このタイプに分類されたのは4モデルのみでした。どれも最高品位の画像を生成するので、四天王のような存在として崇めています。
あらかじめほかの軽めのタイプのモデルでプロンプトを確認してから、最高品位タイプのモデルに挑んでください。
このタイプに限った話ではありませんが、AMD Amuseが勝手に終了してしまうことがあります。プロンプトが消失しないようにメモ帳などほかの場所にプロンプトをメモしながらの作業が良さそうです。このタイプではその頻度が高いような気がします。
モデル評価方法
モデルの評価には、共通して次のプロンプトを使用しました。ネガティブプロンプトは入力できるモデルのみ入力します。
プロンプト
ultra quality, realistic photo, a Japanese woman, casual, city, fingers, flower
ネガティブプロンプト
extra fingers, extra hands, extra arms, extra legs, missing fingers, missing hands, missing arms, missing legs
超高品質、現実的写真、日本人女性、カジュアル、街、指、花
/
指が多い、手が多い、腕が多い、脚が多い、指が足りない、手が足りない、腕が足りない、脚が足りない
敢えて幅を持たせたワードのみを並べて、多様性を忠実に表現できるか確認しています。
🌈全体 : 全体の描画をそのモデルの最高品質で現実的写真できているか、全体の雰囲気は良いかを評価します。(「超高品質、現実的写真」が影響)
👧日本人女性 : モデルによっては苦手かもしれませんが、日本人女性の顔が美的に描画できているかどうかを評価します。
👗カジュアル : 主に服の色や形、布の質感の確認を行いますが、描写のバリエーションも評価します。
🏡街 : 背景としての街の描きこみや、ボケ感など人物との調和を確認します。
🖐指 : 画像生成AIが最も苦手とする分野に挑戦させます。指の数や形が正しく表現できるか、または苦手なところをうまく隠しているかを評価します。
🌸花 : 人物以外の描画を確認します。花の色や形、大きさなど、生成するたびに異なる花が現れるかで評価します。
モデルごとに得意な描画があり、これらのワード以外で素晴らしい出力が行えることは十分予想できますが、ひとまずこの偏ったプロンプトでどのような結果が得られるかを比べてみました。
お手本(ImageFxによる生成)
どんな画像の生成を期待しているかを示すため、ImageFxによる出力を紹介しておきます。同じプロンプトを使用して、アスペクト比のみ正方形を指定しました。


次回予告
次回以降、4回にわたって分類した4つのタイプのモデルを紹介していきます。
まずは高速タイプです。高速タイプに属するモデルの紹介と、モデルごとに生成画像を2枚ずつ掲載していく予定です。