![見出し画像](https://assets.st-note.com/production/uploads/images/127610927/rectangle_large_type_2_e6a711c88e9e13977209cdaf86cc3cfc.png?width=1200)
CLIP Text Deprojectorを使って画像生成してみる ~LSTMモデルの比較~
ここで、一度、これまでに作ったLSTMモデルのバリエーションの性能比較を行ってみようと思います。
前回の記事
他のStable Diffusionの関連記事
Layered Diffusion Pipelineを使うためのリンク集
ライブラリの入手先と使用法(英語) : Githubリポジトリ
日本語での使用方法の解説 : Noteの記事
方針
モデルを比較するにあたって、モデルのサイズで大まかに分類して比較します。分類の基準は、モデルファイルのサイズを元にして、次の通りとします。
35MB未満
35MB以上、50MB未満
50MB以上
使用したプロンプトはこれまでと同様、次の通りです。
単一embedding
cat maid (猫耳メイド)
1girl red hair blue eye black skirt(赤髪 青目 黒スカート)
1boy 1girl in class room(少年 少女 教室)
複数embeddingの合成
cat, maid (猫 メイド)
1girl, red hair, blue eye, black skirt (赤髪 青目 黒スカート)
1boy, 1girl, in class room (少年 少女 教室)
35MB未満
35MB未満のクラスとして選んだモデルには、次にあげる条件をすべて満たすものが含まれます。
LSTMの内部次元が入力次元と同じ
レイヤー数が1つ
追加MLPの内部次元が入力次元の2倍以下
実際に比較したモデルは以下の通りです。
Deprojectorなし
初期LSTMモデル(24.8MB)
入力を加算し残差を出力のみに含むモデル(24.8MB)
線形変換後に残差接続を繋げるモデル(LSTM次元1倍)(29.3MB)
初期LSTMモデル+MLP(内部次元2倍)(33.82MB)
![](https://assets.st-note.com/img/1705221522689-5yYrbPpeGh.png?width=1200)
![](https://assets.st-note.com/img/1705221535293-tKoZRpPxrc.png?width=1200)
以上の結果では、最も質の良い画像を生成したのは、5段目の「初期LSTMモデル+MLP(内部次元2倍)」のモデルでした。
35MB以上、50MB未満
35MB以上50MB未満のクラスとして選んだモデルには、次にあげる変更が1つだけ加えられたものが含まれます。
レイヤー数が2つ
LSTMの内部次元が、入力次元の1.5倍以下
追加MLPの内部次元が入力次元の4倍
実際に比較したモデルは以下の通りです。
Deprojectorなし
【40MB未満の最良モデル】初期LSTMモデル+MLP(内部次元2倍)(33.82MB)
線形変換後に残差接続を繋げるモデル(LSTM次元1.25倍)(37.8MB)
線形変換後に残差接続を繋げるモデル(LSTM次元1.5倍)(47.3MB)
初期LSTMモデル、レイヤー2層(47.4MB)
![](https://assets.st-note.com/img/1705223084374-fHEA6N6pgK.png?width=1200)
![](https://assets.st-note.com/img/1705223100727-c4L6uD7omf.png?width=1200)
以上の結果では、4段目の「線形変換後に残差接続を繋げるモデル(内部次元1.5倍)」が最も質の良い画像を生成したと考えられます。
50MB以上
50MB以上のクラスとして選んだモデルには、上記のクラスに当てはまらないものが含まれます。
実際に比較したモデルは以下の通りです。
Deprojectorなし
【50MB未満の最良モデル】線形変換後に残差接続を繋げるモデル(内部次元1.5倍)(47.3MB)
初期LSTMモデル、レイヤー3層(69.9MB)
線形変換後に残差接続を繋げるモデル(LSTM次元2倍)(69.85MB)
線形変換後に残差接続を繋げるモデル(LSTM次元1.25倍)、レイヤー2層(73.3MB)
![](https://assets.st-note.com/img/1705224927953-AHJCw7AV3J.png?width=1200)
![](https://assets.st-note.com/img/1705224937491-VLRn7T4h0c.png?width=1200)
以上の結果では、明確に他のモデルより優れているモデルは見つけられませんでした。
まとめ
以上の結果から、最もパラメータ数と性能のバランスが取れたモデルは、「線形変換後に残差接続を繋げるモデル(内部次元1.5倍)」と考えられます。