CLIP Text Deprojectorを使って画像生成してみる ~最終レイヤー正規化層を固定する~
以前、一部のパラメータを学習しないことでモデルの質が向上する可能性について調査しましたが、今回は最終レイヤー正規化層のパラメータを固定したモデルについて検討します。
前回の記事
他のStable Diffusionの関連記事
Layered Diffusion Pipelineを使うためのリンク集
ライブラリの入手先と使用法(英語) : Githubリポジトリ
日本語での使用方法の解説 : Noteの記事
以前の取り組み
以前、一部のパラメータを学習しないことでモデルの質が向上する可能性について調査した記事はこちらになります。
この時は、VTモデルでAttention部分のパラメータについての検証でした。その後、モデルをLSTMベースに変更したため、この記事の内容は現在のモデルには適用できなくなっています。
しかし、現在のLSTMベースのモデルでも、最終レイヤー正規化層はCLIPテキストモデルのパラメータで初期化するため、これを固定することは可能です。
LSTMモデルの更新
今回は、同時に、前回までの知見を元に、LSTMモデルを整理して更新しました。
基本的に、前回の結論で選んだモデル(線形変換+線形変換)を整理してレイヤー正規化や残差接続も省略せずに描き直したものですが、以下の点に変更があります。
LSTMセルの出力にレイヤー正規化を適用(赤色の四角)
LSTMセルの出力の線形変換前に残差接続を追加([1]で分岐)
[1]の分岐は、残差接続をLSTMセルへの再帰的入力の前に行うか、後に行うかという違いです。
実験内容
実験は、次の2つの点を変化させて4つのモデルを学習して比較しました。
最終レイヤー正規化のパラメータを固定するか学習するか
[1]の分岐で、残差接続を再帰入力に含めるか含めないか
生成画像は上から次の順に並んでいます。
Deprojectorなし
パラメータを学習、残差接続を含む
パラメータを学習、残差接続を含まない
パラメータを固定、残差接続を含む
パラメータを固定、残差接続を含まない
使用したプロンプトはこれまでと同様、次の通りです。
単一embedding
cat maid (猫耳メイド)
1girl red hair blue eye black skirt(赤髪 青目 黒スカート)
1boy 1girl in class room(少年 少女 教室)
複数embeddingの合成
cat, maid (猫 メイド)
1girl, red hair, blue eye, black skirt (赤髪 青目 黒スカート)
1boy, 1girl, in class room (少年 少女 教室)
生成画像
最終レイヤー正規化のパラメータを学習したモデル(2段目3段目)とパラメータを固定したモデル(4段目5段目)の生成画像を比べると、次の違いがあります。
後者のモデルの方が、プロンプトの再現性が高い
後者のモデルの方には、画像に大きなノイズが出ることがある
まとめ
LSTMモデルを更新し、最終レイヤー正規化層のパラメータを固定する実験を行いました。
正規化層のパラメータを固定すると、プロンプトの再現性が上がりますが、同時に大きなノイズが生まれます。
正規化層のパラメータを固定したまま、ノイズを減らすようにモデルを改善することで、モデルに質を向上させることができる可能性があります。