CLIP Text Deprojectorを使って画像生成してみる　～LSTMの入力形式の変更～

2023年12月30日 23:25

前回は、LSTMの内部次元数を変えましたが、今回は、前々回に触れたLSTMの入力形式の変更について実験しました。

前回の記事

他のStable Diffusionの関連記事

Layered Diffusion Pipelineを使うためのリンク集

モデルアーキテクチャ

今回試すモデルアーキテクチャは、前々回の記事で入力の情報の減衰を防ぐ方法として提案し、実験はせずに終わったものです。

上図で(1)の接続方法は実験しましたが、(2)の接続方法は実験をしていませんでした。

このアーキテクチャはLSTMのコンテキストの次元を変更可能なので、前回実験したモデルとパラメータ数が近い値になるように、次の次元数でモデルを作りました。

これに加え、前回の結果を踏まえ、線形変換後に残差接続を繋げる形式を採用します。

生成画像は上から順に次のように並んでいます。

使用したプロンプトはこれまでと同様、次の通りです。

単一embedding

複数embeddingの合成

次に、上に挙げた入力embeddingの２種類の接続方法を比較してみます。前回のモデルと近いパラメータ数同士のモデルの生成画像を比較できるように並べました。

生成画像は上から順に次のように並んでいます。カッコ内はモデルファイルのサイズです。

２と３、４と５がほぼ同じパラメータ数のモデルとなります。