CLIP Text Deprojectorを使って画像生成してみる　～再帰的な入力でLSTMを学習する～

2023年12月10日 11:40

前回、LSTMモデルを導入しましたが、学習手法はTransformerベースのVTモデルと同様でした。今回は、LSTMの特性を利用し、再帰的な入力を用いた学習を試してみます。

前回の記事

他のStable Diffusionの関連記事

Layered Diffusion Pipelineを使うためのリンク集

LSTMモデルの再帰的入力

前回のLSTMモデルの学習時、系列入力（x）の値を学習データから得ていました。これは、Transformerベースのモデルの学習手法と同じものですが、LSTMの場合はAttention機構がなく、各位置の計算が分離しているため、直前の位置の結果を次の位置の計算に渡すことが容易です。

上図はLSTMモデルの模式図ですが、前回の学習では[1]の部分で学習データからの系列データを渡していました。今回の学習では、代わりに直前の位置の実際の出力を渡すようにします。

区別のため、この記事では、前者の方式を「一括入力」、後者の方式を「再帰的入力」と呼ぶことにします。

再帰的入力を用いた学習のメリットは、これが実際の推論時の計算方法と同じ方法なので、学習時と推論時の差がなくなるという点にあります。

実験には、２種類の手法を試します。１つ目は、前回、一括入力で学習したモデルに対して、再帰的入力を用いて追加学習を行うという方法、２つ目は、最初から再帰的入力で学習をやり直すという方法です。

生成画像は上から

となっています。使用したプロンプトはこれまでと同様、次の通りです。

単一embedding

複数embeddingの合成

前回、スカラ係数を用いたモデルを試しましたが、ここではそれに置き換えてレイヤー正規化を用いたモデルを使いました。

これは、前回の線形変換を用いたモデルをそのまま利用しました。

今回生成した画像の範囲では、一括入力と再帰的入力の間で、決め手となるほどの差は観察されませんでした。

LSTMモデルで再帰的入力を用いた学習を試しました。しかし、今回の実験の範囲では、学習結果に大きな差は生まれませんでした。