画像生成AIのモデルってなに?
はじめに
私が現状理解している画像生成AIのモデルに関してまとめておきます。
StableDiffusionを取り扱うStableDiffusion Web UIを例にモデルを理解できるように簡単に解説していきます
モデルの種類
大きく3種類のモデルがあります
ベースモデル
派生モデル
LoRAモデル
ベースモデル
ベースモデルが違うと、モデル自体の構造が違ったり学習するデータセットがそもそも違ったりします。
StableDiffusion Web UIではStableDiffusionをベースモデルとした派生モデルを使えます
StableDiffusionのv1系とv2系ではモデル構造が大きく異なります
ベースモデルの例
StableDiffusion v1.5
StableDiffusion v2.1
DALL・E
MidJorney
Imagen
Novel AI
派生モデル
ベースモデルをファインチューニング(追加学習)したものです
ファインチューニングの方法は下記のようなものがあります。
Dream Booth
LoRA
Textual Inversion
EAT
Hypernetworks。
Dream Boothの派生モデルははWEB UIの機能でcheckpointという形式で取り扱われたりします
派生モデルの例
Waifu Diffusion
Anythin-v4.0
Dreamlike Photoreal 2.0
ChilloutMix
LoRAモデル
Low-Rank Adaptationの略で追加学習を後付けできる軽量なモデルです
上記派生モデルの一種ですが、軽量でWEBUI上ではベースモデルとは別の単独でファイル管理されるためLoRAモデルとして出回っています
学習元のベースモデルと一致しないベースモデルに対して使用しても精度はでないので、学習元を意識する必要があります。
Civitaiで出回っています
LoRAモデルの例
KoreanDolLikeness
マージモデル
StableDiffusionのモデルは複数のモデルを簡単に合体することができます
WEBUIの機能名は「checkpoint merger」です
pythonでpytorchを使ってマージもできそうです
今後
LoRAモデルや派生モデルを作成する方法は先人が紹介してくれています。
これまた先人がたくさんいますが、ControlNetを使ったポージングをやってみたいと思います
この記事が気に入ったらサポートをしてみませんか?