見出し画像

画像生成AIのモデルってなに?

はじめに

  • 私が現状理解している画像生成AIのモデルに関してまとめておきます。

  • StableDiffusionを取り扱うStableDiffusion Web UIを例にモデルを理解できるように簡単に解説していきます

モデルの種類

大きく3種類のモデルがあります

  • ベースモデル

  • 派生モデル

  • LoRAモデル

ベースモデル

  • ベースモデルが違うと、モデル自体の構造が違ったり学習するデータセットがそもそも違ったりします。

  • StableDiffusion Web UIではStableDiffusionをベースモデルとした派生モデルを使えます

  • StableDiffusionのv1系とv2系ではモデル構造が大きく異なります

  • ベースモデルの例

    • StableDiffusion v1.5

    • StableDiffusion v2.1

    • DALL・E

    • MidJorney

    • Imagen

    • Novel AI

派生モデル

  • ベースモデルをファインチューニング(追加学習)したものです

  • ファインチューニングの方法は下記のようなものがあります。

    • Dream Booth

    • LoRA

    • Textual Inversion

    • EAT

    • Hypernetworks。

  • Dream Boothの派生モデルははWEB UIの機能でcheckpointという形式で取り扱われたりします

  • 派生モデルの例

    • Waifu Diffusion

    • Anythin-v4.0

    • Dreamlike Photoreal 2.0

    • ChilloutMix

LoRAモデル

  • Low-Rank Adaptationの略で追加学習を後付けできる軽量なモデルです

  • 上記派生モデルの一種ですが、軽量でWEBUI上ではベースモデルとは別の単独でファイル管理されるためLoRAモデルとして出回っています

  • 学習元のベースモデルと一致しないベースモデルに対して使用しても精度はでないので、学習元を意識する必要があります。

  • Civitaiで出回っています

  • LoRAモデルの例

    • KoreanDolLikeness

マージモデル

  • StableDiffusionのモデルは複数のモデルを簡単に合体することができます


今後

  • LoRAモデルや派生モデルを作成する方法は先人が紹介してくれています。

  • これまた先人がたくさんいますが、ControlNetを使ったポージングをやってみたいと思います

この記事が気に入ったらサポートをしてみませんか?