v15 Kohya LoRA Trainer Dreambooth の使い方、学習方法解説

2023年4月12日 23:57

バージョン違いにご注意ください

この解説はバージョン15です。

Kohya Trainer
https://github.com/Linaqruf/kohya-trainer

追記箇所

4.2. Data Annotationと5.2. Dataset Configにキャプション付けについての誤りがあったので修正しました。「キャプションとタグを精査する」に説明を追記しました。

v15.0.1の内容に対応
TensorboardとTensorflowのバージョンアップに対応しているので、「Colabで開く」項目からやり直してください。
activation_wordの扱いが変更されました。従来の「meru 1girl」という書き方から「meru」という書き方になります。この記事の方法で行う場合は影響はありません。
それらに伴い、4.2.2. 項目、5.2. 項目を修正しました。

前説

学習にあたって

前回に引き続き、今回も正則化画像なしのLora学習方法を解説します。使うのはKohya LoRA Dreambooth LoRA Training (Dreambooth method)v15.0です。超初心者でもわかります。

正則化画像がないと学習させたモデルが、呼出しトークンを使わなくても出てきてしまいますが、学習精度が上がり短時間で学習できるメリットもあります。そもそもLoraは適用させた時はその学習内容を出したい時なので、今回は正則化画像なしのLora学習方法を解説します。

また、学習方法はキャプション方式を使用します。キャプション方式の他に、instance_classトークン方式がありますが今回はキャプション方式を使用します。

キャプション方式のメリットはLoraモデルの使用時にポーズや服装、髪型など、元々の絵を維持しやすくなります。つまり画風だけ、顔だけを変えると言った事がやりやすくなります。

instance_classトークン方式のメリットは綾瀬はるかと長澤まさみを同時に学習させるなど、複数の概念を同時に学習できる事です。ただし、キャプション方式と違いLoraモデルの使用時にポーズや服装、髪型などが元々の絵を維持しにくくなります。そもそもLoraは適用させたい効果を簡単に加えられる事がメリットなので、複数の概念を一つのLoraモデルに入れるメリットは低いと思っています。

画像収集

学習させたい画像を30枚ほど収集します。なるべく解像度の高い（ボケていない、ノイズがない）ものを集めてください。学習させたい物が人物の場合、髪型、ポーズ、背景、服装をなるべくバラバラにしてください。例えば全部の画像に東京タワーが写ってると、東京タワーもその人物と認識して学習してしまいます。

枚数よりも解像度が重要ですので、30枚は無理ですという人は20枚でもいいです。悪い画像を混ぜた30枚ならば、良い画像の20枚の方が結果は良くなります。

画像収集には『画像ダウンローダー』というGoogle Chromeブラウザーのアドオンが便利です。