NovelAIV4のプレビュー版がリリースされました。
さっそく、新機能を試してみました。
マルチキャラクタープロンプト
最大6人までのプロンプトを個別に指定できるようになりました。
ベースプロンプトで絵柄を決めるクオリティタグや背景などを指定して、キャラクタープロンプトでキャラデザに関するタグを指定します。
キャラクタープロンプトでは、1girlや1boyを使わず単にgirlやboyなどのタグを使用します。
キャラクターごとにネガティブプロンプトも設定できますが、ベースのネガティブプロンプトをコピーしていくと4人目くらいでトークン数がオーバーしてしまいました。
おそらく、ベースプロンプトで指定したネガティブプロンプトがキャラクタープロンプトにも適用されていて、キャラごとに特に排除したい要素のみキャラクタープロンプトのネガティブプロンプトで指定するといった使い方が正解かと思います。
共通設定
ベースプロンプト
ネガティブプロンプト
キャラクタープロンプト
1人目
2人目
3人目
4人目
5人目
6人目
キャラクタープロンプトのネガティブプロンプトは設定していません。
2人
3人
4人
5人
6人
4人になると画像のクオリティが低下して、5,6人になると人数が正確に出づらくなるという結果になりました。
プレビュー版は学習データが一部のみということなので、正式版に期待です。
アクションタグ
アクションタグを使うことで、複数キャラのポーズの指定が簡単にできるようになりました。
アクションタグは、させたい動作タグの前に「source#」「target#」「mutual#」をつけることで、キャラクターのポーズを指定します。
「source#」する側(主体)
「target#」される側(客体)
「mutual#」互いにする
動作やポーズに関する1000個以上のタグにアクションタグを付けて画像生成してみました。その結果を画像付きで有料noteにまとめています。
共通設定
ベースプロンプト
ネガティブプロンプト
1人目キャラクタープロンプト(主体)
2人目キャラクタープロンプト(客体)
キャラクタープロンプトのネガティブプロンプトは設定していません。
バックハグ(hug from behind)
2/3でバックハグしてます。
壁ドン(kabedon)
3/3で壁ドン成功。
あごを掴む(grabbing another's chin)
3/3であご掴み成功。
お姫様抱っこ(princess carry)
3/3でお姫様抱っこだが、主体と客体が逆になりがち。
腿の上に座って向き合う(Sit on the other person's lap and face each other)
動作を自然言語で指定してみます。
グレーっ子がむらさきっ子の膝の上に座るイメージです。
2/3でグレーっ子がむらさきっ子の上に座ってますが、向き合ってなかったり左右のソックスの長さが違ったり目の色が異なったりしてますね。
自然言語を入れると崩れやすくなるのかな?
2人でハートマークを作る(heart hands duo)
以下「mutual#」を使います。
3/3でハートマーク完成。
鼻同士をくっつける(noses touching)
3/3で鼻同士をくっつける成功。
手を繋ぐ(holding hands)
3/3で手つなぎ成功。
かなり成功率が高くて驚きました。
正式版でnsfwが解禁されたら、かなり捗りそうですね。
英語の自然言語
プロンプトでの英語の自然言語の理解が深まりました。
V3で自然言語を使った画像生成については以下のnoteをご覧ください。
V3で使用したプロンプトを使いV4で生成してみました。
共通設定
ネガティブプロンプト
富士山とネオン鳥居
プロンプト
日本語訳
V3
V4
V4は謎文字が入ってしまいました。ネオンに反応しているのかな?
サイバーな舞妓さん
プロンプト
日本語訳
V3
V4
V4ではちゃんと傘と着物が光ってますね。漢字はやはり無理みたいです。
桜吹雪とサイバーパンク都市
プロンプト
日本語訳
V3
V4
やっぱり謎文字が入ってしまいます。
サムライとサイバーパンクの融合
プロンプト
日本語訳
V3
V4
V3より甲冑っぽさが出てます。ただ、画面が暗すぎますね。
近未来のお茶室
プロンプト
日本語訳
V3
V4
V4でもお茶室は無理そう。
一部に自然言語を用いたプロンプト
プロンプト
自然言語部分の日本語訳
V3
V4
このプロンプトに関しては精度的にはV3と大差がなさそう。ただV4は指の本数ミスが少ないみたいですね。
まとめ
学習データが限定的なプレビュー版でも、特にアクションタグはかなり実用的になっています。
学習データが増えた正式版がかなり楽しみです。