見出し画像

動画生成AIをファインチューニングできるようになったようだ

CogVideoXというのがApache2.0ライセンスでファインチューニングできるようになったみたいなので、自分のYouTube番組を学習させて動画を出してみた。

まあ全然違うんだが、デフォルトのCogVideoでは日本人男性出すことすらできないので胸のマイクとか髭とか、プロンプトで指定しなくても再現されているので、「寄せる」ことには成功していると言えるかもしれない。

StableDiffusionのファインチューニングと違って、まだどんなプロンプトを使って学習させれば寄っていくのか手探り感が強いので何度も実験を繰り返さないといけないが、ひとまず「少し似せる」ことができたのでちょっと嬉しかったから記録しておく。

手順などはFree-AIのブログを参照のこと。実際の動画も見れる。

静止画の場合、髪型とか服装とかを揃えた方がいいのだが動画の場合そこんとこどうなのかわからない。カメラアングルとか時間帯とか色々あるからなー。もっと短くてもいいんだろうか。今回は40分くらいのデータを作って渡したが、そんなにいらないのかも?