口パク本命のEMOが出るまでは、VideoRetalkingで遊ぼう!
Emoが本命
デモを見る限り、アリババのEMOが口パク/LipSync動画としては、ものすごい品質だ。
https://humanaigc.github.io/emote-portrait-alive/
SadTalkerの後継 のVideoRetalking
https://github.com/OpenTalker/video-retalking
SadTalkerは静止画から口パクですが、Video-ReTalkingは、ループ動画から、口パク動画を作るものです。まだトレーニング方法が開放されていないので、どんな顔も、デフォルトのおじさん・おばさん用の薄い唇になってしまうため、いまいちな結果になりがちです。
StableDiffusionだけでもかなりよくなるよ!
Guide-Scale 2.0 strength 0.2とかだと、ギリギリ口の形を保ったまま、顔を多少よくできます。
Upscale等でProduction品質
さらに、Upscale(StableDiffusionのx4でもいい)したり、オリジナルの口元をマスク処理でコピーしたりしたら、だいぶよくなりました。
https://youtu.be/IwJqHbxo0Yg
結論
Emoはまだ使えないのだから、今使える、Video-Retalkingで遊んでみよう!