Baiduが精度の高いリップシンク「StyleSync」を発表 他 / Catch up on AI 2023.6.25
Pick up
AIで写真1枚と音声データがあれば配信可能な世の中に!
StyleSyncは、高品質なリップシンクを可能にするフレームワーク。現在のリップシンク技術は、生成品質とモデルの汎用性のバランスを取るのが難しいという課題があります。一部の研究では長期間のデータが必要であったり、すべての対象者に対して同様の動きを低品質で生成するという問題がありました。
StyleSyncは、スタイルベースのジェネレータを使用して、少ない素材からでも高品質なリップシンクを可能にします。具体的には、与えられた顔の詳細を保持するマスクガイドの空間情報エンコーディングモジュールを設計。口の形は、音声によって変調された畳み込みによって正確に修正されます。
project: https://hangz-nju-cuhk.github.io/projects/StyleSync
doc: http://arxiv.org/abs/2305.05445
Github: まもなく公開