【論文】リップシンクのためのオーディオ調整潜在拡散モデル

2025年2月5日 07:10

カテゴリ：テクノロジー・リップシンク・AI
読む時間：約5分

以下の論文が気になったので簡単にまとめてみました

論文情報雑誌名：arXiv
論文タイトル：LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync
著者：Chunyu Li、Chao Zhang、Weikai Xu、Jinghui Xie、Weiguo Feng、Bingyue Peng、Weiwei Xing
DOI番号：arXiv:2412.09262 [cs.CV]

概要

音声と映像の自然な同期は、アニメーションや映像編集において重要な課題です。本記事では、新たなリップシンク技術「LatentSync」について解説します。従来手法との違いや、生成技術の革新点、実験結果などを詳しく見ていきます。

内容

LatentSyncとは？

LatentSyncは、音声に基づく潜在拡散モデルを利用したリップシンク技術です。従来のピクセル空間での拡散モデルとは異なり、Stable Diffusionの潜在空間を活用して、音声と映像の相関関係をより精密にモデル化します。

従来の手法との違い

一般的なリップシンク技術では、二段階生成やピクセルレベルの補正が必要でした。しかし、LatentSyncはエンドツーエンドで動作し、音声入力から直接リアルなリップシンク映像を生成できます。

Temporal REPresentation Alignment（TREPA）

リップシンクの精度向上のため、LatentSyncはTREPA（Temporal REPresentation Alignment）を導入しました。これは、自己教師付きビデオモデルを活用し、フレーム間の時間的一貫性を強化する手法です。これにより、不自然な動きを軽減し、リアルな口の動きを再現できます。

SyncNetの精度向上

SyncNetはリップシンク評価の指標として広く使用されてきましたが、その収束性には課題がありました。LatentSyncでは、モデルのアーキテクチャ改善、トレーニングパラメータの最適化、データ前処理の工夫により、HDTFデータセットでのSyncNet精度を91%から94%へ向上させました。

実験結果と評価

LatentSyncは、HDTFおよびVoxCeleb2データセットにおいて、従来手法を上回る結果を示しました。特に、

リップシンク精度の向上
フレーム間のスムーズな遷移
高品質な視覚表現 が確認され、最新のリップシンク技術として注目されています。

まとめ

LatentSyncは、音声拡散モデルを活用した次世代リップシンク技術として期待されています。特にTREPAの導入とSyncNetの精度向上により、映像制作の分野で大きな影響を与える可能性があります。今後の技術進化にも注目していきましょう。

#AI #リップシンク #機械学習 #StableDiffusion #音声合成

いいなと思ったら応援しよう！

よろしければ応援お願いします！いただいたチップはクリエイターとしての活動費に使わせていただきます！