見出し画像

(ESSAY)【Gen AI】フェイススワップ技術

今回の内容は、”MC”無しの、催眠関連にはさほど関係のない記事です。
#フェイススワップは”生成”AIともちょっと違う技術ですが・・・

データをそろえての技術的検証ではなく、あくまで主観にもとづくインプレッションの域を出ていませんので、その点もご理解ください。
なお、情報が古くなっていたり、認識違いがあるかもしれませんので悪しからず・・・


フェイススワップ系ツールへの取り組み

最近、このNoteで【MC Remix】というシリーズの創作を始めていますが、このシリーズのような取組を構想するにあたって、当初、興味を惹かれていたのが、フェイススワップ系のテクノロジーでした。
こうした技術を援用することで、自分が作りたいものが作りやすく出来ないだろうか、という、単純な興味を覚えていました。

そのため一時期、この分野の急速な技術の進化と、次々登場する新ツールの様子とを、熱心に追いかけていた時期があったのですが・・・
途中でふと立ち止まって、
あらかじめ用意した画像や映像の中の顔部分だけを挿げ替えて、何か別のものを生み出す、というアプローチと、一から全体の絵柄を生成するアプローチを比べてみたときに、

  • 全体を生成するほうが、アウトプットの質が高まる
    (どんなに精巧に見えても、フェイススワップが「合成」である以上は、必ずどこかに、ゆがみやひずみが出てしまうなので)

  • 自分のやりたいことを達成するには、全体生成のほうが、より近道になりそう

  • 生成型AI自身の持つ、道具としての価値に、より強い興味を覚え始めた

  • フェイススワップに関する世間的な評価の流れや潮目を考えると、積極的に利用することのリスクが高い

といった状況判断があり、ここから自然と興味の対の中心が、生成型AIへと移っていきました。
4つ目の点については、”Deep Fake”=犯罪の温床、といったイメージが拭えない現状で、フェイススワップを使うことにまつわるリスク発生の度合いが測れない・・・という事情もあってのことでもあります。

そのためいまでは、フェイススワップツールに触れる機会はほとんど無くなっていますが、せっかく環境を作って試用したツールですので、その所感程度でも記録しておくと、自他ともに良いことがあるかな・・・ぐらいの気持ちで、これを書き始めています。

試用の歴史

歴史はおおげさですねw
これまでに、ぼくがローカル環境で試してみたことのあるツールを、ならべて簡単に書いてみると・・・

  • 要学習タイプ

    • FaceSwap

    • roop-unleashed

    • DeepFakeLab→挫折

  • 学習無しで使えるタイプ(Zero Shot/Few Shot)

    • FaceFusion

    • Rope → Rope-Next(Rope-Live) → VisoMaster

「要学習」というのは、交換を行いたい顔の学習データを大量に集めておき、それらデータを学習させたモデルを自分で独自に作ったうえで、そのモデルを使って顔交換を実施する、という類のツールです。
これは、顔のデータ準備とモデル作成にかなりの時間を要しますので、端的に言って、初期準備のハードルが非常に高い。
また、準備にかけた時間や労力と比較して、得られる出力の質や量が見合わない・・・ということもありました。

多くの時間をかけて作成したモデルで、思うとおりの顔交換が出来るという保証もなく、何回もやり直しを強いられそうだということもあって、そのうち。これはちょっと・・・尻込みするようになり、1,2か月取り組んでは見たものの、がっつり本格的に試行するまでには至りませんでした。

それにくらべて、数枚の画像準備で手軽に使えるZero Shot/Few Shotタイプは、要学習タイプに比べると顔交換の精度は劣るものの、手軽に試せるのが魅力的。
精度を追い求めたいのはやまやまですが、必要以上の時間を削ってまで取り組むのは厳しいですし、Ropeを試してみてわりとすぐ、追いかけるならこちらの形態だろうな・・・という考えに傾いていきました。


また関連する技術領域で、

  • LivePortrait

  • FacePoke(マウス操作で表情変更)

  • Face Mophing

などもチョコチョコと試していた経験があります。
人間の表情や発話に関する領域では、これ以外にも多くのリップシンク系、トーキングヘッド系、ボイスチェンジャー系などのツールがあり、それぞれ少しずつ触ってみたりもしたのですが、ここでは割愛します。
また、人体全身の動きを模倣するツールや、3D化モデリングツールなどは、ほとんど試せていませんでした。

FaceFusion v.s. VisoMaster

「要学習」系統のツールをあきらめ、Zero shot/Few Shot系のツール群を吟味した結果、この2つが試行の対象として残るところとなり、ローカル環境を作って試行することにしました。
(VisoMasterは、当時はRope-Pearlでした)

両者ともに、静止画・動画の顔交換を、数枚の画像データ準備により実現する、という根本部分の機能は同じですが、当然ながらそれぞれは異なるツールですので、メリットやデメリット、強い点・弱い点がありました。
そのため、最初からどちらかに一本化はせず、それぞれの特徴を把握しながら、使い分けをしてみる、という試行を重ねていました。

なお、ぼくも細かい事実は把握していないのですが、この両者の間には浅からぬ遺恨?があるようで、Discordなどを見ると、相手方のことをあまり好もしくない表現で、言及していたりしますw
しかしそれぞれが、好敵手であるお互いの動向を気にしているのは間違いなく、ぼくなどは、切磋琢磨して機能向上につながると良いのだけれどなぁ、と当事者ではない気軽さで、様子をみていました。

FaceFusion

FaceFusionは、henryruhsさんという方がメイン開発者となり、継続開発されいてるツールです。
FaceFusionの特徴の一つに、”FaceRestorer”と呼ばれる、交換元と交換先の「表情」の相似性を高めるためのモジュールがあります。
一般的にフェイススワップツールでの顔交換の実現には、inswapperと呼ばれるライブラリが用いられるのですが、このライブラリは特定の表情への追随が難しいということが、かねてからよく言われており、特にそれが顕著なのが「目を閉じる」表情でした。
たとえば、参照元の映像では人物が目を閉じているのに、交換後の顔は目を空けたまま閉じていない、という現象が起きます。

こうした問題をある程度解決するFaceRestorerの存在によって、FaceFusionは、RopeやRope-Next/Liveに対して一定期間、優位性を保っていました。
ですが、2025/2にリリースされたRope系最新ツールであるVisoMasterが、同様にFaceRestorerを実装したことによって、その優位性は失われたのではないか・・・と見ています。

いっぽうでFaceFusionの最大のデメリットは、単一のスワップ処理の中で、単一の人間の顔交換処理しかできない点です。一方のRopeでは、複数の顔の一括変換への対応が、当初からなされていました。
FaceFusionにおいても、対象の顔を変えて変換処理を何回も繰り返すことで、複数人の顔交換は実現できるわけですが(自動化のためのバッチジョブの機能も提供されています)、それにしても手間がかかり、また変換を繰り返せば出力する動画や静止画の質も落ちますので、この点が大きなネックだと感じていました。
また単一の顔に関する出力の品質も、細かな点でRope系に比べて見劣りするケースが多く(あくまで主観ですが)どちらかといえばRope系のほうが細やかさで優っているように思えます。

VisoMaster

VisoMasterは、もともとHillobarさんという方が開発していた”Rope”が起点となっています。
(Rope自身も、先行するroop-unleashedに源泉があったようですが)
Hillobarさんの多忙によってRopeのプロジェクトは事実上凍結状態になり、現在にまで至るのですが、
その状況を見た有志の方々が、RopeのFolkから独自のツールを開発し始め、最終的には、

  • UIや機能の充実を図ろうとする”Rope-Next”(Alucard24さん作)、

  • リアルタイム変換に重きを置く”Rope-Live”(argenspinさん作)

の2系統に分かれて、開発が進むことになります。
そして最終的に、この2つのRope Folkが再統合され、晴れて2025年2月にVisoMasterがリリースされた、という経緯になっています。

VisoMasterのメリット/デメリットは、言ってしまえば、FaceFusionのメリット/デメリットの裏返しになるのですが・・・
Rope-Next/Liveまで使って来た中で、FaceFusionと比較した場合、やはり複数の顔を1回の変換で処理可能という利点が大きかったですね。
加えて、いろいろな品質向上策(複数枚の写真を統合し参照する顔として使う(要学習タイプ技術の応用))などに取り組んでいるからか、変換された顔の品質も、こちらのほうが高いように思えました。
逆に、FaceFusionの項でも書いたとおり、長らく、表情の追随性が低いというデメリットがあり、「目を閉じない問題」が解消されずにいたのですが、VisoMasterでのFaceRestorer実装によって、完全ではないものの、解消されたということになります。


以上のような状況を総合的に見ると、個人的判断では、2025/3月時点ではVisoMasterに一日の長があるのではないかと思っています。
FaceFusionの3.1.0以降のバージョンを試していませんので、厳密には分かりませんが・・・
(3.1.0では、新しい顔交換ライブラリなど、変換品質に関係ありそうな更新も行われているようですので)

導入

ある程度のバージョンまで、両者とも手動インストールのみのサポートでしたが、現在は両者ともWindows版でのインストーラパッケージが提供されています。
もちろん、git cloneから手動で一つ一つ設定を実施する形態の手順も、引き続き提供され続けています。

(生成)AI系のツール全般に言えることですが、ローカル環境へ導入しようとすると、GPUを活用するためのライブラリとの兼ね合いなどによって、環境固有のライブラリ間不整合や相性問題が発生しやすく、これが導入のハードルを上げることになります・・・
そうした場合に、インストーラ提供はありがたいですね。
(一方でインストーラは、環境への変更がインストーラ任せのブラックボックスになりますので、万が一何か起きたときの解析はむしろ難しくなる、という悩ましさはあります)
なお、FaceFusionはMacでも稼働できますので、Mac版のインストーラも提供されているようです(ぼくはMacで稼働させたことはないので、”ようです”としか言えませんが)。

その他

  • FaceFusionはその内部にリップシンク機能を取り込んでいますが、利用しているツール(wav2lip)の対応解像度が低めであるために、変換後に口の周辺だけが浮いてしまうような恰好になり、これはちょっと…という印象を受けました。
    改善の取組は、なされようとはしているようですが、いま現在で言えば、リップシンクを実現する高品質な外部サービスも続々登場していますので、フェイススワップツールの出力結果をそちらに持っていって、別途リップシンクを実施するほうがよいのではないかなと思います。

  • LivePortraitが基礎機能として持っていた”表情編集”機能が、いま現在の最新バージョンのFaceFusion、VisoMasterのいずれにも、組み込まれています。
    ですので、FaceFusionやVisoMasterを試されるつもりがある方は、表情編集の機能だけを目的として、LivePortraitなどのツールを試される必要性は、もはやあまりないかもしれません。

    ただしLivePortraitはもともと「参照元動画の表情変化にしたがって、静止画の顔の表情を動かす」というツールであって、
    「参照元の静止画の顔を、別の動画/静止画の顔として組み込む」というフェイススワップとは、機能の目指すところが異なります。
    そのため、動画→静止画表情操作を試したい方は、LivePortraitを単体で試す意味はあると思われます。

まとめ?

かなり、まとまりのない内容をダラダラ書き連ねてしまいましたが・・・
というわけで、現時点でフェイススワップ技術は、自分の興味の対象の中心からは外れてしまっています。
そのため、たとえば【MC Remix】のような、やりたいことを実現するうえで、メインでこの技術を使う機会は、この先おそらく無いだろうと思います。
ただ、ちょっとした補完的に使う場面はあるかもしれませんし、またこの先で新しい技術の展開、新しい利用形態が登場するのではないかという期待(と不安)はありますので、自分の中での価値がどうなっていくのかは、正直よくわかりません。

”Deep Fake”という言葉から、いの一番に「犯罪」が連想されてしまう状況が続いていますが、たしかにフェイススワップ技術は、技術品質が発展すればするほどに、犯罪を誘発する頻度が高まる、というジレンマを抱えていると言えます。
これは本来、フェイススワップに限らず、AI、とくに生成型AIの技術発展全般にも、言えることではあります。
(もっと言えば、すべての科学技術の発展は、それを使う人間の良心や倫理感しだいで、善悪ともに成すことができてしまう、という事態を免れ得ないわけですが)

しかし、特にフェイススワップは、ある人間のふるまいを、他者のふるまいとしてそのまま写し取ることができるというその性質から、詐欺などに直結する傾向が強いのもまた事実で、その点で(悪い印象での)注目度が高くなるのも必然かなと思います。
何かの技術を気軽に試してみようとする立場で取り組む自分のような身としては、決して悪事に利用することなく、良心と倫理観にしたがい我が身を戒めながら付き合う、といった自己管理ぐらいしか、対応できることは無いわけですが・・・

顔のみならず、上半身あたりまでを対象にするトーキングヘッドや、さらには、全身の動きをトレースしたり、人体の3D化を行ったりと、人間の姿かたちをコピー可能にするAI技術は、さらに拡がりを見せています。
上記のような自戒は常に心に持ちつつ、これからこの分野がどうなっていくのか、自分の興味をもう一度引き戻すような新機軸の技術発展が実現されるのか、など、一時期ほどではないものの、引き続き情報は追い続けていきたいとは考えています。

#生成AI #FaceSwap #FaceFusion #VisoMaster #Rope #Rope -Next #Rope -Live #顔交換 #DeepFake #ディープフェイク

いいなと思ったら応援しよう!