顔認識と生成AI
Text by 技術本部 Matsuzaki
AIZE AIチームでは、顔認証関連の研究開発を行っています。 最近見つけた興味深い研究を紹介します。
生成データ
顔認証AIの学習では大量の顔画像が必要で、ノイズが少なく多くの個人を含むデータで学習すると、より高い精度が得られることが知られています。 (The Devil of Face Recognition is in the Noise、 WebFace260M: A Benchmark Unveiling the Power of Million-Scale Deep Face Recognitionなど)
しかし実際には、データの収集にはコストがかかりますし、ノイズを含んだデータセットになってしまいます。 そこで近年データ生成を利用する研究が複数発表されています。
敵対的生成ネットワーク(GAN)や拡散モデルなどの生成モデルを用いて顔画像を生成する手法、3D CGを用いた手法など様々です。
DigiFace-1M: 1 Million Digital Face Images for Face Recognition
DCFace: Synthetic Face Generation with Dual Condition Diffusion Model
SynFaceではDiscoFaceGANで、DigiFace-1Mでは3D顔モデルをレンダリングすることで、DCFaceでは拡散モデルを用いて顔画像を生成しています。
Labeled Faces in the Wild Home(LFW)データセットでの評価では、SynFace単体で91.97%、DigiFace-1Mでは95.82%、DCFaceで98.83%と順調に精度が向上しています。
実画像データセットであるMS1MV2を用いたArcFaceの99.53%や、WebFace4Mを用いたAdaFaceの99.80%には及びませんが、生成データを用いた顔認証AIの精度向上には期待が持てます。
生成AIも日進月歩の分野ですので、今後も生成データを用いた顔認証AIの精度向上についても検証を進めていきたいと考えています。
データ拡張
AIを用いて直接学習用データセットを生成するのではなく、データ加工に利用する例もあります。
ウェブから収集した画像では、人種や年齢の分布に偏りがありますが、この補正に生成AIを用います。
BiTrackGAN: Cascaded CycleGANs to Constraint Face Aging
GANで年齢違いの画像を生成
Child Face Recognition at Scale: Synthetic Data Generation and Performance Benchmark
子供の顔画像を生成
Zero-shot racially balanced dataset generation using an existing biased StyleGAN2
人種の偏りをなくす
StyleGANや拡散モデル(Imagen、Stable Diffusion)などで目にされているように、これらの研究でも自然な顔画像を生成することには成功しています。 しかし生成した画像の品質評価にとどまる論文が多く、生成データを用いた顔認証AIの精度については引き続き検証が必要です。
弊社でも、AIZEが苦手とする子供の顔認識や、真横や真上から撮影したようなポーズ違いの顔認識のために、 StyleGANを用いて生成した顔画像で小規模モデルの学習・評価を行いましたが、現状では生成データを用いても有意に精度アップはできていません。
生成AIは不要?
このように、顔認識AIの性能向上のために生成AIを利用する研究が多く発表されていて、進歩していますが、未だに直接の性能向上は得られていませんでした。
そういった中で、生成AIを学習データ作成に使うのではなく事前学習に用いて、顔認識AIの性能向上を図る研究が発表されました。
How to Boost Face Recognition with StyleGAN?
基本的な構造は、オートエンコーダや変分オートエンコーダーでの教師なし学習による事前学習と似ています。
こちらの研究では
ラベルなし顔画像で自然な顔画像を生成する StyleGAN モデルを学習する。
顔画像を入力として、1で学習したStyleGANの潜在表現にエンコードするモデルを学習する。
2のエンコーダーの重みを初期値としてArcFaceロスで顔認識モデルをファインチューニングする。
の3ステップを取ります。1と2で顔についての潜在空間と画像の関連を学習し、 3で画像生成AIでは必要ですが顔認識AIとしては不要なポーズ・表情・照明などをそぎ落とした特徴量を抽出することで、顔認識AIの性能向上に成功しています。
アブレーション研究として、StyleGANではなくオートエンコーダーや変分オートエンコーダーを用いた場合では、精度向上は得られていますが、StyleGANを用いた場合に比べると精度向上は小さくなっています。
また、StyleGANを事前学習に用いるのではなく、学習したStyleGANで生成した画像を用いる実験も行われていますが、こちらでは精度向上は得られていません。 前述の弊社での実験結果や、他の研究結果と合わせると、生成AIを学習用データセットの作成に用いるのではなく、事前学習に用いることが精度向上に有効であることがわかります。
まとめ
ディープラーニングの登場以降、顔認証AIの精度は飛躍的に向上しましたが、実運用で多数のユーザーに対して高い精度のサービスを提供するには、まだまだ課題が残されています。 引き続き、研究開発を進めていきたいと考えています。