NNの枝刈り&対照学習に関する論文紹介[Cohere論文紹介No.5]
論文名
Studying the impact of magnitude pruning on contrastive learning methods
arXivリンク
https://arxiv.org/pdf/2207.00200
ひとこと要約
NNの枝刈り&対照学習に関して調査した論文。教師あり学習と比較して対照学習の方が枝刈りの影響を受けやすく、特に学習の早期から枝刈りを行うと悪影響が大きい。
メモ
NNの枝刈りに関する先行研究
枝刈りの問題
枝刈りの影響でクラス間で不均等に現れ、分布の裾に含まれるサンプルや、ラベルノイズを含むサンプル、複数のラベルを持つサンプルなどは、 忘却されやすい (Hooker et al., 2019; Entezari & Saukh, 2019)ネットワーク幅と深さを増やしてモデル容量を一定に保ちながら枝刈りを行うと、 圧縮前のモデルと同等またはそれ以上の性能が得られる(Timpl et al. 2021)
対照表現学習により、優れた精度とout-of-distribution generalizationを達成(Nakkiran et al. 2020)
手法
学習手法
教師あり学習 (Sup)
教師あり対照学習 (SCL)
データセット
CIFAR-10
モデル
WideResNet(WRN)
枝刈り手法
絶対値が小さい重みを0に変換。具体的な手法は以下。
One-Shot Pruning
学習後のモデルに対して枝刈りを行う手法。枝刈り後のモデルはファインチューニング。
Gradual Magnitude Pruning (GMP):
学習中に徐々に枝刈りを行う手法。
Delayed GMP (DGMP):
学習の後半(50エポック以降)に枝刈りを開始するGMPの変種。
評価指標
Pruning Identified Exemplars (PIEs)
枝刈りによって誤分類されるようになったサンプル。
PIEsの数が多いほど、枝刈りによってモデルの予測が大きく変化し、性能が低下していることを示す。
PIEsを分析することで、どのようなサンプルがモデルの予測を変化させやすいかを知ることができる。
Q-Score:
サンプルの質を測る教師なし学習の指標。
Q-Scoreが高いサンプルは、少数の特徴のみで他のサンプルと区別できる、質の高い表現を持っていると考えられる。
Q-Scoreが高いサンプルは、特徴ベクトルのL1ノルムが小さく(≒少数の特徴のみが活性化している)、 かつ、活性化している特徴の値が他のサンプルと大きく異なる傾向がある。
Q-Scoreを用いることで、モデルが学習した表現の質を定量的に評価することができる。
Prediction Depth (PD-Score)
サンプルの難易度を測る教師あり学習の指標。
あるサンプルを正しく分類するために必要なネットワークの層の数。
層の数が多いほど、そのサンプルを正しく分類するために多くの処理が必要であり、サンプルの難易度が高い
結果
結論: SCLモデルはSupモデルと比べて枝刈りの影響を受けやすく、 特に学習の早期から枝刈りを行うと悪影響が大きい。
枝刈りとPIE
SCLモデルはSupモデルと比較して、枝刈りにより多くのPIEを生じさせ、 それに伴って精度の低下も大きくなっている。(表1)
また、One-Shot PruningやDGMPのように学習の後期に枝刈りを行う手法は、 GMPのように学習の早期から枝刈りを行う手法と比べて、PIEの数が少なく、精度への悪影響が小さい。
枝刈りとサンプルの質
SCLモデルでは枝刈りによってQ-Scoreが大きく低下するのに対し、SupモデルではQ-Scoreの低下が限定的。
SupモデルではPIEのPD-Scoreが高く、PIEでないサンプルのPD-Scoreが低い傾向が見られ、 枝刈り前後でPD-Scoreに大きな変化は見られない。 一方、SCLモデルでは、枝刈りによってPD-Scoreが大きく変化しており、 モデルの予測に必要な層の数が枝刈りの影響を受けている。
(付録にはUMAPを用いた学習された表現の可視化やPIEの分布の変化などがあり。)
この記事が気に入ったらサポートをしてみませんか?