深層学習 畳み込みニューラルネットワーク(CNN)を用いた画像分類 AlexNet,ResNet、 DenseNet 、Mobile Net

AlexNet

入力層の後にMaxPooingを置き、その後にCNNを5層、最後に再びMaxPooingから、出力層にはソフトマックス関数$${\phi(z_i)=\displaystyle{ \frac{\exp(z_i)}{\sum_{j=1}\exp(z_j)}}}$$を入れた全結合層3層で構成されている。また、訓練時に出力unitをランダムにオフにするドロップアウトで過学習を抑制している。畳み込み層の活性化関数には、ReLU関数を使用している。

VGG

フィルタのサイズ$${3\times 3}$$のCNNを、16または19層重ねている。プーリングと活性化関数はAlexNetと同様である。畳み込み層を重ね、活性化関数の適用回数を増やすことで、特徴量の表現力を向上させているが、パラメータ数が多く処理速度も遅い。

GoogleNet

22層のCNNを使用している。畳み込みの前に、ポイントワイズの畳み込みを行い次元数を削減し、さらに$${3\times 3}$$だけでなく、$${5 \times 5}$$のフィルタを並列にかける。また、重ねた畳み込み層の途中でクラス分類を行いその損失を計算することで、勾配消失問題に対応している。最後の出力のプーリングは各チャンネルの値の平均をとり、過学習を抑制している。

ResNet

CNNを156層に連ね、勾配消失に対しResidual Blockを用い、またデータの偏りをなくすために、活性化関数にかける前にバッチ正則化を入れている。
Residual Blockは、入力シグナルをCNNを飛び越して渡すショートカットコネクションの出力を加えた$${H({\bm x})=F({\bm x})+{\bm x}}$$から、残差の$${F({\bm x})=H({\bm x})-{\bm x}}$$を学習対象とする。変換が必要のない場合は、$${F({\bm x})=0}$$の恒等写像となる。

DenseNet

ResNetのショートかっと接続を増やし、層間を密にしたアルゴリズムで、計算機効率向上を可能にしている。

MobileNet

Depthwize Separable ConvolutionとPointwise Convolutionに分解し、精度と計算機負荷を調整し、軽量な計算を可能にしている。


この記事が気に入ったらサポートをしてみませんか?