分類AIの進化史㉔その後のCNN系モデル
前回は、ConvNeXt(Meta、2022年)を紹介しました。このモデルでは、Vision Transformer(ViT)などからのアイデアを取り入れて、ResNetをベースにし、畳み込みニューラルネットワーク(CNN)の性能向上を追求しました。
これまでメジャーな画像分類モデルを解説してきましたが、もちろんカバーしていないモデルや論文は無数にあります。それでも、2022年ごろまでのモデルたちに到達したので、このシリーズもそろそろ完結に近づいています。
そこで、以前に登場したモデルの「その後」に触れることで、ここ数年の進化のいくつかを見ていきましょう。
まず、ざっくりと画像分類モデルを以下のようにカテゴリー分けします。
畳み込みニューラルネットワーク(CNN)系
ビジョン・トランスフォーマー(ViT)系
次世代フィードフォワード(FFN)系
これらのカテゴリーを、今回から3回に分けて「その後の」モデルと題して連載します。初回の今回は、CNNにフォーカスして、以前に紹介したモデルのバージョン2をピックアップして紹介します。
この記事が気に入ったらサポートをしてみませんか?