分類AIの進化史㉓ConvNeXt
前回は、畳み込みもアテンションも使うMobileViT(Apple、2021年)を解説しました。前々回は、畳み込みもアテンションも使わないMLP-Mixer(Google、2021年)の解説をしました。
今回は、畳み込みニューラルネットワーク(CNN)の性能向上を追求したConvNeXt(Meta、2022年)を紹介します。ResNetをベースにし、Vision Transformer(ViT)などからのアイデアを取り入れて精度の向上に成功しました。
しかし、なぜ2020年代に入っても、CNNにこだわるのでしょうか?
トランスフォーマー技術を使用するViTのようなモデルが画像分類で優れた成績を収めているのだから、ViTをさらに追求した方が良いのではないでしょうか。
この疑問に答えるために、CNNとViTの発展の歴史を振り返ってみましょう。
CNNはLeNetの時代から進化し続けており、特に2012年にImageNetのコンペティションで優勝したAlexNetの登場以降、多くのCNNモデルが登場し、精度の記録を塗り替えていきました。これらのモデルは畳み込みによる処理が画像の特徴を効果的に捉えるという帰納バイアスの恩恵を受けています。これには、階層構造(画像の部分から全体へと情報を統合するための仕組み)などが含まれます。
一方、2020年に登場したViTは、CNN固有の帰納バイアスを持たず、アテンション機構によってデータから直接学ぶアプローチを採用しています。大量のデータと組み合わせることで、トランスフォーマーのスケーリング則に従い、モデルのサイズや訓練データの量が増えると性能が向上します。ViTは特に大規模なデータセットでトレーニングされた場合、従来のCNNよりも優れた結果を示しました。
これだけ見ると、CNNに組み込まれた帰納バイアスよりもアテンション機構によるスケーリング則の方が学習効果において優れているかのようにも見えます。
しかし、ViTには問題もあります。
その一つが、入力サイズに対して計算量が二次的に増大する問題です。アテンション機構では、全ての要素間の関係を計算するので、要素数の二乗に比例して計算量が増えます。これは、ViTの問題というか、トランスフォーマーのモデル構造の問題点がViTにも影響しています。いずれにせよ、より高い解像度の画像を扱う際に大きな問題となります。
これに対処したのが、Swin Transformerでした。このモデルは、画像処理に階層構造を導入することで、CNNの持つ帰納バイアスの利点を活かしながら、計算負荷を軽減しました。つまり、「アテンションが全て」ではなく、CNNで長年培われてきた帰納バイアスを再導入したわけです。
だとすると、CNNは決して時代遅れではなく、適切に進化させれば2020年代においても重要な役割を果たすことができます。この考えを反映するかのように、ConvNeXtの研究論文のタイトルは「A ConvNet for the 2020s」(2020 年代のためのConvNet)となっています。ViTに圧倒されるかに見えたCNNが2020年代でも活躍できるという意味が込められているのを感じます。
では、Metaの研究者たちは、ConvNeXtを通じてCNNの性能向上を図るためにどのようなアプローチを採用したのでしょうか。
この記事が気に入ったらチップで応援してみませんか?