分類AIの進化史㉖その後のFFN系モデル
前回は、「その後のViT系モデル」と称して、以前に紹介したViT(ビジョン・トランスフォーマー)系のモデルの後継バージョンの紹介をしました。ViTからの派生モデルもまだまだ進化が続いていることが伺えました。
今回は、次世代のフィードフォワード(FFN)系と称して、畳み込みもアテンションも使わないアーキテクチャであるMLP-Mixerの関連モデルをいくつか紹介します。MLP-Mixerはシンプルな構造でありながら、高い性能を発揮したためその後のFFN系モデルも進化を続けています。
MLP-Mixerのミキサー(Mixer)は、画像にある特徴をさまざまなに混合(ミックス)して、新たな特徴へと変換するアプローチです。MLP-Mixerは、トークン間の関係を計算するトークン混合をアテンションを使わずに行うという意味で計算量を減らしつつも同等な正解率を発揮しました。
このトークン混合の概念を汎用化し、さまざまなモデルに適用可能なフレームワークへと昇華したものが最後に紹介するMetaFormerとなります。
なお、この記事でこのシリーズは完了になります。
この記事が気に入ったらチップで応援してみませんか?