分類AIの進化史⑦GoogLeNet

澁谷直樹 @ キカベン

2023年12月7日 19:06

前回は、ILSVRC-2012の画像分類部門で優勝したAlexNetと、その翌年に行われたILSVRC-2013の画像分類部門で優勝したZFNetについて解説しました。

注：ILSVRCは、ImageNet Large Scale Visual Recognition Challengeの略。

今回は、ILSVRC-2014の画像分類部門で優勝したGoogLeNetを紹介します。

GoogLeNetの論文のタイトルは、Going Deeper with Convolutions（畳み込みでさらに深く）となっており、畳み込み層をそれまでのモデルよりもさらに増やした事が注目するべき点です。

なお、この頃のディープラーニングは、層を増やせば増やすほど性能が良くなるという方向を目指しながらも、過学習や勾配消失などの問題をどう克服するのかが課題となっていました。

では、GoogleLeNetは何を持って層を増やし精度を上げることに成功したのでしょうか。

そもそもディープが良い理由とは

AlexNet、ZFNet、GoogLeNet、そしてその後の画像分類モデルの多くは、畳み込み層を利用して入力画像から特徴量を抽出します。また、畳み込み層の数を増やすことによって、より精度が上がるという現象があり、各研究者は層の数を増やすことに注力しました。ISLVRC-2015の画像分類部門で優勝したMicrosoftのResNetなどはその典型で、最大で152層まで増やすことが可能であることが論文で発表されました。

やがて層を増やすことだけでは限界があり、NAS（Neural Architecture Search)によるEfficientNetなど、その他の手法により注目が集まります。

また後に、トランスフォーマーが登場し、ヴィジョン・トランスフォーマーなどで画像系の処理が可能となったため、畳み込み以外の手法の研究も盛んになっています。

では、なぜディープ（層を増やす）ことで良い結果が得られたのでしょうか。特に、畳み込み層の数を増やすと、どういう効果があるのでしょうか。

ここから先は

3,547字 / 7画像

キカベン・読み放題

¥1,000 / 月

アルゴリズム、機械学習、深層学習、強化学習、量子技術をわかりやすく

すべての記事とマガジンが読み放題
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらチップで応援してみませんか？