Attention Branch Network:Learning of Attention Mechanism for Visual Explanation


概要

 視覚的説明により、人間は深層畳み込みニューラルネットワーク(CNN)の意思決定を理解することができるが、CNNの性能向上への貢献は不十分である。本論文では、画像認識における注意位置として、高い応答値を表す視覚的説明の注意マップに着目した。この注意領域は、画像中の特定の領域に注目する注意機構を導入することで、CNNの性能を大幅に向上させる。本研究では、注意メカニズムを持つ分岐構造を導入することで、応答ベースの視覚的説明モデルを拡張するAttention Branch Network (ABN)を提案する。ABNは、注意メカニズムのための分岐を導入することにより、いくつかの画像認識タスクに適用可能であり、視覚的説明と画像認識のためにエンドツーエンドで訓練可能である。我々は、画像分類、細目認識、複数の顔属性認識など、いくつかの画像認識タスクでABNを評価した。実験結果は、ABNがこれらの画像認識タスクにおいて、視覚的説明のための注意マップを生成しながら、ベースラインモデルを凌駕することを示す。

既存手法の問題点

 視覚的説明によってCNNの意思決定を理解することはできるが、CNNの性能向上への貢献が不十分である点

提案手法

 応答ベースの視覚的説明と注意メカニズムに着想を得て、アテンションメカニズムを持つ分岐構造を導入することで、応答ベースの視覚的説明モデルを拡張するAttention branch network(ABN)を提案。ABNは、特徴抽出器、アテンションブランチ、知覚ブランチの3つのコンポーネントから構成される。

応答ベースとは?

 順伝搬の出力のみを用いて視覚的手法を用いる方法。

特徴量抽出器

 コンピュータビジョンや自然言語処理で利用されている。リカレントニューラルネットワークやLSTM(long short term memory)を用いた逐次モデルで広く用いられてきた。ABNでは、画像認識において重要な領域を示す視覚説明のための注意マップに着目して設計されている。また、これまでの注意モデルでは、教師なし学習でフィードフォワード伝搬する際に、畳み込み層の出力値のみを用いて注意メカニズムの重みを抽出する。しかし、ABNは、教師あり学習で、出力に基づく視覚的説明のためのアテンションマップを生成することにより、画像認識におけるアテンションメカニズムの有効な重みを容易に抽出することができる。

アテンションブランチ

 どこに注目しているかを取り出して、そのあとの知覚ブランチに利用する。

知覚ブランチ

 特徴抽出器から注目マップと特徴マップを受け取り、各クラスの最終的な確率を出力する。知覚ブランチの構造は、VGGNetやResNetなどの画像分類モデルによる従来の最上位層と同じである。まず、アテンション機構により、特徴量マップにアテンションマップが適用される。アテンション機構では、以下の二つのうちどちらを使用する。

 式1は特定のチャンネルcにおける注目マップと特徴マップの単なるドット積である。これに対し、式2は、注目マップの低値領域がゼロに劣化するのを防ぎつつ、アテンションマップのピークにある特徴マップを強調できる。


この記事が気に入ったらサポートをしてみませんか?