アテンションを用いた画像処理モデルの作成
アテンションを用いた画像処理モデルの作成のまとめ
画像認識にアテンションという機構を付与して、判断の根拠を可視化しました。
前振り
画像認識についてはもう深層学習が人間を超えてから(2015)しばらく経っています。
となると精度の問題が解決されている訳です。
実用化に向けた時に問題になるのはもう計算時間や計算資源などのコストだけかな?と思っていたのですが、そうは問屋が卸しませんでした。
というのもやはり深層学習はけしからん!何がけしからんというと何を根拠に判断や推論をしているのかが分からん!という意見が強いのです。
推論の仕組みが分からないのは人間の脳味噌も同じでは?などと思うのですが、おそらく重要なのは判断の根拠を示すことが出来るかどうか、説明できるかどうかなのですね。
深層学習は高い精度を出すことができ、高い性能を誇ります。
しかし、その判断根拠を示すのは苦手とされてきました。
それは一般的な機械学習の手法と比較しても明確でして、そのため判断根拠が欲しいという需要に応えるために従来の機械学習の手法が使われることも少なくありません。
ですが、深層学習の一派も手をこまねいているばかりではありません。
判断根拠が分からないなら、判断根拠をモデルに力づくで組み込んでしまえばいいじゃないか!というナイスなアイデアが出てきます。
そのナイスなアイデアというのがアテンション(注視機構)というものです。
もともとは自然言語処理の文脈から現れたものですが、アイデアとしてはナイスです。
注目すべき単語に重み付けをする、という単純な仕組みで判断根拠の可視化と性能の向上に成功しました。
その後、アテンションはますます重要な機構となっていきます。
一方の画像認識界隈。
おい、自然言語のやつらがアテンションとかいうのを使ってるらしいぞ。ならウチらも使うべ。という訳で画像認識にもアテンション機構が導入されます。
こちらでは自然言語ほどのインパクトはなかったようですが、判断根拠の可視化には成功しました。
アテンションの仕組み
詳しくは下記のリンク先をご覧ください。
こちらの記事を読むと、あまり精度には影響しないという結論です。
また、アテンションは複数の目を同時に持つことが出来るのですが、それぞれの目が何に対して注意を向けるようになったのかは人間が解釈してやる必要があります。
下記のリンクにデモプログラムを置いているので、興味がある人は遊んでみてください。
まとめ
深層学習系の画像認識は判断根拠の乏しさが問題視されていた。
そこでアテンションを用いて、判断根拠の可視化がなされた。
ただしアテンションに対して人間の解釈が必要である。
私にカフェオレを飲ませるためにサポートしてみませんか?