【物体検出】要点まとめ(自分用)

目的

物体検出について、各種サイトを参考にしながら自分なりによく理解できていない点をまとめる。

参考にしたサイト

・https://qiita.com/mshinoda88/items/9770ee671ea27f2c81a9

・https://qiita.com/arutema47/items/8ff629a1516f7fd485f9

Window-CNN

・概要
 - 画像を細かく分割して、CNNを用いて画像認識する方法

・メリット
 - ディープニューラルネットワークを使用することで、それまでと比較して、認識精度が大きく向上

・デメリット
 - 処理時間が長く、リアルタイム性が低い

R-CNN(Regional CNN)

・概要
 - 物体があるっぽい領域を最初に提案(Selective Search)し、そこに対して画像認識を実施し、特徴マップを取得
  > Selective Searchでは、ピクセルレベルで類似する領域をグルーピングしていくことで、候補領域を選出
   (オブジェクト候補領域を分けるアルゴリズムの一種)
 - その後、SVMによるクラス分類と全結合層を使ったBB座標の回帰を実施

・メリット
 - 提案された領域のみに対して画像認識を実施するため、Window-CNNに比べて大幅に計算を削減可能

・デメリット
 - 候補領域毎に畳み込みによる特徴量抽出が必要となり、検出速度が低下
 - Selective Searchによる候補領域の決定に時間を要する

Fast R-CNN

・概要
 - 画像全体を複数回畳み込んで特徴マップを生成し、得られた特徴マップから各候補領域に該当する部分を抜き出す方式
 - 毎回CNNを走らせるのではなく、特徴領域を切り出して全結合層に与えるのみ

・メリット
 - 候補領域毎の畳み込みによる特徴量抽出が不要となり、検出速度が向上

・デメリット
 - 候補領域の決定はR-CNNと同様にSelective Searchを用いており、検出速度向上のボトルネックになっている

Faster R-CNN

・概要
 - Selective Searchの代わりに、領域提案ネットワーク(Region Proposal Network, RPN)とよばれるサブネットワークで候補領域を選出
  > 物体検出モデルを全てDNN化した
  > RPNとFast R-CNNの2つのネットワークで構成されている
   RPN : 特徴マップを畳み込み層から受け取り、候補領域の座標とその領域が物体である確率を出力
   Fast R-CNN : 畳み込み層から受け取った特徴マップとRPNから受け取った候補領域を用いて、詳細な物体位置(BB位置)とその物体のクラスを出力
 - Multi-task lossという学習技術で、BBとクラス分類のネットワークを同時に学習

・メリット
 - Selective Searchが不要となり、速度が向上


この記事が気に入ったらサポートをしてみませんか?