見出し画像

物体検出の代表的なニューラルネットワーク(R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN, YOLOの説明)

みなさん、こんにちは!

今日のnoteでは物体検出の代表的なニューラルネットワークをご紹介します。

以前のnoteでニューラルネットワークや、畳み込みニューラルネットワークの動作原理を説明しました。このnoteの前提知識になりますので、まだ読んでいない人は、そちらからお読みください。


最近ディープラーニングに夜画像分類が盛んに応用されるようになりました。画像の分類では、単純に画像に作っているものは犬なのか、猫なのかという比較的に単純なタスクです。畳み込みニューラルネットワークがこういった画像分類にとってはとても有効な仕組みで、良いパフォーマンスを出しています。

しかし、現実のシチュエーションでは、我々は複雑な環境に置かれることがほとんどです。例えば、運転中に、道路に走行している時、建物、道路、信号、標識、歩行者など、様々なものをリアルタイムに検出することが必須です。さらに物体の境界線や、物体の関係性も認識することが大事です。

畳み込みニューラルネットワークはこういった物体認識のシチュエーションには力を発揮できるでしょうか?答えは、もちろんYesです。

物体検出においては、発展系としてさらに多くの種類の畳み込みニューラルネットワークが考案されています。

図1

(引用先:https://arxiv.org/abs/1311.2524)

その中に、R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、YOLOなどがあります。

順番で見ていきましょう!

R-CNN(Regional CNN)

(論文のurl:https://arxiv.org/abs/1311.2524)

物体検出では、入力した画像に対して、ターゲットとなる物体を見つけ、物体を取り囲むバウンディングボックス描き、ラベルをつけることが一般的です。

R-CNNももちろんこれを1番の目的として設計されています。

しかし、このバウンディングボックスがどこにあるのか、どうやって見つけるのでしょうか?R-CNNは、画像の中にたくさんのボックスを提案し、その中のどれかが実際にオブジェクトに対応しているかどうかを確認します。

画像2

(引用先:https://www.koen.me/research/pub/uijlings-ijcv2013-draft.pdf)

R-CNNは、上の図のように選択的探索(selective search)と呼ばれるプロセスを用いて、2000個の領域提案(region proposal)を作成します。

ここから先は

5,618字 / 10画像

¥ 900

株式会社虹賢舎 CEO 著書:https://amzn.to/39KwlE4 技術ブログ:https://kokensha.xyz 機械学習 深層学習 Python /JS IoT Raspberry Pi ロボット TOEIC950 https://gosen.world