6-3.ディープラーニングの詳細な説明(画像認識補足)
AIの画像認識は、画像から物体やパターンを識別し、解析する流れとなります。ここでは、AIでの画像認識について掘り下げていきます。
①物体(画像)識別タスク
②物体(画像)検出タスク
③物体セグメンテーションタスク
④姿勢推定タスク
⑤Grad-CAM
⑥LIME(Local Interpretable Model-agnostic Explanations)
①物体(画像)識別タスク
物体(画像)識別タスクとは、画像に写る物体クラスの名称を出力するタスクとなる。
②物体(画像)検出タスク
物体(画像)検出タスクとは、画像に写る物体クラスの識別と位置を特定するとなる。ここでは、バウンディングボックスと呼ばれる画像や映像の中の物体を囲んだ短形の領域で位置やクラスを認識する。
物体検出タスクには、物体の位置を特定した後で、その物体のクラスを識別する「2段階モデル」と、クラス識別と位置の特定を同時に行う「1段階モデル」がある。2段階モデルの特徴は、1段階モデルと比べ、正確性は優れていますが処理は低速です。一方、1段階モデルは、処理を単純化しているので、高速な処理が可能となります。
<2段階モデルの例>
R-CNNでは、 画像から物体候補領域をSelective Searchという方法で抽出する。物体候補領域は、一定のサイズにリザイズ後、CNNに入力される。最終判定は、サポートベクターマシン(SVM)でクラス識別されるが、時間がかかる問題がある。
Fast R-CNNは、R-CNNの構造を簡略化した高速モデルです。物体候補領域をCNNに入力するのではなく、画像全体を入力して特徴マップを獲得することで、処理を高速化します。
<1段階モデルの例>
YOLOでは、 検出と識別を同時に行うことで、遅延時間の短縮を実現した1段階モデルの最初のモデル。YOLOという名前の由来は、「You Only Look Once」という英文の頭文字をつなげて作られた造語で、「一度見るだけで良い」という意味のアルゴリズムです。
SSDでは、YOLOよりもフィルタサイズを小さくしており、YOLOより高速で、Faster RCNNと同程度の精度を実現。
<物体検出の代表的な手法>
2段階:R-CNN、Fast R-CNN、Faster R-CNN
1段階:SSD、YOLO
この記事が気に入ったらチップで応援してみませんか?