Day46―2D画像から姿勢を分析
今回は機械学習、画像認識系トピック。
画像からそこに写っている人物の姿勢を分析し、リアルタイムにホネホネマンを作成する手法を提案。
背景
機械学習の発展により、画像認識でできることは飛躍的に増えた。しかし、二次元の画像から人間の姿勢を認識する技術は充分に発達したとはいえない。
従来より、姿勢の認識は2つのアプローチで行われてきた。1つ目は、まず人間の全体像を認識し、そこから姿勢を割り出すアプローチである。2つ目は、関節をまず認識し、関節同士のつながりから姿勢を割り出すアプローチである。前者はトップダウン・アプローチ、後者はボトムアップ・アプローチとして研究が行われてきた。
本研究ではConvolutional Neural Networks (CNN; 畳み込みニューラルネットワーク) を使用した物体認識を応用することで、どちらかといえばボトムアップ的アプローチにより認識精度を高める。
アーキテクチャ
今回提案したモデルは、入力画像をリサイズした後CNNによって分析し、人物と関節部分をまず分析する。その際にregion proposal (RP) フレームワークの一種であるYOLOを使用する。その後Non-Maximum Suppression (NMS) によって重複部位を無くし、2部マッチングによってホネホネマンを個々人ごとにparseする。(さらに要約すると、関節を相違なくマッチングした後、それらを1人ずつ別個に繋げることでホネホネマンになる)
実験
オープンなデータセットで、他のモデルと精度を比較した。結果、他の代表的モデルと同じ程度の正確さを発揮した(ただし、10倍ほど遅い)。
所感
現行モデルの問題点を指摘し、ちょっとだけ良いものを作るという研究の王道を行く手法であると感じた。Kinectは生産終了してしまったし、早く機械学習の良いアルゴリズムが生まれることに期待したい。