Hand Pose Estimation: A Survey
Hand Pose EstimationのSurvey論文。現在大まかに2つの問題1枚の画像(RGB画像)から2Dの座標推定をするImage-based MethodとDepth-based Methodが存在する。また論文で使われたデータセットについてもまとめられている。データセットの規格というものは存在しないが大半は下記の21 joints。
概要(abstの翻訳)
近年のコンピュータビジョンのほとんどすべてのタスクにおける畳み込みニューラルネットワーク(CNN)の成功、および他方で低価格の消費者向け深度カメラの人気は、コンピュータビジョンの分野で話題となっています。本報告では、まずハンドポーズ推定問題について説明し、この問題を解決するための主なアプローチ、特に深度マップまたはRGB画像を使用する際の2つの異なる問題について概説する。それぞれの分野で最も重要な論文を概説し、それぞれの長所と短所を説明します。最後に、このフィールドで最大のデータセットを詳細に説明し、21個のデータセットとそのすべてのプロパティをリストします。私たちの知る限りでは、これはハンドポーズ推定フィールドのすべてのデータセットの中で最も完全なリストです。
論文リンク
結論
本報告ではhand pose estimationの問題点を定義し、この問題を解決するための主な方法について詳細に説明した。またこの分野の最近の手法について確認しました。すべてのデータ駆動型メソッドはそもそも十分なデータを必要とするので、主要なデータセットについて話し合い、この分野のすべてのデータセットをそれらの最も重要な特性と共にリスト化しました。
カラーグローブを使用した完全に制御された状況から、単一のRGB画像を使用した3D hand pose estimationまで、この分野がわずか数年でどう成長してきたかを示しました。ここで説明した論文はこれらのデータセットで良い結果を示していますが、現実世界の問題で満足のいく結果を得ることはできません。最も重要なことに、これらのシステムのほとんどの結果は単純な最近傍ベースラインよりも悪い。
ただし、この分野における大手テクノロジー企業の関心のために、おそらく近い将来には、はるかに大きく、より一般化されたデータセットや単一のRGB画像でも非常によく機能するモデルが登場するでしょう。 AR / VRデバイスを新しいPCとして使用してこのテクノロジに到達しても、ディスプレイ上のオブジェクトやコントロールオブジェクトを指で触っても届かないでしょう。
読んでいただきありがとうございます😄 Twitterでも呟いています 👉https://twitter.com/wakame1367