見出し画像

【459_YOLOv9-Wholebody25】を試す

459_YOLOv9-Wholebody25とは?

高速かつ軽量な人体検出モデルです。25種類のクラスにラベル分けされており、性別、大人、子供のほかにも全身の部位の検出が可能なようです。更に頭の方向推定もできるそうです。
用途としては、店舗における顧客の見ている商品の解析や、筋トレのフォーム指導、わき見運転の警告、カンニングの防止など多岐にわたって考えられます。

引用元:https://github.com/PINTO0309/PINTO_model_zoo/tree/main/459_YOLOv9-Wholebody25

詳細

推論に使用させていただいたコードは↓

リソース

colabでの実行時間は1分の動画で6分ほどでした。
推論結果はPINTO_model_zoo/459_YOLOv9-Wholebody25/demoに保存されます。


比較検証

今回はあまり相応しくないと思いますが、人の検出という点に焦点を当てたいと思います。同じ人は1としてカウントします。
Gemini1.5Pro-002と比較し、どちらが正確に人を検出できているかを検証します。
※Gemini1.5Pro-002はバウンディングボックスが表示されないため視覚的な説得力という点で議論の余地があります。今回は認識できているという前提で行います。
Wholebody25はバウンディングボックスの数を私がカウントして結果とします。

検証1

まずは簡単なものから。

サムネ1

結果

精度が高すぎて窓に反射した人を検出
Gemini
Wholebodyの勝利

検証2

人が多く行き交うので少し難易度が上がります。

サムネ2

結果


看板に映った絵をカウント
ポスターをカウント
惜しい(´;ω;`)
Wholebodyの勝利

検証3

車で人が隠れるのでかなり難しいです。私は止めながらでないとカウントできませんでした。

サムネ3

結果

Wholebodyの勝利

まとめ

軍配はWholebodyに

今回の検証で459_YOLOv9-Wholebody25の精度の高さを実感しました。特に窓に反射している人やポスターなどは見落としていました。
惜しくも負けてしまったGemini先生ですが±10程度の誤差なので期待できるのではないかと私は考えています。
今後はYOLOv11との比較、GPT-4oのビジョンファインチューニングしたもでるとの比較をしていきたいです。また、今回利用させていただいたWholebody25を利用してサービスを作ってみたいです。


この記事が気に入ったらサポートをしてみませんか?