見出し画像

画像やビデオ内のオブジェクトをセグメント化するモデル「EVF-SAM2」を試してみる

EVF-SAM2とは

EVF-SAM はSAM2 とテキスト プロンプトを使用してビデオ内のオブジェクトをセグメント化してくれるモデルです。
いままでのSAMではできなかったけど、EVF-SAM2リリースによって精度高く可能になったということで試してみました!

🌐プロジェクトページ類

📸写真を試してみる

デモ画面

デモでは写真とビデオ両方試せるようになっていました。

ということでまずは写真から試してみたのがこれ。ちゃんと真ん中の笑顔の女性が撮れてます。まったく不安のない良い精度ですね!

笑顔の女性だけをセグメント
壁にかかったセーターだけをセグメント
ちょっとわかりにくいけど灯台だけをセグメント
男性のみをセグメント

文章の捉え方や選び方もだいぶ洗練されている様子です。

📹ビデオを試してみる

動画の精度も変わらず良いですね!こちらも不安なし。

Xでも試した方の動画を見ていますが、いい感じです!

👀まとめ

通常SAMは画像の中から特定の部分を選び出すときにポイントやボックスを使ってそれを指示しますが、言葉を使った指示にはあまり対応していませんでした。
でもこのEVF-SAM2は画像とテキストの両方を使って指示を出すことで、SAMがより正確に画像を分けられるようにする方法にしています。
しかも、画像とテキストの情報がだいぶ早い段階で一緒に処理されるのでより的確に画像の中の特定の部分を見つけ出すことができるようになったとのこと。さらに従来の方法に比べて使うデータや計算量が少なくても高い精度を発揮する点も素晴らしいところです✨

本当、どんどん進歩していく技術とそれを公開してくださる技術者のみなさまのおかげで未来って作られていくんだな〜としみじみした今回でした。
今日はここまで〜!

この記事が気に入ったらサポートをしてみませんか?