見出し画像

【論文瞬読】SAM 2:画像と動画を自在に切り取る魔法のAI

こんにちは!株式会社AI Nestです。今日は、画像・動画処理の世界に革命を起こす可能性を秘めた最新のAIモデル「SAM 2」について、わかりやすく解説していきます。準備はいいですか?それでは、AIの魔法の世界へ飛び込んでいきましょう!

タイトル:SAM 2: Segment Anything in Images and Videos
URL:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/
所属:Meta FAIR
著者:Nikhila Ravi、Valentin Gabeur、Yuan-Ting Hu、Ronghang Hu、 Chaitanya Ryali、Tengyu Ma、Haitham Khedr、Roman Rädle、Chloe Rolland、Laura Gustafson、Eric Mintun、Junting Pan、Kalyan Vasudev Alwala、Nicolas Carion、Chao-Yuan Wu、Ross Girshick、Piotr Dollár、 Christoph Feichtenhofer

1. SAM 2とは? AIによる"万能はさみ"の誕生

皆さんは、写真や動画から特定のものだけを切り取りたいと思ったことはありませんか?例えば、家族写真から背景だけを変えたり、YouTubeの動画から猫だけを抽出したり...。そんな夢のような作業を、AIが瞬時にやってのける時代がやってきました。その主役が「SAM 2(Segment Anything Model 2)」なんです。

SAM 2は、Meta(旧Facebook)の研究チームが開発した、画像と動画の両方に対応する高度なセグメンテーションAIです。セグメンテーションって何?と思った方、簡単に言えば「画像や動画の中から特定の対象を識別し、切り取る」ことです。例えるなら、AIが操る超精密な"万能はさみ"のようなものですね。

Figure1, 本稿では、プロンプトによる視覚的セグメンテーションタスク(a)を解決するためのSegment Anything Model 2 (SAM 2)を、我々のデータエンジン(c)によって収集された大規模なSA-Vデータセット(b)を用いて学習した基礎モデル(c)と共に紹介する。SAM 2は、過去のプロンプトと予測を保存するストリーミングメモリを利用することで、1つまたは複数のビデオフレーム上でプロンプト(クリック、ボックス、マスク)を通して対話的に領域を分割することができる。

上の図は、SAM 2の全体像を示しています。(a)はSAM 2が取り組むタスク、(b)はモデルの構造、(c)はデータ収集のプロセスを表しています。この図から、SAM 2が画像と動画の両方を扱い、ユーザーの指示(プロンプト)に基づいて対象を切り取る様子がわかります。

2. SAM 2の驚異的な能力

SAM 2の能力は、従来のAIモデルを遥かに凌駕します。具体的にどれくらいすごいのか、いくつかのポイントで見ていきましょう。

  1. 速さと精度の両立
    画像処理では、前モデルのSAMより高精度で、なんと6倍も高速です。動画では、従来の手法より3倍少ない対話(ユーザーの指示)で高精度な結果を出せます。

  2. 柔軟性
    「犬」や「車」といった特定のカテゴリーに縛られず、文字通り"Anything"(何でも)セグメンテーションできます。

  3. 画像と動画の統合
    静止画だけでなく動画にも対応。しかも同じモデルで処理できるのが画期的です。

  4. 対話的な操作
    ユーザーが簡単な指示(クリックやボックスの描画など)を与えるだけで、AIが瞬時に対象を識別・追跡します。

Figure6, インタラクティブなオフラインおよびオンライン評価設定で、9つのデータセットに対するゼロショット精度

この図は、SAM 2と他の手法の性能比較を示しています。横軸は対話回数、縦軸は精度を表します。SAM 2(青線)が他の手法(オレンジと緑の線)を大きく上回っていることがわかります。つまり、より少ない対話でより高い精度を達成しているのです。

3. SAM 2の仕組み:AIの頭の中をのぞいてみよう

SAM 2がどうやってこんな魔法のような処理を実現しているのか、ちょっと技術的に掘り下げてみましょう。

3.1 アーキテクチャの秘密

Figure3, SAM 2のアーキテクチャ。与えられたフレームに対して、セグメンテーション予測は、現在のプロンプトおよび/または以前に観察された記憶に条件付けされる。動画はストリーミング方式で処理され、フレームは画像エンコーダによって一度に1つずつ消費される。オプションで入力プロンプトも受け付けるマスクデコーダは、そのフレームのセグメンテーションマスクを予測する。最後に、メモリエンコーダが、将来のフレームで使用するために、予測と画像エンコーダの埋め込み(図には示されていない)を変換する。

上の図は、SAM 2の内部構造を示しています。主要な構成要素は以下の通りです:

  1. 画像エンコーダー
    入力された画像や動画フレームを、AIが理解しやすい形式(特徴量)に変換します。SAM 2では「Hiera」という最新のエンコーダーを採用し、処理速度と精度を大幅に向上させています。

  2. メモリーアテンション
    動画処理の要です。過去のフレームの情報を記憶し、現在のフレームと関連付けることで、オブジェクトを連続的に追跡できます。

  3. プロンプトエンコーダーとマスクデコーダー
    ユーザーの指示(プロンプト)を解釈し、それに基づいてセグメンテーションマスクを生成します。

  4. ストリーミングメモリー
    長い動画でも効率的に処理できるよう、必要な情報だけを記憶し続けるシステムです。

3.2 学習データの重要性

AIの性能は、学習データの質と量に大きく左右されます。SAM 2の開発チームは、この点に特に注力し、「SA-V」という巨大なデータセットを構築しました。

Figure4, マスクレットを重ねたSA-Vデータセットの動画例(手動と自動)。各マスクレットは固有の色を持っており、各行は1つの動画から1秒間のフレームを表している。

上の図は、SA-Vデータセットのサンプルです。様々な対象物が多様な背景の中でセグメンテーションされているのがわかります。

SA-Vデータセットの特徴は以下の通りです:

  • 50.9K以上の動画

  • 642.6Kものセグメンテーションマスク(マスクレット)

  • 地理的に多様な撮影場所

  • 様々なシーンやオブジェクトを網羅

Figure5, データセットの分布:(a)マスクレットのサイズ分布(ビデオの解像度で正規化)、(b)ビデオの地理的多様性、(c)ビデオを録画したクラウドワーカーの自己申告による属性。

この図は、(a)マスクサイズの分布と(b)データの地理的分布を示しています。小さな対象物から大きな対象物まで幅広くカバーされており、また世界中から集められたデータであることがわかります。

このデータセットを使って学習することで、SAM 2は「何でもセグメンテーション」する能力を獲得したのです。

4. SAM 2の可能性:未来を切り開く"AIはさみ"

SAM 2の登場で、どんな未来が拓けるのでしょうか?いくつかの応用例を見てみましょう。

  1. 動画編集の革新
    YouTuberやフィルムメーカーが、複雑な編集ソフトなしで高度な映像加工を行えるようになるかもしれません。

  2. 自動運転技術の向上
    道路上の物体をより正確に識別・追跡することで、より安全な自動運転システムの実現につながります。

  3. AR/VRの進化
    現実世界の物体をリアルタイムで認識・追跡することで、よりシームレスなAR/VR体験が可能になるでしょう。

  4. 医療画像診断の支援
    MRIやCTスキャンの画像から、異常部位を高精度で抽出することができるかもしれません。

  5. ロボティクスの発展
    ロボットが周囲の物体をより正確に認識・操作できるようになり、より高度なタスクの自動化が進むでしょう。

Table6, 37のデータセットにおけるSegment Anything (SA)タスクのゼロショット精度。表は、ドメイン(画像/動画)別に、SAMと比較したSAM 2の1クリックと5クリックの平均mIoUを示している。SAMで使用された23のデータセット(SA-23)の平均メトリックスと、追加の14のゼロショットビデオデータセットの平均を報告する。

この表は、SAM 2と従来のSAMの性能比較を示しています。SAM 2が画像タスクでSAMを上回りながら、処理速度も大幅に向上していることがわかります。特に、動画フレームに対する性能向上(SA-23 Videoの列)が顕著です。

5. SAM 2の課題と今後の展望

もちろん、SAM 2にも改善の余地はあります。開発チームも以下のような課題を認識しています:

  • 急激なシーン変化への対応

  • 複雑な動きや長時間の遮蔽後のオブジェクト再認識

  • 細かい物体や高速で動く対象の追跡精度

これらの課題に対して、今後は以下のような方向性で研究が進められると予想されます:

  1. より洗練されたモーションモデリング

  2. 複数オブジェクト間の関係性の考慮

  3. さらに大規模で多様なデータセットの構築

  4. 特定ドメイン(医療画像など)への最適化

Figure16, ベースライン(Cutie-base+、上段)とモデル(SAM 2、下段)の比較。

この図は、SAM 2(下段)と従来手法(上段)のセグメンテーション結果を比較しています。SAM 2がより正確に対象物(この場合はシャツ)を追跡できていることがわかります。しかし、複雑な動きや部分的な遮蔽がある場合の性能向上は、今後の課題の一つです。

6. まとめ:AIが切り拓く、新たな視覚体験の世界

SAM 2の登場は、コンピュータビジョンの分野に大きな一歩をもたらしました。画像と動画を自在に操る"AIはさみ"の誕生は、私たちの視覚体験を大きく変える可能性を秘めています。

技術の進歩は日進月歩です。SAM 2が切り拓いた道を、次世代のAIがどう発展させていくのか。そして、それが私たちの生活にどんな変革をもたらすのか。今後の展開が本当に楽しみですね。

皆さんも、近い将来、スマートフォンやPCで簡単にSAM 2のような高度なAI技術を使える日が来るかもしれません。その時、この記事を思い出してもらえたら嬉しいです。

それでは、次回のテックブログでまたお会いしましょう!最新のAI技術について、これからも楽しく、わかりやすく解説していきます。ご期待ください!