見出し画像

【論文瞬読】DINO-X: オープンワールドの物体検出と理解のための統合ビジョンモデル

はじめに

こんにちは!本日は、IDEA Research Teamが発表した新しい物体検出モデル「DINO-X」について解説します。

タイトル:DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
URL:https://arxiv.org/abs/2411.14347
所属:International Digital Economy Academy (IDEA), IDEA Research
著者:IDEA Research Team

Figure1, DINO-Xは、さまざまなオープンワールドの知覚および物体レベルの理解タスクをサポートする統一されたオブジェクト中心のビジョンモデルです。これには、オープンワールドの物体検出およびセグメンテーション、フレーズグラウンディング、視覚プロンプトカウント、姿勢推定、プロンプトフリーの物体検出および認識、高密度領域キャプションなどが含まれます。

図1は、DINO-Xの多様な機能を示しています。物体検出、セグメンテーション、ポーズ推定など、様々なタスクを1つのモデルで実現できることがわかります。

DINO-Xとは?

DINO-Xは、オープンワールドの物体検出において最高性能を達成した統合的なビジョンモデルです。主な特徴として:

  1. 3種類のプロンプト対応

    • テキストプロンプト:通常の物体検出シナリオ

    • ビジュアルプロンプト:視覚的な例示による検出

    • カスタマイズプロンプト:特定領域向けのチューニング可能なプロンプト

  2. 大規模なトレーニングデータ

    • Grounding-100M:1億以上の高品質なグラウンディングサンプル

    • マスク、キーポイント、キャプションなど多様なアノテーション

  3. 多機能な統合ヘッド

    • Box Head:物体の位置検出

    • Mask Head:セグメンテーション

    • Keypoint Head:人体や手のポーズ推定

    • Language Head:領域キャプションや物体認識

技術的な特徴

アーキテクチャ

Figure3, DINO-Xは、テキストプロンプト、ビジュアルプロンプト、カスタマイズプロンプトを受け付けるように設計されており、バウンディングボックスのような粗いレベルの表現から、マスク、キーポイント、オブジェクトのキャプションを含むきめ細かな詳細まで、同時に出力を生成することができる。

DINO-Xは、Transformerベースのエンコーダ-デコーダアーキテクチャを採用しています:

  1. 入力処理

    • テキストエンコーダ:CLIPモデルを使用

    • ビジュアルプロンプトエンコーダ:T-Rex2から採用

    • カスタマイズプロンプト:プロンプトチューニング可能

  2. 各ヘッドの特徴

    • Box Head:言語ガイド型クエリ選択

    • Mask Head:Mask2FormerとMask DINOのハイブリッド

    • Keypoint Head:ED-Poseベースの簡略化版

    • Language Head:軽量な生成型言語モデル

性能評価

ベンチマーク結果

Figure2, DINO-X Proのゼロショット性能が公開検出ベンチマークで実証されました。Grounding DINO 1.5 ProおよびGrounding DINO 1.6 Proと比較すると、DINO-X ProはCOCO、LVIS-minival、およびLVIS-valのゼロショットベンチマークにおいて最新の(SOTA)性能を達成した。さらに、LVIS-minivalおよびLVIS-valのレアクラスオブジェクトの検出では、他のモデルよりも大きなマージンをもって優れており、ロングテールオブジェクトの認識に卓越した能力を発揮している。

DINO-Xは、複数のベンチマークで優れた性能を示しています:

  • COCO:56.0 AP

  • LVIS-minival:59.8 AP

  • LVIS-val:52.4 AP

特に、長尾(ロングテール)オブジェクトの検出において:

  • LVIS-minivalレアクラス:63.3 AP(従来比+5.8 AP)

  • LVIS-valレアクラス:56.5 AP(従来比+5.0 AP)

エッジデバイス向けモデル

DINO-X Edgeは、軽量化と高速化を実現:

  • EfficientViTをバックボーンとして使用

  • FP16推論の最適化

  • 20.1 FPS達成(33%の速度向上)

応用例と実践的な使用

Figure5, DINO-Xによるオープンワールドのオブジェクト検出
Figure6, DINO-Xによる長いキャプションフレーズの接地
Figure7,  DINO-Xによるオープンワールドのオブジェクトセグメンテーションとビジュアルプロンプトによるオブジェクトカウント
Figure8, DINO-Xによる迅速なオブジェクト検出と認識
Figure9, DINO-Xによる高密度領域キャプション
Figure10, DINO-Xによる人体および人体の手のポーズ推定

DINO-Xの実践的な応用例:

  1. オープンワールド物体検出

    • 一般的な物体から珍しい物体まで幅広く検出

    • プロンプトなしでの自動検出も可能

  2. 密な領域キャプション生成

    • 画像内の各領域の詳細な説明生成

    • 視覚的質問応答との統合

  3. 人体・手のポーズ推定

    • 多様なシーンでの人体ポーズ推定

    • 手の細かい動きの検出

まとめ

DINO-Xは、物体検出の新しい地平を開く統合的なビジョンモデルです。主な利点として:

  • 複数のタスクを1つのモデルで実現

  • 優れたロングテール物体の検出能力

  • エッジデバイスへの対応

  • 柔軟なプロンプト対応

今後の展開として、マスクヘッドの性能向上や、より多くの実用的なシナリオへの適用が期待されます。

このモデルのAPI等は以下で公開予定とのことです。