
【論文瞬読】DINO-X: オープンワールドの物体検出と理解のための統合ビジョンモデル
はじめに
こんにちは!本日は、IDEA Research Teamが発表した新しい物体検出モデル「DINO-X」について解説します。
タイトル:DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
URL:https://arxiv.org/abs/2411.14347
所属:International Digital Economy Academy (IDEA), IDEA Research
著者:IDEA Research Team

図1は、DINO-Xの多様な機能を示しています。物体検出、セグメンテーション、ポーズ推定など、様々なタスクを1つのモデルで実現できることがわかります。
DINO-Xとは?
DINO-Xは、オープンワールドの物体検出において最高性能を達成した統合的なビジョンモデルです。主な特徴として:
3種類のプロンプト対応
テキストプロンプト:通常の物体検出シナリオ
ビジュアルプロンプト:視覚的な例示による検出
カスタマイズプロンプト:特定領域向けのチューニング可能なプロンプト
大規模なトレーニングデータ
Grounding-100M:1億以上の高品質なグラウンディングサンプル
マスク、キーポイント、キャプションなど多様なアノテーション
多機能な統合ヘッド
Box Head:物体の位置検出
Mask Head:セグメンテーション
Keypoint Head:人体や手のポーズ推定
Language Head:領域キャプションや物体認識
技術的な特徴
アーキテクチャ

DINO-Xは、Transformerベースのエンコーダ-デコーダアーキテクチャを採用しています:
入力処理
テキストエンコーダ:CLIPモデルを使用
ビジュアルプロンプトエンコーダ:T-Rex2から採用
カスタマイズプロンプト:プロンプトチューニング可能
各ヘッドの特徴
Box Head:言語ガイド型クエリ選択
Mask Head:Mask2FormerとMask DINOのハイブリッド
Keypoint Head:ED-Poseベースの簡略化版
Language Head:軽量な生成型言語モデル
性能評価
ベンチマーク結果

DINO-Xは、複数のベンチマークで優れた性能を示しています:
COCO:56.0 AP
LVIS-minival:59.8 AP
LVIS-val:52.4 AP
特に、長尾(ロングテール)オブジェクトの検出において:
LVIS-minivalレアクラス:63.3 AP(従来比+5.8 AP)
LVIS-valレアクラス:56.5 AP(従来比+5.0 AP)
エッジデバイス向けモデル
DINO-X Edgeは、軽量化と高速化を実現:
EfficientViTをバックボーンとして使用
FP16推論の最適化
20.1 FPS達成(33%の速度向上)
応用例と実践的な使用






DINO-Xの実践的な応用例:
オープンワールド物体検出
一般的な物体から珍しい物体まで幅広く検出
プロンプトなしでの自動検出も可能
密な領域キャプション生成
画像内の各領域の詳細な説明生成
視覚的質問応答との統合
人体・手のポーズ推定
多様なシーンでの人体ポーズ推定
手の細かい動きの検出
まとめ
DINO-Xは、物体検出の新しい地平を開く統合的なビジョンモデルです。主な利点として:
複数のタスクを1つのモデルで実現
優れたロングテール物体の検出能力
エッジデバイスへの対応
柔軟なプロンプト対応
今後の展開として、マスクヘッドの性能向上や、より多くの実用的なシナリオへの適用が期待されます。
このモデルのAPI等は以下で公開予定とのことです。