【論文瞬読】DINO-X: オープンワールドの物体検出と理解のための統合ビジョンモデル

2024年11月23日 20:36

はじめに

こんにちは！本日は、IDEA Research Teamが発表した新しい物体検出モデル「DINO-X」について解説します。

タイトル：DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
URL：https://arxiv.org/abs/2411.14347
所属：International Digital Economy Academy (IDEA), IDEA Research
著者：IDEA Research Team

Figure1, DINO-Xは、さまざまなオープンワールドの知覚および物体レベルの理解タスクをサポートする統一されたオブジェクト中心のビジョンモデルです。これには、オープンワールドの物体検出およびセグメンテーション、フレーズグラウンディング、視覚プロンプトカウント、姿勢推定、プロンプトフリーの物体検出および認識、高密度領域キャプションなどが含まれます。

図1は、DINO-Xの多様な機能を示しています。物体検出、セグメンテーション、ポーズ推定など、様々なタスクを1つのモデルで実現できることがわかります。

DINO-Xとは？

DINO-Xは、オープンワールドの物体検出において最高性能を達成した統合的なビジョンモデルです。主な特徴として：

3種類のプロンプト対応
- テキストプロンプト：通常の物体検出シナリオ
- ビジュアルプロンプト：視覚的な例示による検出
- カスタマイズプロンプト：特定領域向けのチューニング可能なプロンプト
大規模なトレーニングデータ
- Grounding-100M：1億以上の高品質なグラウンディングサンプル
- マスク、キーポイント、キャプションなど多様なアノテーション
多機能な統合ヘッド
- Box Head：物体の位置検出
- Mask Head：セグメンテーション
- Keypoint Head：人体や手のポーズ推定
- Language Head：領域キャプションや物体認識

技術的な特徴

アーキテクチャ

Figure3, DINO-Xは、テキストプロンプト、ビジュアルプロンプト、カスタマイズプロンプトを受け付けるように設計されており、バウンディングボックスのような粗いレベルの表現から、マスク、キーポイント、オブジェクトのキャプションを含むきめ細かな詳細まで、同時に出力を生成することができる。

DINO-Xは、Transformerベースのエンコーダ-デコーダアーキテクチャを採用しています：

入力処理
- テキストエンコーダ：CLIPモデルを使用
- ビジュアルプロンプトエンコーダ：T-Rex2から採用
- カスタマイズプロンプト：プロンプトチューニング可能
各ヘッドの特徴
- Box Head：言語ガイド型クエリ選択
- Mask Head：Mask2FormerとMask DINOのハイブリッド
- Keypoint Head：ED-Poseベースの簡略化版
- Language Head：軽量な生成型言語モデル