AffordanceLLM: Grounding Affordance from Vision Language Models
論文タイプ:本研究は原著論文であり、掲載誌は明示されていません。
本研究の背景と関連研究:本研究は、画像からオブジェクトとの相互作用が可能な領域を見つける「アフォーダンスグラウンディング」という課題に取り組んでいます。この課題は、オブジェクトの検出、位置特定、認識、シーンの地理的配置やレイアウト、3D形状や物理的特性、オブジェクトと人間の機能や潜在的な相互作用など、複数の側面でシーンを包括的に理解することを必要とするため、困難な課題です。過去の研究では、人間のデモンストレーションを使用してこの課題を進めてきましたが、訓練時に見たことのない新しいオブジェクトに対しては一般化が困難でした。
本研究の目的とその重要性:本研究の目的は、大規模なビジョン言語モデルからの豊富な知識を活用することで、現在のアフォーダンスグラウンディングの一般化能力を向上させることです。訓練画像からの教師付きラベルだけではなく、豊富な世界、抽象的な知識、人間とオブジェクトの相互作用の知識を活用することで、訓練時に見たことのない野生のオブジェクトに対してもアフォーダンスグラウンディングが可能となります。この研究の重要性は、アフォーダンスグラウンディングの一般化能力を向上させることで、人間とオブジェクトの相互作用を理解するための基盤を築くことにあります。
本研究で用いた材料やデータの詳細:本研究では、大規模なビジョン言語モデルからの知識を活用するために、事前に訓練された大規模なビジョン言語モデル[36]を使用しています。具体的な材料やデータの詳細は明示されていません。
本研究で何をどのように、どこまで明らかにした?:本研究では、アフォーダンスグラウンディングの一般化能力を向上させるために、大規模なビジョン言語モデルを活用した新しい手法「AffordanceLLM」を開発しました。具体的には、訓練画像からの教師付きラベルだけでなく、大規模なビジョン言語モデルからの豊富な知識を活用することで、訓練時に見たことのない野生のオブジェクトに対してもアフォーダンスグラウンディングが可能となります。
本研究の有効性はどのように検証した?:本研究では、AGD20Kベンチマークにおいて、提案されたモデルが野生のオブジェクトに対するアフォーダンスグラウンディングの競合手法に比べて大幅な性能向上を示すことを実証しました。さらに、訓練時に見たことのないランダムなインターネット画像のオブジェクトに対してもアフォーダンスグラウンディングが可能であることを示しました。
効果的なキーワードの提案:
この記事が気に入ったらサポートをしてみませんか?