![見出し画像](https://assets.st-note.com/production/uploads/images/130094164/rectangle_large_type_2_e9ded91531a10b2ff7ee5dc11d59c0d6.png?width=1200)
特別号「構成画像検索(Composed Image Retrieval)」
はじめに: 構成画像検索とは
構成画像検索とは、画像とクエリ(テキスト)を使って画像を検索することです。例えば、魚の画像と「折り紙」というワードで画像を検索すれば入力した魚に近い折り紙の画像を検索できます。
従来のよくある全部の画像の埋め込みベクトルを事前に計算しコサイン類似度で画像検索するというやり方だと、入力画像との類似画像しか検索できないという問題やクエリを追加して柔軟に検索することができないという問題に対処するのが構成画像検索ともいえるでしょう。
最近の構成画像検索の研究
Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval
![](https://assets.st-note.com/img/1707277580930-1ysJ9LKFbN.png?width=1200)
入力画像と追加したい特徴のクエリを合わせて画像検索する研究です。
訓練
![](https://assets.st-note.com/img/1707278576611-5uBxspU0wr.png?width=1200)
学習画像とその画像のラベルを合わせて、VisualEncoderの出力vの埋め込みとTextEncoderの出力pとを対照学習させているようです。
推論
![](https://assets.st-note.com/img/1707278585268-w9edyowxqf.png?width=1200)
学習したマッピングネットワークから推論させた出力と追加したクエリから特徴量を生成し画像検索するような流れになります。
Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder
![](https://assets.st-note.com/img/1707275818590-KKL9hgrWdF.png?width=1200)
他にもさらに枝刈りなどを使って効率化した合成画像検索のモデルもあります。
参照文献
[1]Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval
[2]Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder