ClipCap: CLIP Prefix for Image Captioning

SUMMARY

  1. CLIPとGPT-2という事前学習済みの強力なモデルを活用し、それらを繋ぐシンプルなマッピングネットワークのみを学習させるアプローチを提案しています。

  2. CLIPの画像エンコーディングを入力として受け取り、キャプションの先頭に付加するプレフィックス埋め込みを生成するマッピングネットワークを学習させます。

  3. 言語モデル(GPT-2)はプレフィックスを受け取ってキャプションを生成します。言語モデルはファインチューニングする場合としない場合の2つのバリエーションを提案しています。

  4. このアプローチにより、従来手法と比べて非常に少ないパラメータ数と短い学習時間で、競争力のある結果を達成しています。

  5. COCO、nocaps、Conceptual Captionsデータセットで評価を行い、特に多様なデータセットであるnopcapsとConceptual Captionsで優れた性能を示しています。

  6. プレフィックスの長さやマッピングネットワークのアーキテクチャに関する分析も行っています。

  7. 事前学習済みモデルを活用し、最小限の追加学習で新しいタスクに適応させるという新しいパラダイムの一例として位置付けられています。

このアプローチの主な利点は、学習の速さとシンプルさにあり、多様なデータセットに対して柔軟に適用できる点が強調されています。

Introduction

画像キャプショニングは、視覚と言語の理解における基本的なタスクであり、モデルが与えられた入力画像に対して、情報量の多いテキストによるキャプションを予測します。このタスクには主に2つの課題があります。

1つ目の課題は意味的理解です。この側面は、主要な物体を検出するような単純なタスクから、画像に描かれた部分間の関係を理解するようなより複雑なタスクまで幅広く及びます。例えば、図1の左上の画像では、モデルがその物体がギフトであることを理解しています。

2つ目の課題は、1つの画像を描写する可能な方法が非常に多いことです。この側面では、通常、訓練データセットが特定の画像に対する好ましい選択肢を決定します。

画像キャプショニングに対しては多くのアプローチが提案されてきました。典型的に、これらの研究は視覚的手がかりのためのエンコーダーと、最終的なキャプションを生成するためのテキストデコーダーを利用します。本質的に、これは視覚的表現とテキスト表現の間の困難なギャップを埋める必要性を生み出します。このため、そのようなモデルはリソースを多く消費します。それらは広範な訓練時間、多数の訓練可能なパラメータ、巨大なデータセット、そして場合によっては追加のアノテーション(検出結果など)を必要とし、その実用的な適用可能性を制限します。

過度の訓練時間は、複数の訓練手順を必要とするアプリケーションにとってさらに制限的です。例えば、様々なデータセットで複数のキャプショニングモデルを訓練することで、異なるユーザー(またはアプリケーション)に同じ画像に対して異なるキャプションを提供できるかもしれません。さらに、新しいサンプルが与えられた場合、新しいデータでモデルを定期的に更新することが望ましいです。したがって、軽量なキャプショニングモデルが好ましいです。特に、より短い訓練時間とより少ない訓練可能なパラメータを持つモデルは、追加の監督を必要としない場合特に有益でしょう。

この論文では、キャプショニングプロセスを簡素化するために、強力な視覚-言語の事前訓練モデルを活用します。より具体的には、Radfordらによって最近導入されたCLIP(Contrastive Language-Image Pre-Training)エンコーダーを使用します。CLIPは画像とテキストプロンプトの両方に対して共有表現を課すように設計されています。それは膨大な数の画像とテキスト説明を対照損失を用いて訓練されています。したがって、その視覚的表現とテキスト表現はよく相関しています。我々が示すように、この相関は訓練時間とデータ要件を節約します。

図2に示すように、我々の手法はCLIP埋め込みにマッピングネットワークを適用することで、各キャプションのプレフィックスを生成します。このプレフィックスは固定サイズの埋め込みシーケンスで、キャプション埋め込みに連結されます。これらは言語モデルに供給され、言語モデルはマッピングネットワークの訓練と共にファインチューニングされます。推論時には、言語モデルはCLIPプレフィックスから始めて、単語ごとにキャプションを生成します。この計画は、前述の視覚世界とテキスト世界の間のギャップを狭め、単純なマッピングネットワークの採用を可能にします。さらに軽いモデルを達成するために、我々はCLIPと言語モデルの両方を凍結したまま、マッピングネットワークのみを訓練する別のバリアントを導入します。表現力豊かなトランスフォーマーアーキテクチャを利用することで、我々は実質的により少ない訓練可能なパラメータを課しながら、意味のあるキャプションを成功裏に生成します。我々のアプローチはLiらに触発されており、彼らは学習されたプレフィックスを連結することで、言語モデルを新しいタスクに効率的に適応させる能力を実証しました。我々はGPT-2を言語モデルとして使用しており、これは豊かで多様なテキストを生成することが実証されています。

我々のアプローチはCLIPの豊かな視覚-テキスト表現を利用するため、我々のモデルは大幅に低い訓練時間を必要とします。例えば、我々は巨大なConceptual Captionsデータセットの300万サンプルに対して、単一のNvidia GTX1080 GPUで80時間訓練します。それにもかかわらず、我々のモデルは複雑なシーンにうまく一般化します。図1で見られるように(例:砂浜での日没時のヨガの練習)。我々は我々の手法を広範に評価し、現実的で意味のあるキャプションの成功を実証します。我々のモデルがより少ない訓練時間を必要とするにもかかわらず、それでも挑戦的なConceptual CaptionsとnocapsデータセットでState-of-the-artアプローチと同等の結果を達成し、より制限されたCOCOベンチマークでは僅かに低い結果を示します。さらに、我々は必要なプレフィックスの長さと言語モデルのファインチューニングの効果について、生成されたプレフィックスの解釈を含む徹底的な分析を提供します。

全体として、我々の主な貢献は以下の通りです:

  1. 視覚処理と言語処理の両方に対して、事前訓練された凍結モデルを利用する軽量なキャプショニングアプローチ。

  2. 言語モデルがファインチューニングされる場合でも、我々のアプローチはより単純で訓練が速く、挑戦的なデータセットでState-of-the-artと同等の結果を示します。

Related Works

最近、RadfordらはCLIPとして知られる新しいアプローチを提示しました。CLIPは画像とテキストの説明を共同で表現するものです。CLIPは2つのエンコーダーで構成されており、1つは視覚的手がかり用、もう1つはテキスト用です。これは4億以上の画像-テキストペアを用いて、教師なし対照損失によって訓練されました。その結果、視覚データとテキストデータの両方で共有される豊かな意味的潜在空間が生成されました。多くの研究がすでにCLIPを、補助的なテキストの理解を必要とするコンピュータビジョンタスクに成功裏に使用しています。例えば、自然言語の条件に基づいて画像を生成したり編集したりするような作業です。この論文では、我々は強力なCLIPモデルを画像キャプショニングタスクに利用します。なお、我々の手法はCLIPのテキストエンコーダーを使用しません。なぜなら、入力テキストがなく、出力テキストは言語モデルによって生成されるからです。

一般的に、画像キャプショニングモデルはまず入力ピクセルを特徴ベクトルとしてエンコードし、それらを使用して最終的な単語のシーケンスを生成します。初期の研究は事前訓練された分類ネットワークから抽出された特徴を利用していましたが、後の研究は物体検出ネットワークのより表現力豊かな特徴を活用しています。人気のあるCOCOベンチマークには事前訓練された物体検出ネットワークが利用可能ですが、他のデータセットでは必ずしもそうではありません。これは、ほとんどの手法が新しく多様なデータセットで動作するために、追加の物体検出アノテーションを必要とすることを意味します。視覚的手がかりをさらに活用するために、通常、注意機構が特定の視覚特徴に焦点を当てるために使用されます。さらに、最近のモデルは自己注意を適用したり、表現力豊かな視覚トランスフォーマーをエンコーダーとして使用したりしています。我々の研究は視覚表現のためにCLIPの表現力豊かな埋め込みを使用します。CLIPは非常に多数の画像で訓練されているため、我々は追加のアノテーションなしで任意の自然画像セットで動作できます。

キャプション自体を生成するために、テキストデコーダーが採用されます。初期の研究はLSTMの変種を使用していましたが、最近の研究は改良されたトランスフォーマーアーキテクチャを採用しています。トランスフォーマーに基づいて構築された最も注目すべき研究の1つはBERTです。BERTは新しく導入されたパラダイムの優位性を示しました。このパラダイムでは、言語モデルはまず大規模なデータコレクションで補助的タスクを解決するために事前訓練されます。その後、モデルは特定のタスクのために微調整され、追加の監督が使用されます。我々の視覚情報はプレフィックスに存在するため、我々は強力な自己回帰言語モデルであるGPT-2を利用します。訓練損失項を考慮すると、初期の研究は効果的なクロスエントロピーを採用していましたが、現代の手法はまた自己批判的シーケンス訓練を適用します。つまり、CIDEr指標を最適化するための追加の訓練段階です。我々は意図的にこの最適化を控え、迅速な訓練手順を維持します。

我々のものに最も近いのは、視覚と言語の事前訓練を採用して、視覚とテキストの両方の共有潜在空間を作成する研究です。ZhouらはBERTアーキテクチャを利用して予測を行うために、物体検出器から抽出された視覚トークンをキャプショントークンのプレフィックスとして使用します。モデル全体はその後、事前訓練されます。LiらとZhangらもBERTを利用しますが、物体タグの追加の監督を必要とします。したがって、これらの手法は、そのような物体検出器やアノテーションが利用可能なデータセットに限定されます。Wangらのアプローチは補足的なアノテーションの必要性を軽減しますが、それでも何百万もの画像-テキストペアを用いた広範な事前訓練プロセスを実行し、長い訓練時間をもたらします。この徹底的な事前訓練ステップは、言語と視覚の共同表現の欠如を補償するために必要であり、我々はCLIPを採用することで本質的にこれを得ています。

Method

まず、問題設定から始めます。画像とキャプションのペアのデータセット{x_i, c_i}^N_{i=1}が与えられたとき、我々の目標は未見の入力画像に対して意味のあるキャプションを生成することを学習することです。キャプションをトークンのシーケンスc_i = c_i_1, ..., c_i_ℓとして参照できます。ここで、トークンは最大長ℓにパディングされます。我々の訓練目的は以下のようになります:

max_θ Σ^N_{i=1} log p_θ(c_i_1, ..., c_i_ℓ | x_i)

ここで、θはモデルの訓練可能なパラメータを表します。我々の鍵となるアイデアは、本質的に必要な視覚データを含むCLIPの豊かな意味的埋め込みを条件として使用することです。最近の研究に従って、我々はこの条件をキャプションのプレフィックスとして考えます。必要な意味情報がプレフィックスにカプセル化されているため、我々は将来のトークンを考慮せずに次のトークンを予測する自己回帰言語モデルを利用できます。したがって、我々の目的は以下のように記述できます:

max_θ Σ^N_{i=1} Σ^ℓ_{j=1} log p_θ(c_i_j | x_i, c_i_1, ..., c_i_{j-1})

3.1. 概要

我々の手法の図解は図2に示されています。我々は言語モデルとしてGPT-2(large)を使用し、そのトークナイザーを使用してキャプションをエンベディングのシーケンスに射影します。画像x_iから視覚情報を抽出するために、我々は事前訓練されたCLIPモデルの視覚エンコーダーを使用します。次に、我々は軽量なマッピングネットワークFを採用して、CLIP埋め込みをk個の埋め込みベクトルにマッピングします:

p_i_1, ..., p_i_k = F(CLIP(x_i))

ここで、各ベクトルp_i_jは単語埋め込みと同じ次元を持ちます。その後、得られた視覚埋め込みをキャプションc_iの埋め込みに連結します:

Z_i = p_i_1, ..., p_i_k, c_i_1, ..., c_i_ℓ

訓練中、我々はプレフィックス-キャプションの連結{Z_i}^N_{i=1}を言語モデルに供給します。我々の訓練目的は、自己回帰的な方法でプレフィックスを条件としてキャプショントークンを予測することです。この目的のために、我々はシンプルながら効果的なクロスエントロピー損失を使用してマッピングコンポーネントFを訓練します:

L_X = -Σ^N_{i=1} Σ^ℓ_{j=1} log p_θ(c_i_j | p_i_1, ..., p_i_k, c_i_1, ..., c_i_{j-1})

次に、言語モデルの追加のファインチューニングに関する我々の手法の2つのバリアントとそれらの意味について議論します。

3.2. 言語モデルのファインチューニング

訓練中の我々の主な課題は、CLIPと言語モデルの表現の間を翻訳することです。両モデルはテキストの豊かで多様な表現を発展させていますが、それらの潜在空間は独立しています。なぜなら、それらは共同で訓練されていないからです。さらに、各キャプショニングデータセットは異なるスタイルを組み込んでおり、これは事前訓練された言語モデルにとって自然でない可能性があります。したがって、我々はマッピングネットワークの訓練中に言語モデルをファインチューニングすることを提案します。これはネットワークに追加の柔軟性を提供し、より表現力豊かな結果をもたらします。

しかし、言語モデルをファインチューニングすることは、自然に訓練可能なパラメータの数を大幅に増加させます。したがって、我々は訓練中に言語モデルを固定したままにする我々のアプローチの追加のバリアントを提示します。固定された言語モデルを調整しようとする我々の試みは、LiとLiangの研究に触発されています。彼らの研究では、プレフィックスのみを学習することで、そのような事前訓練されたモデルを未知のタスクに適応させています。そのようなプレフィックスは、標準的な訓練手順中に新しい目的に向けて言語モデルを操縦するように自動的に最適化されます。このアプローチに従って、我々はファインチューニングを避け、マッピングネットワークのみを訓練するさらに軽量なモデルを実現することを提案します。セクション4で示されるように、我々のモデルは現実的で意味のあるキャプションを生成するだけでなく、言語モデルをファインチューニングせずに一部の実験で優れた結果を達成します。CLIPをファインチューニングしても結果の品質に利益をもたらさず、訓練時間と複雑さを増加させることに注意してください。したがって、我々はCLIP空間がすでに必要な情報をカプセル化しており、特定のスタイルに向けてそれを適応させることは柔軟性に寄与しないと推測します。

3.3. マッピングネットワークアーキテクチャ

我々の鍵となるコンポーネントは、CLIP埋め込みをGPT-2空間に翻訳するマッピングネットワークです。言語モデルが同時にファインチューニングされる場合、マッピングはそれほど困難ではありません。なぜなら、我々は両方のネットワークを容易に制御できるからです。したがって、この場合、我々は単純な多層パーセプトロン(MLP)を採用できます。CLIPが視覚-言語目的のために事前訓練されているため、我々は単一の隠れ層を使用するだけでも現実的で意味のあるキャプションを達成しています。

しかし、言語モデルが凍結されている場合、我々はより表現力豊かなトランスフォーマーアーキテクチャを利用することを提案します。トランスフォーマーは入力トークン間のグローバルな注意を可能にし、同時に長いシーケンスに対するパラメータの数を減少させます。これにより、セクション4で示されるように、プレフィックスサイズを増加させることで結果を改善できます。

我々はトランスフォーマーネットワークに2つの入力、CLIPの視覚エンコーディングと学習された定数入力を供給します。定数は二重の役割を持ちます。第一に、マルチヘッド注意を通じてCLIP埋め込みから意味のある情報を取得すること。第二に、固定された言語モデルを新しいデータに調整することを学習することです。これはセクション4で示されており、我々は生成されたプレフィックスの解釈可能性を提供します。見られるように、言語モデルが固定されている場合、トランスフォーマーマッピングネットワークはテキストの意味を持たない綿密な埋め込みセットを学習します。これらは言語モデルを制御するために最適化されています。

3.4. 推論

推論時には、我々はCLIPエンコーダーとマッピングネットワークFを使用して、入力画像xの視覚プレフィックスを抽出します。我々は視覚プレフィックスを条件として与えてキャプションの生成を開始し、言語モデルの出力に導かれて次のトークンを1つずつ予測します。各トークンに対して、言語モデルはすべての語彙トークンに対する確率を出力し、これらは貪欲なアプローチまたはビーム探索を採用して次のトークンを決定するために使用されます。

Results

データセット:
我々はCOCO-captions、nocaps、およびConceptual Captionsデータセットを使用しています。COCOは、Karpathyらの分割に従って分割しており、訓練セットには120,000枚の画像と画像ごとに5つのキャプションが含まれています。COCOは80クラスに限定されているため、nocapsデータセットは未見のクラスと概念への一般化を測定するように設計されています。nocapsには検証セットとテストセットのみが含まれており、訓練にはCOCO自体が使用されます。nocapsデータセットは3つの部分に分かれています - in-domainはCOCOクラスのみを描写する画像を含み、near-domainはCOCOと新規クラスの両方を含み、out-of-domainは新規クラスのみで構成されています。Liらの提案に従い、我々は検証セットのみを使用してモデルを評価します。一部の手法は新規クラスの物体タグを利用していますが、我々は実践的により適用可能だと考えるため、追加の監督なしの設定のみを考慮します。したがって、我々は制約付きビーム探索を採用しません。Conceptual Captionsデータセットは、ウェブから収集され後処理された300万ペアの画像とキャプションで構成されています。これは、画像とキャプションの両方のスタイルがより多様で、特定のクラスに限定されていないため、COCOよりも挑戦的であると考えられています。概念に焦点を当てるため、このデータセットの特定のエンティティは一般的な概念に置き換えられています。例えば、図1では、名前は「政治家」に置き換えられています。評価には、テストセットが公開されていないため、12.5K画像からなる検証セットを使用します。結果として、我々はこのセットを検証に使用しませんでした。

ベースライン:
我々はLiら(Oscarとして知られる)、Vision-Language Pre-training model(VLP)、およびAndersonらの著名な研究(BUTDと呼ばれる)のState-of-the-artの研究と我々の手法を比較します。これらのモデルはまず、物体検出ネットワークを使用して視覚特徴を生成します。BUTDはその後、キャプションを生成するためにLSTMを利用し、VLPとOscarはBERTと同様に訓練されたトランスフォーマーを採用します。VLPとOscarは、何百万もの画像-テキストペアを用いた広範な事前訓練手順も利用します。Oscarは我々の設定と比較して、各画像の物体タグの形で追加の監督も使用します。

我々のデフォルト構成は、言語モデルをファインチューニングせずにトランスフォーマーマッピングネットワークを採用し、「Ours; Transformer」と表記されます。さらに、我々はMLPマッピングネットワークを利用し、言語モデルをファインチューニングするバリアントも評価し、これは「Ours; MLP + GPT2 tuning」と表記されます。他の構成は表1(D)で評価されています。

評価指標:
Liらと同様に、我々はCOCOデータセットに対して一般的な指標であるBLEU、METEOR、CIDEr、およびSPICEを使用して結果を検証し、nocapsデータセットに対してはCIDErとSPICEを使用します。Conceptual Captionsに対しては、著者らの提案に従ってROUGE-L、CIDEr、およびSPICEを報告します。

さらに、我々は訓練時間と訓練可能なパラメータの数を測定して、我々の手法の適用可能性を検証します。訓練時間を短縮することで、新しいデータに対して迅速に新しいモデルを取得し、モデルのアンサンブルを作成し、エネルギー消費を減少させることができます。他の研究と同様に、我々はGPU時間で訓練時間を報告し、使用されたGPUモデルも記載します。訓練可能なパラメータの数は、モデルの実現可能性を示す一般的な指標です。

定量的評価:
挑戦的なConceptual Captionsデータセットの定量的結果は表1(A)に示されています。見られるように、我々はVLPの結果を上回り、訓練時間を桁違いに短縮しています。我々の軽量モデル(GPT-2をファインチューニングしない)は、このデータセットに対して劣った結果を達成することに注意してください。我々は、スタイルの多様性が大きいため、我々の軽量モデルよりも表現力豊かなモデルが必要であると仮説を立てています。これは、パラメータ数を大幅に減少させます。我々は他のベースラインがこのデータセットに対する結果や訓練済みモデルを公開していないため、VLPとのみ比較しています。

表1(B)はnocapsデータセットの結果を示しており、我々はState-of-the-artの手法であるOscarと同等の結果を達成しています。見られるように、OscarはSPICEスコアでわずかに優れており、我々はCIDErスコアでわずかに優れています。それでも、我々の手法は訓練時間と訓練可能なパラメータの一部しか使用せず、追加の物体タグも必要としないため、実践的にはるかに有用です。

表1(C)はCOCOデータセットの結果を示しています。Oscarが最良の結果を達成していますが、物体タグの形で追加の入力を使用しています。我々の結果はVLPとBUTDに近く、これらは大幅により多くのパラメータと訓練時間を必要とします。VLPとOscarの訓練時間には事前訓練ステップが含まれていないことに注意してください。例えば、VLPの事前訓練にはConceptual Captionsでの訓練が必要で、これは1200 GPU時間を消費します。

Conceptual CaptionsとnocapsはCOCOよりも多様な視覚概念をモデル化するように設計されています。したがって、我々は迅速な訓練手順を使用して多様なデータに一般化するために、我々の手法が好ましいと結論付けます。これは、CLIPとGPT-2の両方のすでに豊かな意味的表現を利用することに由来しています。

定性的評価:
COCOデータセットとConceptual Captionsデータセットの両方のテストセットの最初の例の未編集の視覚結果は、それぞれ図3と図4に示されています。見られるように、我々の生成されたキャプションは両方のデータセットに対して意味があり、画像を成功裏に描写しています。図1にはウェブから収集された追加の例を示しています。見られるように、我々のConceptual Captionsモデルは、大規模で多様な画像セットで訓練されているため、任意の未見の画像に対してうまく一般化します。また、図5にスマートフォンの画像に対する結果も示しており、新しいシナリオへの一般化をさらに実証しています。さらに、我々のモデルはCOCOでのみ訓練された場合でも、珍しい物体を成功裏に識別します。例えば、図3では、我々の手法はOscarよりも木製のスプーンやろうそく付きのケーキをより良く認識しています。これは、CLIPが多様な画像セットで事前訓練されているためです。しかし、我々の手法は図3の列車の隣の自転車を認識するなど、一部のケースでまだ失敗します。これはCLIPモデルから継承されており、CLIPがそもそも自転車を知覚していないためです。我々は、CLIPの物体検出能力を改善することで我々のモデルが恩恵を受けると結論付けますが、この方向性は将来の研究のために残しています。Conceptual Captionsに対しては、我々の手法はほとんど正確なキャプションを生成しており、例えば図4の緑色の3D人物を知覚しています。予想通り、我々の手法はまだデータバイアスに苦しんでいます。例えば、図4のベッドルーム画像を「この物件は1ポンドで販売中です」と描写していますが、これは訓練中に不動産広告のようなキャプションを目撃したためです。

言語モデルのファインチューニング:
セクション3で説明したように、言語モデルをファインチューニングすることで、はるかに表現力豊かなモデルが得られますが、訓練可能なパラメータの数が増加するため、過学習にもより敏感になります。表1で見られるように、言語モデルのファインチューニングの有無による2つのバリアントは同等です。非常に複雑なConceptual Captionsデータセットでは、ファインチューニングで優れた結果が得られます。一方、一般的なCOCOデータセットでは、ファインチューニングを避けることでより良い結果が得られます。nocapsデータセットに関しては、結果はほぼ同等であるため、より軽量なモデルが好ましいでしょう。したがって、我々は非常に精巧なデータセットや独特のスタイルを示すデータセットでは、より表現力が必要であり、ファインチューニングから恩恵を受ける可能性が高いと仮説を立てています。

プレフィックスの解釈可能性:
我々の手法と結果をさらに理解するために、我々は生成されたプレフィックスを単語のシーケンスとして解釈することを提案します。プレフィックスと単語の埋め込みは同じ潜在空間を共有しているため、それらは同様に扱うことができます。我々はk個のプレフィックス埋め込みそれぞれの解釈を、コサイン類似度の下で最も近い語彙トークンとして定義します。図6は画像、生成されたキャプション、およびそれらのプレフィックスの解釈の例を示しています。マッピングネットワークとGPT-2の両方が訓練される場合、解釈は意味があります。この場合、解釈には画像の内容に関連する顕著な単語が含まれています。例えば、最初の例の「motorcycle」と「showcase」です。しかし、マッピングネットワークのみを訓練する場合、解釈は本質的に読めないものになります。これは、ネットワークが固定された言語モデルを操作することも担当しているためです。実際、同じモデルに対して、プレフィックス埋め込みのかなりの部分が異なる画像間で共有されており、これはGPT-2に対して同じ調整を行っているためです。

プレフィックスの長さ:
LiとLiangは、プレフィックスの長さを増加させることで、ある値まではモデルの基礎となるタスクでのパフォーマンスが向上することを示しました。さらに、飽和長はタスク間で異なる可能性があります。画像キャプショニングタスクに対して、我々はCOCOデータセットを使用して我々の手法の2つの構成でプレフィックス長に関するアブレーション研究を行います:「Ours; Transformer」と「Ours; MLP + GPT2 tuning」です。結果は図7にまとめられています。各プレフィックスサイズと構成に対して、我々はネットワークを5エポック訓練し、テストセットと訓練セットに対するBLEU@4とCIDErスコアを報告します。

図7aで見られるように、言語モデルのチューニングを許可しながらプレフィックスサイズを増加させると、訓練可能なパラメータの数が多いため、訓練セットに過学習してしまいます。しかし、言語モデルが凍結されている場合、図7bで見られるように、訓練とテストの両方の評価で改善が見られます。当然ながら、非常に小さなプレフィックス長ではモデルの表現力が不十分なため、劣った結果をもたらします。さらに、我々はMLPアーキテクチャが本質的により制限されていることを指摘します。なぜなら、長いプレフィックスに対してスケーラブルではないからです。例えば、プレフィックスサイズが40の場合、450M以上のパラメータを持つネットワークとなり、我々の単一GPU設定では実現不可能です。トランスフォーマーアーキテクチャでは、パラメータ数をわずかに増加させるだけでプレフィックスサイズを増加させることができますが、注意機構の2次的なメモリコストのため、80までしか増加させることができません。

マッピングネットワーク:
マッピングネットワークアーキテクチャに関するアブレーション研究は表1(C)と(D)に示されています。見られるように、言語モデルのファインチューニングを行う場合、MLPはより良い結果を達成します。しかし、言語モデルが凍結されている場合は、トランスフォーマーが優れています。我々は、言語モデルのファインチューニングを採用する場合、トランスフォーマーアーキテクチャの表現力は不要であると結論付けます。

実装の詳細:
我々はMLPマッピングネットワークに対してプレフィックス長K = 10を使用し、MLPは単一の隠れ層を含んでいます。トランスフォーマーマッピングネットワークに対しては、CLIP埋め込みをK = 10の定数トークンに設定し、8つのマルチヘッド自己注意層(各層8ヘッド)を使用します。我々は40のバッチサイズで10エポック訓練します。最適化には、Loshchilovらによって導入された重み減衰修正を伴うAdamWを使用し、学習率は2e-5、5000のウォームアップステップを使用します。GPT-2に対しては、Wolfらの実装を採用しています。

Conclusion

全体として、我々のCLIPベースの画像キャプショニング手法は使用が簡単で、追加のアノテーションを必要とせず、訓練が速いです。我々はより単純なモデルを提案していますが、データセットがより豊かで多様になるにつれて、より多くの利点を示します。我々は我々のアプローチを新しい画像キャプショニングパラダイムの一部と考えており、既存のモデルを活用しながら、最小限のマッピングネットワークのみを訓練することに集中しています。このアプローチは本質的に、新しい意味的エンティティを学習する代わりに、事前訓練されたモデルの既存の意味的理解をターゲットデータセットのスタイルに適応させることを学習します。我々は、これらの強力な事前訓練されたモデルの活用が近い将来に勢いを増すと信じています。したがって、これらのコンポーネントを活用する方法の理解は大きな関心事です。今後の研究では、マッピングネットワークの利用を通じて、事前訓練されたモデル(例:CLIP)を視覚的質問応答や画像から3Dへの変換などの他の挑戦的なタスクに組み込むことを計画しています。

いいなと思ったら応援しよう!