よく来たな。今日も論文を読んでまとめた。各章についてのメモのようなものなので、原論文とともに読んでくれ。
今日やるのはあのCLIP論文だ。言葉と画像を同じ空間で扱うというのは、単にコンピュータサイエンスだけでなく、哲学的にも大きな発見だろう。これは読むべき論文のひとつだ。さっそくやっていこう。
Learning Transferable Visual Models From Natural Language Supervision
Abstract
現状、あらかじめ固定されたカテゴリの予測しかできないのは汎用的ではないと指摘。画像について生のテキストから直接学習することは、より広範な監督源を活用する有望な代替手段である。
1. Introduction and Motivating Work
ここでは、NLPの分野で見られたような、ウェブテキストから直接学習する大規模な事前学習手法が、CVの分野でもブレークスルーをもたらす可能性があるのではないか、と著者は言っている。
画像認識における教師あり学習と教師なし学習はどちらも妥協点があると言える。
・クラスが制限されていること
・静的なソフトマックス分類器を使用して予測を行っており、動的な出力を生成する仕組みがない
これより、従来の画像認識では自然言語の表現力を十分に活用できていない。
2. Approach
2.1. Natural Language Supervision
ここで述べられているのは、とにかく自然言語で学習させることを高く評価しているということ。
2.2. Creating a Sufficiently Large Dataset
自然言語のアプローチで問題だったのはとにかくデータセットの規模だと言っている。とにかくデータセットを増やした。
2.3. Selecting an Efficient Pre-Training Method
N^2 - Nがどう出て来たのか聞く。確かにそうだ。
テキスト特徴量と画像特徴量を共通空間に埋め込むときに、非線形写像ではなく、線形写像を使用する。
- 画像特徴量 I を埋め込み空間に写像: I_e = I × W_i
- テキスト特徴量 T を埋め込み空間に写像: T_e = T × W_t
非線形写像が有効なのは自己教師あり学習のような特殊な学習設定の時のみ。
2.4. Choosing and Scaling a Model
モデルの説明。ResNet-50を画像エンコーダの基本アーキテクチャとして使用する。いくつかの修正と、グローバル平均プーリング層を注意プーリング機構に置き換えている。
テキストエンコーダはTransformerを使用。
2.5. Training
ResNet-50x4、ResNet-50x16、ResNet-50x64について↓
この章では、学習時のいろんなスペックが記載されている。
3. Experiments
3.1. Zero-Shot Transfer
3.1.1. MOTIVATION
3.1.2. USING CLIP FOR ZERO-SHOT TRANSFER
3.1.3. INITIAL COMPARISON TO VISUAL N-GRAMS
3.1.4. PROMPT ENGINEERING AND ENSEMBLING
この章では、CLIPに入れるプロンプトについて述べられている。
アンサンブル学習についての解説↓
3.1.5. ANALYSIS OF ZERO-SHOT CLIP PERFORMANCE
この章ではCLIPのパフォーマンスを検証している。
苦手なこと↓
↑について
ゼロショットと数ショットを組み合わせるのは難しい↓
図8について
スケーリングについて
3.2. Representation Learning
要約↓
図10の横軸について
3.3. Robustness to Natural Distribution Shift
結論をまとめる。
4. Comparison to Human Performance
ゼロショットの動機付けについて↓
まとめ
5. Data Overlap Analysis
訓練データと評価データ重複するのはよくないから対策したという話。
6. Limitations
「On datasets with training splits,~」の説明。
7. Broader Impacts
7.2. Surveillance
7.3. Future Work
8. Related Work
いろいろ関連研究について述べられている。
最後の段落について。
つまり、他のシステムと違って、CLIPは画像と言語が密に結合していないという特徴がある。密に結合というのは以下を意味する。
9. Conclusion