見出し画像

CLIP論文を読む

よく来たな。今日も論文を読んでまとめた。各章についてのメモのようなものなので、原論文とともに読んでくれ。

今日やるのはあのCLIP論文だ。言葉と画像を同じ空間で扱うというのは、単にコンピュータサイエンスだけでなく、哲学的にも大きな発見だろう。これは読むべき論文のひとつだ。さっそくやっていこう。

Learning Transferable Visual Models From Natural Language Supervision




Abstract

最先端のコンピュータビジョンシステムは、あらかじめ決められたオブジェクトカテゴリの固定セットを予測するように訓練されている。この制限された監視形式は、他の視覚的概念を指定するために追加のラベル付きデータが必要であるため、その汎用性と使いやすさを制限している。画像に関する生のテキストから直接学習することは、より広範な監督源を活用する有望な代替手段である。我々は、どの画像にどのキャプションが合うかを予測するという単純な事前学習タスクが、インターネットから収集した4億の(画像とテキストの)ペアのデータセットに対して、SOTA画像表現をゼロから学習する効率的でスケーラブルな方法であることを実証する。事前学習後、自然言語を用いて学習した視覚的概念を参照する(あるいは新しい概念を記述する)ことで、モデルを下流のタスクにゼロショットで転送することが可能となる。我々は、OCR、動画中の行動認識、ジオロカライゼーション、多くの種類の細かいオブジェクト分類などのタスクにまたがる、30以上の異なる既存のコンピュータビジョンデータセットをベンチマークすることにより、このアプローチの性能を研究する。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)

現状、あらかじめ固定されたカテゴリの予測しかできないのは汎用的ではないと指摘。画像について生のテキストから直接学習することは、より広範な監督源を活用する有望な代替手段である。

1. Introduction and Motivating Work

GPT-3 (Brown et al., 2020)のようなフラッグシップシステムは、データセット固有のトレーニングデータをほとんど必要としない一方で、特注モデルによる多くのタスクで競争力を持つようになった。これらの結果は、ウェブスケールのテキストコレクションに含まれる最新の事前学習手法にアクセス可能な総合的な監視が、高品質のクラウドラベル付き自然言語処理データセットを凌駕していることを示唆している。しかし、コンピュータビジョンのような他の分野では、ImageNet(Deng et al.、2009)のようなクラウドラベル付きデータセットでモデルを事前学習することがまだ標準的に行われている。ウェブテキストから直接学習するスケーラブルな事前学習法は、コンピュータビジョンにおいても同様のブレークスルーをもたらすのだろうか?

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)



「総合的な監視」とは?

CLIP論文で使われている「総合的な監視」とは、ウェブスケールのデータを活用した事前学習によって得られる、言語と視覚に関する総合的な知識を意味している

Claude3


ここでは、NLPの分野で見られたような、ウェブテキストから直接学習する大規模な事前学習手法が、CVの分野でもブレークスルーをもたらす可能性があるのではないか、と著者は言っている。

画像認識における教師あり学習と教師なし学習はどちらも妥協点があると言える。
・クラスが制限されていること
・静的なソフトマックス分類器を使用して予測を行っており、動的な出力を生成する仕組みがない

これより、従来の画像認識では自然言語の表現力を十分に活用できていない。

この段落では、CLIPと、弱教師あり学習(weakly supervised learning)を用いた画像表現学習の手法を比較しています。

具体的には、著者は以下の2つの研究グループの手法と比較しています:

1. Mahajan et al. (2018):HashtagとInstragram画像を用いて、数億枚規模の画像で事前学習を行った。
2. Kolesnikov et al. (2019):JFT-300Mデータセットを用いて、3億枚の画像で事前学習を行った。

一方、著者が言及している "recent explorations of learning image representations directly from natural language" は、以下の研究を指しています:

- VirTex (Desai & Johnson, 2020)
- ICMLM (Bulent Sariyildiz et al., 2020)
- ConVIRT (Zhang et al., 2020)

これらの研究は、キャプションなどの自然言語を直接用いて画像表現を学習する手法を提案していますが、使用したデータセットのサイズは数十万枚程度です。

著者は、これらの手法とMahajan et al. (2018)やKolesnikov et al. (2019)の手法との決定的な違いは「スケール」であると指摘しています。つまり、弱教師あり学習の手法では数億枚規模の画像を用いているのに対し、自然言語を直接用いた手法ではデータセットのサイズが2桁以上小さいということです。

この観察から、著者は自然言語を直接用いた画像表現学習においてもスケールが重要であると示唆しており、これがCLIPの開発動機につながっていると考えられます。

Claude3


本研究では、このギャップを埋め、大規模な自然言語監視で訓練された画像分類器の振る舞いを研究する。インターネット上で公開されている大量のこの形式のデータを利用し、4億の(画像とテキストの)ペアからなる新しいデータセットを作成し、ゼロから学習したConVIRTの簡易版(CLIP(Contrastive Language-Image Pre-training)と呼ぶ)が、自然言語監視から学習する効率的な手法であることを実証する。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)


2. Approach

2.1. Natural Language Supervision


ここで述べられているのは、とにかく自然言語で学習させることを高く評価しているということ。

我々は、この一連の研究に共通しているのは、使用されている特定の手法の詳細ではなく、学習信号としての自然言語の評価であることを強調する。これらのアプローチはすべて、自然言語の監視から学んでいる。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)

著者は、自然言語を用いた教師あり学習の利点として以下の点を挙げています:

1. 自然言語は、画像に関連する多様な概念を表現できる。
2. 自然言語を用いることで、ラベルの付与に人手を介する必要がなくなり、ウェブ上の大量のデータを活用できる。
3. 自然言語は、ラベルの表現力が高いため、ゼロショット学習が可能になる。

特に、著者は、ウェブ上の大規模なテキストデータを活用することの重要性を強調しています。過去の研究では、自然言語を用いた学習に使用されたデータセットのサイズが小さかったため、その潜在的な能力が十分に引き出せていなかったと指摘しています。

CLIPは、まさにこの自然言語の潜在的な能力を引き出すために、大規模なウェブデータを活用して学習を行っています。そして、その結果として、優れたゼロショット学習の性能を達成しているのです。

Claude3

2.2. Creating a Sufficiently Large Dataset


自然言語監視の主な動機は、インターネット上で公開されている大量のデータである。既存のデータセットはこの可能性を十分に反映していないため、それらのデータセットのみでの結果を考慮することは、この研究分野の可能性を過小評価することになる。この問題に対処するため、我々はインターネット上の様々な公開ソースから収集した4億組の(画像、テキスト)データセットを新たに構築した。可能な限り幅広い視覚的概念をカバーするため、構築プロセスの一環として、テキストが50万件のクエリのいずれかを含む(画像、テキスト)ペアを検索する1。得られたデータセットの総語数は、GPT-2の学習に使用したWebTextデータセットとほぼ同じである。このデータセットをWebImageTextのWITと呼ぶ。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)



自然言語のアプローチで問題だったのはとにかくデータセットの規模だと言っている。とにかくデータセットを増やした。

2.3. Selecting an Efficient Pre-Training Method

「2.3. Selecting an Efficient Pre-Training Method」の章では、CLIPの事前学習方法の選択について議論されています。

著者らは、まず、既存の画像認識モデルの事前学習には膨大な計算リソースが必要であることを指摘しています。そのため、自然言語を用いた教師あり学習を大規模に行うには、効率的な事前学習方法の選択が重要だと述べています。

著者らが最初に試みたのは、VirTexと同様に、画像のキャプションを予測するように、画像エンコーダ(CNN)とテキストエンコーダ(Transformer)を同時に学習することでした。しかし、この方法では、十分な効率で学習を行うことができませんでした。

そこで、著者らは、Bag-of-Words(BoW)を用いた事前学習方法を試しました。この方法では、テキストをBoW表現に変換し、画像からBoWを予測するように学習します。その結果、BoWを用いた方法は、Transformerを用いた方法よりも3倍の効率で学習できることがわかりました。

さらに、著者らは、BoWの予測をcontrastive lossを用いて行うことで、学習効率をさらに4倍向上させることができました。

以上の実験から、著者らは、contrastive lossを用いたBoWの予測が、大規模な事前学習に適していると結論付けています。そして、この方法をCLIPの事前学習方法として採用したのです。

この章は、効率的な事前学習方法の選択が、大規模な自然言語教師あり学習において重要であることを示すとともに、CLIPの事前学習方法の設計思想を明らかにしています。

Claude3


画像エンコーダーとテキストエンコーダーを同時に学習させるというのはどういうアプローチですか?まとめて一緒に入れてしまうみたいなことですか?


画像エンコーダーとテキストエンコーダーを同時に学習させるアプローチは、画像とテキストを別々のモデルで処理しつつ、それらを同時に学習させることを指します。具体的には以下のような手順になります:

1. 画像エンコーダー(通常はCNN)で画像を処理し、画像特徴ベクトルを抽出する。
2. テキストエンコーダー(通常はTransformer)でテキストを処理し、テキスト特徴ベクトルを抽出する。
3. 画像特徴ベクトルとテキスト特徴ベクトルを連結するなどして、両者の関係性を学習するための損失関数を計算する。
4. 損失関数の値を最小化するように、画像エンコーダーとテキストエンコーダーのパラメータを同時に更新する。

このアプローチでは、画像とテキストを別々のモデルで処理するため、それぞれの特性に合わせたモデルアーキテクチャを使用できます。また、損失関数を通じて画像とテキストの関係性を学習させることができます。

ただし、このアプローチでは、画像とテキストを別々に処理するため、両者の関係性を学習するために大量のデータが必要になります。また、損失関数の設計も重要になります。

CLIPでは、最終的にはこのアプローチではなく、画像とテキストを同じ特徴空間に埋め込むことで、両者の関係性を学習するアプローチを取っています。これにより、より効率的に学習を行うことができたのです。

Claude3

N^2 - Nがどう出て来たのか聞く。確かにそうだ。

バッチ内のペア数がN^2-Nになるのは、「負例」(negative samples)の数に由来しています。

CLIPの学習では、バッチ内の正しい画像とテキストのペア(正例)の類似度を最大化する一方で、不正確なペア(負例)の類似度を最小化します。この不正確なペアの数が、N^2-Nになるのです。

具体的に説明すると、バッチサイズがNの場合、バッチ内には正例がN個存在します。一方、負例は、バッチ内のすべての不正確な組み合わせになります。つまり、ある画像と、それに対応しない(N-1)個のテキストの組み合わせが負例になります。

この負例の数は、以下のように計算できます:

- 1つの画像に対して、(N-1)個の不正確なテキストがあります。
- バッチ内にはN個の画像があるので、全部で N * (N-1) の負例があります。

N * (N-1) を展開すると、N^2 - N になります。

したがって、CLIPの学習では、N個の正例と、N^2-N個の負例を用いて、contrastive lossを計算しているのです。

この負例の数が多いことが、CLIPの学習を効率的にしている要因の一つです。多数の負例を用いることで、画像とテキストの埋め込み空間が適切に構成され、汎化性能が向上するのです。

Claude3


テキスト特徴量と画像特徴量を共通空間に埋め込むときに、非線形写像ではなく、線形写像を使用する。
- 画像特徴量 I を埋め込み空間に写像: I_e = I × W_i
- テキスト特徴量 T を埋め込み空間に写像: T_e = T × W_t

非線形写像が有効なのは自己教師あり学習のような特殊な学習設定の時のみ。

この部分は、CLIPの学習アーキテクチャの設計に関する技術的な詳細について述べています。

著者らは、Bachman et al. (2019)とChen et al. (2020b)の研究で導入された、表現空間と埋め込み空間の間の非線形写像を使用しないと述べています。これらの研究では、画像やテキストの特徴量(表現)を、別の空間(埋め込み空間)に非線形に写像することで、より表現力の高い特徴量を得ることができると主張しています。

しかし、著者らは、この非線形写像を使用せず、代わりに線形写像のみを使用しています。つまり、画像エンコーダとテキストエンコーダから得られた特徴量を、線形変換によって直接マルチモーダル埋め込み空間に写像しているのです。

著者らは、線形写像と非線形写像の間で、学習効率に大きな差は見られなかったと報告しています。そして、非線形写像が有効であるのは、自己教師あり学習など、特定の学習設定においてのみである可能性を示唆しています。

自己教師あり学習では、入力データ自体から教師信号を生成するため、モデルが入力の詳細な特徴に過剰に適応してしまう可能性があります。非線形写像は、この過剰適応を防ぐために有効であるのかもしれません。

しかし、CLIPのような教師あり学習の設定では、画像とテキストの対応関係が明示的に与えられるため、過剰適応の問題が生じにくいと考えられます。そのため、著者らは、非線形写像を使用せずに、線形写像のみを使用することで十分な性能が得られると判断したのです。

Claude3


2.4. Choosing and Scaling a Model

モデルの説明。ResNet-50を画像エンコーダの基本アーキテクチャとして使用する。いくつかの修正と、グローバル平均プーリング層を注意プーリング機構に置き換えている。

グローバル平均プーリングとは?

グローバル平均プーリング(Global Average Pooling, GAP)は、畳み込みニューラルネットワーク(CNN)の最後の層で一般的に使用される演算です。

通常、CNNは畳み込み層とプーリング層を交互に積み重ねることで、入力画像から特徴量を抽出します。しかし、最後の畳み込み層の出力は、まだ空間的な情報(高さと幅)を持っています。この出力をそのまま全結合層(Fully Connected Layer)に接続すると、パラメータ数が膨大になってしまいます。

そこで、GAPを使用して、最後の畳み込み層の出力の空間的な情報を削減します。具体的には、各チャネル(特徴マップ)ごとに、空間方向の平均値を計算します。これにより、各チャネルが1つの値で表現されます。

例えば、最後の畳み込み層の出力が [7, 7, 512](高さ7、幅7、チャネル数512)だとすると、GAPを適用することで、[1, 1, 512](チャネル数512)になります。

GAPには以下のような利点があります:

1. パラメータ数を大幅に削減できる
2. 空間的な情報を失うことなく、特徴量を集約できる
3. オーバーフィッティングを軽減できる

GAPは、ネットワークが画像のどの部分を重視しているかを可視化することもできます(Class Activation Mapping, CAM)。

CLIPでは、このGAPの代わりにアテンション・プーリング機構を使用することで、より適応性の高い特徴量の集約を行っていると考えられます。

Claude3


テキストエンコーダはTransformerを使用。

ResNet画像エンコーダについては、幅、深さ、解像度のすべてにわたって追加の計算量を割り当てることが、モデルの1つの次元のみに割り当てるよりも優れていることを発見したTan & Le(2019)のアプローチを採用する。

<中略>

テキストエンコーダについては、CLIPの性能がテキストエンコーダの容量にあまり影響されないことがわかったため、ResNetの計算上の幅の増加に比例するようにモデルの幅のみをスケーリングし、深さは全くスケーリングしない。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)


2.5. Training


ResNet-50x4、ResNet-50x16、ResNet-50x64について↓

著者らは、以下の5つのResNetモデルを訓練しています:

1. ResNet-50
2. ResNet-101
3. ResNet-50の約4倍の計算量を使用するモデル(ResNet-50x4と表記)
4. ResNet-50の約16倍の計算量を使用するモデル(ResNet-50x16と表記)
5. ResNet-50の約64倍の計算量を使用するモデル(ResNet-50x64と表記)

ResNet-50とResNet-101は、それぞれ50層と101層のResNetアーキテクチャを使用しています。これらは、画像認識のタスクでよく使用される標準的なアーキテクチャです。

一方、ResNet-50x4、ResNet-50x16、ResNet-50x64は、EfficientNetスタイルのモデル・スケーリング方法に従って設計されています。EfficientNetは、モデルの幅(チャネル数)、深さ(層数)、解像度(入力画像のサイズ)をバランスよく増加させることで、効率的にモデルのスケールを拡大する手法です。

著者らは、ResNet-50をベースに、計算量を4倍、16倍、64倍に増加させながら、EfficientNetスタイルでモデルをスケーリングしています。これにより、計算量とパフォーマンスのトレードオフを考慮しながら、より大規模で表現力の高いモデルを訓練することができます。

Claude3

この章では、学習時のいろんなスペックが記載されている。

最大のResNetモデルRN50x64は、592個のV100 GPUで18日間を要し、最大のVision Transformerは256個のV100 GPUで12日間を要した。ViT-L/14については、FixRes(Touvron et al.) このモデルをViT-L/14@336pxと表記する。特に指定がない限り、本論文で「CLIP」として報告されるすべての結果は、我々が最も良いパフォーマンスを示したこのモデルを使用している。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)


3. Experiments

3.1. Zero-Shot Transfer

3.1.1. MOTIVATION


3.1.1. MOTIVATIONの章では、ゼロショット学習の動機について説明しています。著者らは、ゼロショット学習を、未知のデータセットに対する一般化能力を測定するための指標として位置づけています。

従来のコンピュータビジョンにおけるゼロショット学習は、主に未知のオブジェクトカテゴリへの一般化を指します。しかし、著者らはこの概念をさらに拡張し、未知のデータセット全体への一般化を目指しています。これは、Larochelle et al. (2008)のゼロデータ学習の論文で提唱されたような、未知のタスクへの一般化に相当します。

著者らは、ゼロショット転移を測定することの重要性を以下のように主張しています:

1. 多くの人気のあるコンピュータビジョンのデータセットは、汎用の画像分類手法の開発を導くためのベンチマークとして作成されたものであり、必ずしも特定のタスクでのパフォーマンスを測定するためのものではない。

2. ゼロショット転移の測定は、モデルのタスク学習能力を評価するための方法として位置づけられる。

3. ゼロショット転移は、モデルの分布シフトへの頑健性と、ドメイン一般化の能力を評価するために使用できる。

著者らは、Visual N-Grams (Li et al., 2017)が最初にこの方法でゼロショット転移を研究し、汎用的に事前学習されたモデルを用いてゼロショット転移を行った唯一の既存研究であると述べています。

以上のように、この章では、ゼロショット学習を未知のデータセットや未知のタスクへの一般化能力を測定するための方法として位置づけ、その重要性を主張しています。この動機づけは、CLIPモデルの評価においてゼロショット転移に注目する理由を説明しています。

Claude3

3.1.2. USING CLIP FOR ZERO-SHOT TRANSFER

3.1.2. USING CLIP FOR ZERO-SHOT TRANSFERの章では、CLIPモデルをゼロショット転移に使用する方法について説明しています。

CLIPは、画像とテキストの両方を入力として受け取り、それらが互いに対応しているかどうかを予測するように学習されています。ゼロショット分類を行うために、この能力を再利用します。

具体的な手順は以下の通りです:

1. 分類したいデータセットのクラス名(ラベル)を、潜在的なテキストの組み合わせとして用意する。

2. 画像エンコーダを使って、分類したい画像の特徴ベクトルを計算する。

3. テキストエンコーダを使って、各クラス名の特徴ベクトルを計算する。

4. 画像の特徴ベクトルと各クラス名の特徴ベクトルの間のコサイン類似度を計算する。

5. コサイン類似度にテンペラチャーパラメータ τ を乗じて、ロジットに変換する。

6. ロジットをsoftmax関数で正規化し、確率分布を得る。

7. 確率が最大のクラスを予測結果とする。

ここで重要なのは、ステップ5と6で行われている操作が、L2正規化された入力とL2正規化された重みを持ち、バイアスを持たない多クラスロジスティック回帰と等価だということです。

つまり、画像エンコーダはコンピュータビジョンのバックボーンとして機能し、画像の特徴表現を計算します。一方、テキストエンコーダは、クラスを表す視覚的概念を記述するテキストから、線形分類器の重みを生成するハイパーネットワーク (Ha et al., 2016) として機能しています。

この章では、以上のようなCLIPモデルをゼロショット転移に使用する方法と、その背後にある原理について説明しています。

Claude3

ハイパーネットワークとは、別のニューラルネットワークのパラメータを生成するニューラルネットワークのことを指します。

CLIPモデルでは、テキストエンコーダがハイパーネットワークの役割を果たしています。具体的には、テキストエンコーダは、各クラスを記述するテキスト(例えば、"a photo of a dog")を入力として受け取り、そのテキストに対応する特徴ベクトルを出力します。

このテキストエンコーダの出力は、線形分類器の重みとして使用されます。つまり、テキストエンコーダは、テキストの意味を理解し、それに基づいて線形分類器の重みを生成していると解釈できます。

例えば、"a photo of a dog"というテキストが与えられたとき、テキストエンコーダは犬の画像を認識するのに適した重みを生成します。同様に、"a photo of a cat"というテキストからは、猫の画像を認識するのに適した重みが生成されます。

このように、テキストエンコーダは、テキストに応じて適応的に線形分類器の重みを生成するハイパーネットワークとして機能しています。これにより、CLIPモデルは、新しいクラスに対してもゼロショットで分類器を構築することができるのです。

これは、従来のように分類器の重みを学習データから直接学習するのとは対照的なアプローチであり、CLIPモデルの柔軟性と汎用性の源泉となっています。

Claude3

3.1.3. INITIAL COMPARISON TO VISUAL N-GRAMS

表1では、Visual N-GramsとCLIPを比較している。最良のCLIPモデルは、ImageNetの精度を概念実証の11.5%から76.2%に向上させ、このデータセットで利用可能な128万個のクラウドラベル付き学習例を使用していないにもかかわらず、オリジナルのResNet-50の性能に匹敵する。さらに、CLIPモデルのトップ5の精度はトップ1よりも顕著に高く、このモデルはトップ5の精度が95%で、Inception-V4(Szegedy et al.) ゼロショット設定で強力な完全教師ありベースラインの性能に匹敵する能力は、CLIPが柔軟で実用的なゼロショットコンピュータビジョン分類器に向けた重要な一歩であることを示唆しています。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)


3.1.4. PROMPT ENGINEERING AND ENSEMBLING


この章では、CLIPに入れるプロンプトについて述べられている。

 よくある問題は多義性である。CLIPのテキストエンコーダに提供される情報がクラス名だけの場合、文脈がないためにどの語義を意味するのか区別できない。場合によっては、同じ単語の複数の意味が、同じデータセットに異なるクラスとして含まれることもある!これは、建設用クレーンと空を飛ぶクレーンの両方を含むImageNetで起こる。別の例としては、Oxford-IIIT Petデータセットのクラスで、boxerという単語は文脈から明らかに犬種を指しているが、文脈を欠くテキストエンコーダーにとっては、スポーツ選手の一種を指している可能性もある。
 私たちが遭遇したもう一つの問題は、プレトレーニングデータセットの中で、画像と対になっているテキストが単なる一単語であることが比較的少ないということです。通常、テキストは画像を何らかの形で説明する完全な文章です。この分布のギャップを埋めるために、プロンプトテンプレート "A photo of a {label}. "を使用することが、テキストが画像の内容に関するものであることを特定するのに役立つ良いデフォルトであることがわかりました。これにより、ラベルテキストのみを使用するベースラインよりもパフォーマンスが向上することがよくあります。例えば、このプロンプトを使うだけで、ImageNetの精度が1.3%向上します。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)

 GPT3をめぐる「プロンプト・エンジニアリング」の議論(Brown et al. 以下にいくつかの例を挙げる。我々はいくつかの細かい画像分類データセットにおいて、カテゴリーを指定することが有効であることを発見した。例えばOxford-IIIT Petsでは、文脈を提供するために "A photo of a {label}, a type of pet. "を使うとうまくいった。同様に、Food101では食品の種類を、FGVCでは航空機の種類を指定することも有効であった。OCRデータセットでは、認識したいテキストや数字を引用符で囲むと性能が向上することがわかった。最後に、衛星画像の分類データセットでは、画像がこの形式であることを指定することが役立つことがわかった。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)

アンサンブル学習についての解説↓

このセクションでは、ゼロショット分類の性能を向上させるために、複数のゼロショット分類器を用いたアンサンブル手法について説明されています。

アンサンブル学習は、機械学習において一般的な手法の一つです。複数の異なるモデルの予測を組み合わせることで、単一のモデルよりも高い性能を達成することができます。

CLIPモデルにおいても、この原理を応用することができます。具体的には、各クラスを表現するテキストを変化させることで、複数の異なるゼロショット分類器を構築し、それらの予測を組み合わせるのです。

例えば、犬のクラスを表現するテキストとして、"a photo of a dog"だけでなく、"a picture of a dog", "an image of a dog", "a photo of a large dog", "a photo of a small dog"などの様々なバリエーションを用意します。そして、それぞれのテキストに対して別々のゼロショット分類器を構築します。

推論時には、これらの複数のゼロショット分類器の予測を組み合わせます。具体的には、各分類器の出力する特徴ベクトルを平均化することで、最終的な予測を得ます。この平均化操作がアンサンブルに相当します。

論文では、このアンサンブル手法によって、ImageNetデータセットにおけるゼロショット分類の性能が、単一の分類器を使う場合と比べて約3.5%向上したと報告されています。

アンサンブル手法が効果的である理由は、異なるテキストによって表現された概念が、わずかに異なる特徴を捉えているためだと考えられます。これらの異なる特徴を組み合わせることで、より頑健で汎用的な分類器を構築できるのです。

以上が、CLIPモデルにおけるアンサンブル手法の解説となります。この手法は、ゼロショット分類の性能を向上させるための効果的なアプローチの一つと言えます。

Claude3


3.1.5. ANALYSIS OF ZERO-SHOT CLIP PERFORMANCE

この章ではCLIPのパフォーマンスを検証している。

コンピュータビジョンのためのタスクにとらわれないゼロショット分類器はこれまであまり研究されてこなかったため、CLIPはこの種のモデルについて理解を深める有望な機会を提供する。このセクションでは、CLIPのゼロショット分類器の様々な特性の研究を行う。最初の質問として、ゼロショット分類器がどの程度うまく機能するかを単純に調べます。これを文脈化するために、単純な既製のベースラインの性能と比較します:正規化された完全教師ありのロジスティック回帰分類器を正規ResNet-50の特徴に当てはめます。図5では、27のデータセットでの比較を示しています。データセットとセットアップの詳細は付録Aを参照。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)


苦手なこと↓

衛星画像の分類(EuroSATとRESISC45)、リンパ節腫瘍の検出(PatchCamelyon)、合成シーンでのオブジェクトのカウント(CLEVRCounts)、ドイツの交通標識認識(GTSRB)のような自動運転関連のタスク、最も近い車までの距離の認識(KITTI Distance)のようないくつかの専門的、複雑、抽象的なタスクでは、ゼロショットCLIPはかなり弱いことがわかります。これらの結果は、より複雑なタスクにおけるゼロショットCLIPの能力の低さを浮き彫りにしている。
<中略>
しかし、ほとんど全ての人間(そしておそらくCLIP)にとってリンパ節腫瘍分類のような、学習者が事前に経験したことのない難しいタスクに対して、数ショット伝達ではなくゼロショット伝達を測定することが意味のある評価であるかどうかは不明であることに注意する。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)


ゼロショットの性能を完全教師ありモデルと比較することは、CLIPのタスク学習能力を文脈化しますが、ゼロショットがその限界であるため、数ショットの手法と比較することは、より直接的な比較となります。図6では、ゼロショットCLIPが、公開されている最高のImageNetモデル、自己教師付き学習法、CLIP自身を含む多くの画像モデルの特徴で、数ショットのロジスティック回帰とどのように比較するかを視覚化しています。ゼロショットがワンショットを下回ることは直感的に予想できますが、その代わりに、ゼロショットCLIPは、同じ特徴空間上で4ショット・ロジスティック回帰の性能と一致することがわかります。これは、ゼロショットと数ショットのアプローチの間の重要な違いによると思われます。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)



第一に、CLIPのゼロショット分類器は、視覚的概念を直接指定("伝達")できる自然言語によって生成される。対照的に、「通常の」教師あり学習は、学習例から間接的に概念を推測しなければならない。文脈のない例ベースの学習には、特にワンショットの場合、多くの異なる仮説がデータと一致しうるという欠点がある。一つの画像には多くの異なる視覚的概念が含まれていることが多い。有能な学習者であれば、視覚的な手がかりやヒューリスティックを利用することができるが、例えば、実証される概念が画像中の主要なオブジェクトであると仮定することはできない。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)

↑について

この部分は、ゼロショット学習と従来の教師あり学習の違いを説明しています。

CLIPのゼロショット分類器は、自然言語を使ってクラスを直接指定します。つまり、"a photo of a dog"というテキストを入力することで、「犬」という概念を直接的に伝達しているのです。これにより、CLIPモデルは、それが「犬」という概念を表現していることを明示的に知ることができます。

一方、従来の教師あり学習では、学習例(画像とラベルのペア)からクラスの概念を間接的に推測しなければなりません。つまり、多数の犬の画像とそれに対応するラベルを使って学習することで、「犬」という概念を間接的に学習するのです。

ここで問題となるのは、学習例から概念を推測する際の曖昧さです。特に、学習例が少ない場合(例えば、one-shotやfew-shotの設定)、複数の異なる概念が学習例と整合する可能性があります。

例えば、ある画像に「犬」というラベルが付いていたとしても、その画像には犬以外にも多くの概念(例えば、「草」や「ボール」など)が含まれている可能性があります。学習アルゴリズムは、どの概念が「犬」というラベルに対応しているのかを推測しなければなりませんが、学習例が少ない場合、この推測が難しくなるのです。

対照的に、CLIPモデルでは、自然言語を使ってクラスを直接指定するため、この曖昧さが生じません。"a photo of a dog"というテキストが与えられれば、それが「犬」という概念を表現していることは明らかだからです。

以上が、ゼロショット学習と従来の教師あり学習の違いに関する説明です。自然言語を使ってクラスを直接指定できることが、CLIPモデルのゼロショット学習の強みの一つとなっています。

Claude3


ゼロショットと数ショットを組み合わせるのは難しい↓

この部分は、ゼロショット学習と少数ショット学習の性能差を解消するための潜在的な方法について述べています。

著者らは、CLIPのゼロショット分類器の重みを、少数ショット分類器の重みに対する事前分布として使用することを提案しています。つまり、ゼロショット分類器の知識を、少数ショット学習の初期値として活用しようというアイデアです。

このアイデアを実装する直接的な方法は、少数ショット学習の目的関数に、生成された重み(ゼロショット分類器の重み)に向かうL2ペナルティ項を追加することです。これにより、少数ショット分類器の重みが、ゼロショット分類器の重みに近づくようになります。

しかし、著者らはこの方法に問題があることを発見しました。ハイパーパラメータの最適化を行うと、しばしばL2ペナルティの係数(正則化項の強度)が非常に大きな値に選ばれてしまうのです。その結果、得られる少数ショット分類器は、実質的にゼロショット分類器と同じになってしまいます。つまり、少数ショット学習が意味を成さなくなってしまうのです。

この問題は、ゼロショット学習の強みと少数ショット学習の柔軟性を組み合わせることの難しさを示唆しています。著者らは、この問題を解決するためのより良い方法の研究が、将来の有望な研究方向であると述べています。

具体的には、ゼロショット分類器の知識を活用しつつ、少数の学習例からも柔軟に学習できるような新しい学習方法の開発が期待されます。このような方法が実現できれば、ゼロショット学習と少数ショット学習の長所を兼ね備えた、より強力な学習システムが構築できるかもしれません。

Claude3

図8について

その通りです。図8は、「ゼロショット学習を用いたCLIPの性能」と「線形分類器(教師あり学習)を用いたCLIPの性能」を比較しています。そして、ほとんどのデータセットにおいて、線形分類器を用いた方が、ゼロショット学習よりも高い性能を達成しています。

ここで重要なのは、両方のアプローチで使われているCLIPモデル(特に画像エンコーダ)は同じだということです。つまり、同じ特徴表現を使っているにも関わらず、線形分類器を用いた方が高い性能を達成しているのです。

このことから、以下のような解釈ができます:

1. CLIPの特徴表現は、多くのタスクに対して有用な情報を捉えている。
- そうでなければ、線形分類器を用いても高い性能は得られないはずです。
2. しかし、ゼロショット学習では、その特徴表現の持つ情報を十分に活用できていない。
- つまり、ゼロショット学習の性能には、まだ改善の余地がある。

言い換えれば、CLIPの特徴表現は、教師あり学習で高い性能を達成できるだけの情報を持っているが、現在のゼロショット学習の方法では、その情報を十分に引き出せていないということです。

したがって、ご指摘の通り、ゼロショット学習を用いたCLIPには、まだまだ伸びしろがあると言えます。もし、ゼロショット学習の方法を改善することができれば、線形分類器を用いた場合と同等か、それ以上の性能を達成できる可能性があります。

この結果は、ゼロショット学習の研究に重要な示唆を与えています。CLIPのような強力な特徴表現を活用しつつ、ゼロショット学習の性能を向上させる方法の開発が、今後の重要な研究課題の一つと言えるでしょう。

Claude3

スケーリングについて

図9では、CLIPのゼロショット性能が同様のスケーリングパターンに従うかどうかを確認します。5つのResNet CLIPモデルの平均エラー率を36の異なるデータセットで39回の評価にわたってプロットしたところ、モデル計算量が44倍増加しても、CLIPは同様の対数線形スケーリング傾向が維持されることがわかりました。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)


3.2. Representation Learning

要約↓

3.2. Representation Learningの章では、CLIPの特徴表現学習の能力を評価しています。以下に、主要なポイントを要約します。

1. 著者らは、Kornblithらの12のデータセットに加えて、15の新しいデータセットを追加し、合計27のデータセットでCLIPの特徴表現を評価しました。

2. 線形分類器を用いた評価では、CLIPのResNetベースのモデルがImageNetで学習された他のResNetモデルを上回りましたが、ImageNet-21kで学習されたモデルには及びませんでした。

3. Vision Transformerベースのモデルは、ResNetベースのモデルよりも約3倍の計算効率が良いことがわかりました。

4. 最も大きなVision TransformerモデルであるViT-L/14は、線形分類器を用いた評価で、27のデータセットのうち21で最高性能を達成しました。

5. CLIPは、地理的位置推定、光学的文字認識、顔の感情認識、アクション認識など、幅広いタスクで優れた性能を示しました。

6. ImageNet以外のデータセットでは、自己教師あり学習の手法(SimCLRv2やBYOL)がImageNetで学習されたモデル(BiT-M)よりも高い性能を示しました。

7. 著者らは、タスクの多様性をさらに拡大し、モデルの「一般的な」性能を理解することが重要だと述べています。

この章は、CLIPが学習した特徴表現が、非常に幅広いタスクに適用可能であることを示しています。また、ImageNet以外のデータセットでの評価の重要性や、自己教師あり学習の有効性なども示唆しています。

全体として、この章はCLIPの特徴表現学習の能力の高さを実証しており、今後の研究の方向性を示唆する重要な結果を提示しています。

Claude3

図10の横軸について

「Forward-pass GFLOPs/image」は、モデルの計算量を測定する指標の一つです。

- 「GFLOPs」は、「Giga Floating Point Operations」の略で、10億回の浮動小数点演算を表します。
- 「Forward-pass」は、モデルが入力から出力を計算する過程(推論フェーズ)を指します。
- 「/image」は、1枚の画像を処理するのにかかる計算量を意味します。

つまり、「Forward-pass GFLOPs/image」は、1枚の画像に対して推論を行う際に必要な浮動小数点演算の回数(10億回単位)を表しています。

この指標は、モデルの計算量や効率性を評価するために使われます。同じタスクで同等の性能を達成するモデルを比較した場合、「Forward-pass GFLOPs/image」が小さいモデルの方が、より計算効率が良いと言えます。

図10では、横軸に「Forward-pass GFLOPs/image」を取ることで、モデルの計算量と性能(縦軸)の関係を可視化しています。これにより、計算量と性能のトレードオフを評価することができます。

例えば、図10の右側のグラフでは、CLIP-ViTモデルがCLIP-ResNetモデルよりも計算効率が良いことが読み取れます。同じ計算量で比較した場合、CLIP-ViTモデルの方が高い性能を達成しているからです。

このように、「Forward-pass GFLOPs/image」は、モデルの計算効率を評価するための重要な指標の一つです。図10はこの指標を用いることで、CLIPモデルと他のモデルの計算効率を比較しています。

Claude3

3.3. Robustness to Natural Distribution Shift


2015年、ディープラーニングモデルがImageNetテストセットで人間の性能を上回ったことが発表された(He et al.) しかし、その後の研究により、これらのモデルは依然として多くの単純なミスを犯すことが繰り返し発見され(Dodge & Karam, 2017; Geirhos et al., 2018; Alcorn et al., 2019)、これらのシステムをテストする新しいベンチマークでは、その性能がImageNetの精度と人間の精度の両方を大幅に下回ることがしばしば発見されている(Recht et al., 2019; Barbu et al.) この不一致を説明するものは何だろうか?様々な考え方が提案され、研究されてきた(Ilyas et al., 2019; Geirhos et al.) 提案されている説明の共通テーマは、深層学習モデルは、訓練データセット全体で保持される相関関係やパターンを見つけることに非常に長けており、その結果、分布内性能が向上するということである。しかし、これらの相関関係やパターンの多くは、実際にはスプリアスであり、他の分布では保持されず、他のデータセットでのパフォーマンスを大きく低下させる。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)

Taoriらの研究は、ImageNetで学習されたモデルが自然な分布変化に対してどの程度の頑健性を持つかを調査しました。

彼らは、7つの自然な分布変化を含むデータセットを使用しました:
1. ImageNetV2
2. ImageNet Sketch
3. Youtube-BB
4. ImageNet-Vid
5. ObjectNet
6. ImageNet Adversarial
7. ImageNet Rendition

これらのデータセットは、すべて新しい画像を含んでおり、人工的な変換によって作成されたものではありません。

彼らは、これらのデータセットでImageNetモデルの性能を評価し、以下のような主要な発見をしました:

1. ImageNetの検証セットと比較して、これらの自然な分布変化に対するモデルの精度は大幅に低下する。ResNet-101は、ImageNetの検証セットと比較して、5倍のエラーを犯す。

2. 自然な分布変化に対する精度は、ImageNetの精度と予測可能な関係がある。具体的には、ロジット変換された精度の線形関数としてモデル化できる。

3. 頑健性の評価では、有効な頑健性と相対的な頑健性を区別する必要がある。有効な頑健性は、分布内と分布外の精度の関係から予測される精度以上の分布外の精度の改善を測定する。相対的な頑健性は、分布外の精度の改善を捉える。

彼らは、頑健性の手法が有効な頑健性と相対的な頑健性の両方を改善することを目指すべきだと主張しています。

Taoriらの研究は、ImageNetモデルの自然な分布変化に対する頑健性を体系的に評価した重要な研究です。彼らの研究は、モデルの頑健性を評価するための新しい基準を提供し、より頑健なモデルを開発するための指針を与えています。

Claude3

質問:自然な分布変化とは?


自然な分布変化(Natural Distribution Shift)は、機械学習モデルが訓練されたデータの分布と、モデルが実際に適用されるデータの分布との間の差異を指します。

機械学習モデルは通常、特定のデータセット(例えば、ImageNet)で訓練されます。このデータセットは、モデルが解決すべきタスクを代表していると想定されています。しかし、実際の世界では、モデルが訓練データとは異なる分布の新しいデータに遭遇することがよくあります。これが分布変化(Distribution Shift)です。

自然な分布変化は、人工的な変換(例えば、画像の回転や色の変更)によって作成された分布変化とは区別されます。自然な分布変化の例としては、以下のようなものがあります:

1. 異なるデバイスやカメラで撮影された画像
2. 異なる照明条件や背景の画像
3. 異なる角度やポーズのオブジェクト
4. スケッチや漫画のような異なるスタイルの画像
5. 異なる地理的位置や文化的文脈の画像

自然な分布変化は、機械学習モデルの一般化能力を評価するための重要な基準と考えられています。モデルが訓練データと同じ分布の新しいデータに対してうまく機能することは重要ですが、実際の応用では、モデルが自然な分布変化に対して頑健であることが求められます。

したがって、自然な分布変化に対するモデルの頑健性を評価し、改善することは、機械学習の重要な研究課題の一つと言えます。Taoriらの研究は、この課題に対する重要な貢献の一つです。

Claude3

質問:ということは、今あげられた5つの分布変化は、ImageNetにはほとんどなかったということでしょうか?


はい、その通りです。ImageNetは、主にウェブ上の画像を収集し、人手で注釈を付けたデータセットです。そのため、ImageNetの画像は以下のような特徴を持っています:

1. 主に高品質のデジタルカメラで撮影された画像
2. 適度な照明条件で撮影された画像
3. オブジェクトが中心に配置され、明確に見える画像
4. 写真のスタイルの画像(スケッチや漫画ではない)
5. 主に欧米の文化的文脈で収集された画像

したがって、先に挙げた5つの自然な分布変化は、ImageNetにはあまり含まれていません。例えば:

1. スマートフォンやウェアラブルカメラで撮影された画像は少ない
2. 極端な照明条件(暗すぎる、明るすぎる)の画像は少ない
3. オブジェクトが部分的に隠れていたり、特殊な角度から撮影された画像は少ない
4. スケッチや漫画のような非写実的な画像はほとんどない
5. 非欧米の文化的文脈の画像は少ない

これが、ImageNetで訓練されたモデルが自然な分布変化に対して脆弱である一因と考えられています。モデルは、ImageNetの分布に過剰適合してしまい、それ以外の分布の画像に対しては性能が低下してしまうのです。

この問題は、データセットバイアスや学習アルゴリズムの限界など、機械学習における根本的な課題を反映しています。より頑健で汎用的なモデルを開発するためには、これらの課題に取り組む必要があります。Taoriらの研究は、この問題を定量的に分析し、解決のための指針を与えている点で重要な意義を持っています。

Claude3

質問:有効な頑健性と相対的な頑健性について解説してください


Taori et al. (2020)の研究では、頑健性を評価する際に、有効な頑健性(Effective Robustness)と相対的な頑健性(Relative Robustness)の2つの概念を導入しています。

1. 有効な頑健性(Effective Robustness):
有効な頑健性は、分布内の精度と分布外の精度の関係から予測される精度以上の、分布外の精度の改善を測定します。

具体的には、Taoriらは分布内の精度と分布外の精度の間に線形関係があることを発見しました。つまり、分布内の精度が高いモデルは、分布外の精度も比例して高くなる傾向があるのです。

有効な頑健性は、この線形関係から予測される分布外の精度からの改善を測定します。例えば、あるモデルの分布外の精度が、線形関係から予測される精度よりも5%高かったとします。この場合、このモデルの有効な頑健性は5%と言えます。

有効な頑健性は、分布内の精度の影響を取り除いた、純粋な分布外の精度の改善を表していると言えます。

2. 相対的な頑健性(Relative Robustness):
相対的な頑健性は、分布外の精度の改善を測定します。これは、分布内の精度とは無関係に、モデルが分布変化にどの程度適応できるかを表します。

例えば、あるモデルの分布外の精度が50%から55%に改善されたとします。この場合、このモデルの相対的な頑健性は5%と言えます。

相対的な頑健性は、分布変化に対するモデルの適応能力を直接的に表していますが、分布内の精度の影響を考慮していないという限界があります。

Taoriらは、頑健性の手法が有効な頑健性と相対的な頑健性の両方を改善することを目指すべきだと主張しています。有効な頑健性は、分布内の精度の影響を取り除いた真の頑健性の改善を表しており、相対的な頑健性は、モデルの適応能力を直接的に表しているからです。

以上が、有効な頑健性と相対的な頑健性の概要です。これらの概念は、モデルの頑健性を多面的に評価するための重要な指標と言えます。

Claude3


質問:有効な頑健性と相対的な頑健性について解説していただけますか?

Taoriらの研究では、「有効な頑健性(Effective Robustness)」と「相対的な頑健性(Relative Robustness)」という二つの概念が紹介されています。これらは、自然な分布のシフトに対するモデルの堅牢性を測定するための方法です。

### 有効な頑健性(Effective Robustness)
有効な頑健性は、分布内(In-Distribution, ID)の性能から予測可能な範囲を超えて、分布外(Out-of-Distribution, OOD)での追加的な堅牢性を測定する指標です。つまり、モデルが訓練されたデータとは異なる新しいデータに対してどれだけうまく対応できるかを示します。この指標は、モデルが見慣れないデータや予期せぬ状況に遭遇したときの性能低下を少なくする能力を評価します。

### 相対的な頑健性(Relative Robustness)
相対的な頑健性は、特定のベースライン性能に対するモデルのアウトパフォーマンスを比較することで、その堅牢性を相対的に評価する方法です。これは、モデルが通常の条件下(訓練データ)での性能だけでなく、非標準的または異常な条件(分布外データ)でどれだけ効果的に機能するかを測定するために用います。

### 研究の文脈
Taoriらの研究は、これらの指標を用いて、様々なImageNetモデルの自然な分布シフトに対する頑健性を分析しました。研究では、モデルが訓練データセットで示した性能と、実世界の変動や異なる状況での性能との間にしばしば大きなギャップがあることを明らかにしました。また、モデルが一般化する能力と、新しいや未知のデータに対応する能力の間には、必ずしも一致しないことを示唆しています。

これらの概念は、AIシステムの実用化に向けて、モデルの堅牢性をより深く理解し、向上させるための重要な指標となっています。






質問:「モデルが訓練されたデータとは異なる新しいデータに対してどれだけうまく対応できるかを示します。」といいますが、訓練データと検証データは別のものを使うのが普通なのではないでしょうか?


はい、おっしゃる通り、通常の機械学習プロジェクトでは訓練データとは別に検証データ(またはテストデータ)を用いてモデルの汎用性と性能を評価します。ここでのポイントは、訓練データと検証データが同じデータソースや分布から抽出されている場合が多いということです。つまり、これらは通常、同様の統計的特性を持ち、同じようなデータ分布に基づいています。

### 通常の検証との違い
「有効な頑健性(Effective Robustness)」に関する議論では、モデルが訓練データと同じ基本的な分布ではなく、まったく新しいまたは異なる分布のデータにどれだけ効果的に対応できるかを問うています。この「新しいデータ」とは、訓練や検証に用いられたものとは根本的に異なる特性を持つデータセットのことを指します。このようなデータには、以下のようなものが含まれるかもしれません:

- **異なる時間期間からのデータ**:訓練データが収集された後の時間経過によって変化した特性を持つデータ。
- **異なる地理的または環境的条件からのデータ**:例えば、異なる国や文化、環境条件下で収集されたデータ。
- **異なる操作条件下のデータ**:異なる装置や条件下で収集されたデータ。

### なぜ重要か?
この種の評価は、モデルが実世界のダイナミックで多様なシナリオに対してどれだけ効果的に機能するかを理解する上で非常に重要です。現実世界では、データは常に変化しており、訓練データに完全に依存するだけでは、未知のシナリオやデータシフトに対応できない可能性があります。

有効な頑健性を測定することによって、モデルが未知のデータにどれだけ柔軟に対応できるか、また予期せぬ状況下での性能を保持できるかを評価することができます。これは、AIモデルを安全かつ効果的に実用化するための重要なステップです。

GPT-4

結論をまとめる。

3.3. Robustness to Natural Distribution Shiftの章では、CLIPモデルの自然な分布変化に対する頑健性を評価し、以下のような主要な結論を導いています:

1. ゼロショットCLIPモデルは、ImageNetで訓練された標準的なモデルよりも自然な分布変化に対して大幅に頑健である。具体的には、ゼロショットCLIPモデルは、頑健性ギャップ(分布内の精度と分布外の精度の差)を最大75%縮小する。

2. ImageNetの分布に適応したCLIPモデルは、最先端のImageNetモデルと同等の有効な頑健性を示す。

3. データセット固有のゼロショット分類器を使用することで、静的なImageNetの分類器を使用する場合と比較して頑健性が向上する。

4. ゼロショットCLIPモデルは、同等のImageNet精度を持つ教師あり学習モデルよりも頑健である。

5. 効果的な頑健性を高めるには、モデルがアクセスする分布固有の学習データの量を最小限に抑える必要があるが、これはデータセット固有の性能を低下させるトレードオフがある。

これらの結果から、著者らは以下のような結論を導いています:

1. 大規模なタスクおよびデータセットに依存しない事前学習と、ゼロショットおよび少ショット学習への転換は、より頑健なシステムの開発を促進し、性能のより正確な評価を提供する。

2. ImageNetの分布に過剰適合することが、自然な分布変化に対する脆弱性の原因である可能性がある。

3. ゼロショット学習は、自然な分布変化に対する頑健性を向上させる有望な方法である。

つまり、この章は、CLIPのようなゼロショット学習モデルが自然な分布変化に対してより頑健であることを実証し、より汎用的で頑健な視覚モデルを開発するための重要な知見を提供しています。また、ImageNetの分布への過剰適合が頑健性の問題の原因である可能性を指摘し、大規模な事前学習とゼロショット学習への転換の重要性を強調しています。

Claude3



4. Comparison to Human Performance


CLIPは人間のパフォーマンスや人間の学習と比べてどうなのか?CLIPと同じような評価設定で人間がどの程度のパフォーマンスを発揮するのかをよりよく理解するために、あるタスクで人間を評価しました。このようなタスクにおいて、人間のゼロショット性能がどの程度強いのか、また、1つまたは2つの画像サンプルを見せた場合に、人間の性能がどの程度向上するのかを把握したかったのです。これは、人間とCLIPのタスクの難易度を比較し、両者の相関や違いを特定するのに役立ちます。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)

ゼロショットの動機付けについて↓

この部分は、人間の作業者がゼロショットタスクに十分に動機づけられていなかった可能性について言及しています。

著者らは、人間の作業者がゼロショットタスク(つまり、どの画像がどのクラスに属するかを事前知識なしに判断するタスク)に取り組む際に、十分な努力を払っていない可能性を懸念していました。もし作業者がタスクを真剣に行っていなければ、人間の性能の評価は信頼できないものになってしまいます。

しかし、著者らは以下の2つの観察結果から、作業者が信頼できる判断を行っていたと結論づけています:

1. STL-10データセット(Coates et al., 2011)での人間の精度が94%と高かった。
2. 注意チェック用の画像のサブセットでの精度が97-100%と非常に高かった。

ここで、注意チェック用の画像とは、作業者が注意深くタスクに取り組んでいるかどうかを確認するために使用される、明らかに特定のクラスに属する画像のことを指します。

これらの高い精度は、作業者がタスクを真剣に行い、信頼できる判断を提供していたことを示唆しています。もし作業者がタスクに集中していなかったり、適当に回答していたりしたら、これほど高い精度は達成できなかったはずです。

したがって、この部分は、人間の作業者の信頼性を確認するために行われた注意チェックについて述べています。著者らは、これらの結果に基づいて、人間の作業者が提供した判断が信頼できるものであると結論づけています。

Claude3


まとめ

4. Comparison to Human Performanceの章では、CLIPモデルの性能を人間の性能と比較しています。著者らは、人間が同様の評価設定でどの程度の性能を発揮するかを理解するために、人間被験者に対して実験を行いました。

具体的には、5人の人間被験者に、Oxford IIT Petsデータセットの画像を見せ、37種類の犬と猫の品種のどれに最も当てはまるかを選択させました。この実験は、ゼロショット、ワンショット、トゥーショットの3つの設定で行われました。

実験の結果、人間はゼロショットタスクで平均54%の精度を達成し、たった1つの訓練例を見ただけで76%まで精度が向上しました。追加の訓練例による精度の向上は最小限でした。また、人間は「わからない」と回答した画像に基づいて判断を更新していたことから、人間は自分の知識の限界を認識し、1つの例から最も不確かな画像に関する判断を更新できることが示唆されました。

一方、CLIPは、ゼロショットタスクでは人間の精度をはるかに上回りましたが、少ショット学習では人間ほど効果的に事前知識を利用できませんでした。著者らは、これは人間のような少ショット学習を可能にするために、事前知識を適切に組み込む方法を見つけることが重要であることを示唆していると述べています。

また、著者らは、CLIPの誤りと人間の誤りが一致する傾向があることを示しています。これは、データセットのノイズ(ラベルの間違いを含む)と、分布外の画像が両者にとって難しいためであると考えられます。

全体として、この章は、CLIPが人間レベルのゼロショット性能を達成できる一方で、少ショット学習における人間の効率性には及ばないことを示しています。著者らは、この結果が、より人間に近い少ショット学習を可能にする将来の研究の重要性を示唆していると結論づけています。

Claude3


5. Data Overlap Analysis

訓練データと評価データ重複するのはよくないから対策したという話。

非常に大規模なインターネットデータセットで事前学習を行う際に懸念されるのは、下流の評価データセットとの意図しない重複である。最悪のシナリオでは、評価データセットの完全なコピーが事前学習データセットに漏れてしまい、汎化の意味のあるテストとしての評価が無効になってしまう可能性があるため、この点を調査することは重要である。これを防ぐ1つの方法は、モデルをトレーニングする前にすべての重複を識別し、削除することである。これにより、真のホールドアウト性能を報告することが保証されますが、モデルを評価する可能性のあるすべてのデータを事前に知っておく必要があります。これには、ベンチマークと分析の範囲が制限されるという欠点がある。新しい評価を追加するには、高価な再トレーニングが必要になるか、重複のために定量化されていない利益を報告するリスクがあります。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)

6. Limitations


CLIPにはまだ多くの限界がある。これらのいくつかは様々なセクションで解析の一部として議論されているが、ここではそれらを要約してまとめる。

Claude3


「On datasets with training splits,~」の説明。

この部分は、CLIPモデルの制限について述べています。具体的には、以下の点を指摘しています:

1. 訓練データが利用可能なデータセットにおいて、ゼロショットCLIPの性能は、ResNet-50の特徴量の上に線形分類器を置いたシンプルな教師あり学習のベースラインと同程度である。

2. これらのデータセットのほとんどにおいて、このベースラインの性能は、現在の最先端の手法よりもかなり低い。

3. CLIPのタスク学習と転移学習の能力を改善するためには、まだ多くの研究が必要である。

4. モデルのスケーリングによって性能は着実に向上しており、さらなる改善の可能性を示唆しているが、ゼロショットCLIPが全体的に最先端の性能に達するためには、計算量を約1000倍に増やす必要があると推定される。

5. 現在のハードウェアでは、そのようなスケールでのモデルの訓練は現実的ではない。

6. CLIPの計算効率とデータ効率を改善するための更なる研究が必要である。

つまり、この部分は、CLIPがゼロショット学習において優れた性能を示しているものの、教師あり学習の最先端の手法には及ばないことを指摘しています。著者らは、CLIPの性能をさらに向上させるためには、モデルのスケーリングが有望な方法の一つであると考えていますが、現在のハードウェアでは限界があることを認識しています。

そのため、著者らは、CLIPの計算効率とデータ効率を改善するための研究が重要であると主張しています。これは、より効率的な学習方法を開発することで、より少ない計算リソースでより高い性能を達成することを目指すものです。

以上が、この部分の主要な内容です。著者らは、CLIPの現状の制限を認識しつつも、さらなる研究によってこれらの制限を克服できる可能性を示唆しています。

Claude3

6. Limitationsの章では、CLIPモデルの現状の制限について議論されています。以下に、主要なポイントを要約します:

1. ゼロショットCLIPの性能は、教師あり学習の単純なベースライン(ResNet-50の特徴量+線形分類器)と同程度であるが、最先端の手法よりは劣る。

2. CLIPのタスク学習と転移学習の能力には、まだ大きな改善の余地がある。

3. モデルのスケーリングは性能向上に有効だが、最先端の性能に達するには約1000倍の計算量が必要で、現在のハードウェアでは現実的ではない。

4. CLIPは、真に分布外のデータ(例:MNIST)に対しては汎化性能が低い。

5. CLIPは任意の画像分類タスクを行えるが、出力可能なクラスが事前に定義されたものに限られる。

6. CLIPは、深層学習モデルの低いデータ効率性の問題を直接解決するのではなく、大規模なデータを用いることでこの問題を回避している。

7. ImageNetの検証セットに対するCLIPの性能は、ゼロショット設定における性能評価としては不十分である。

8. 著者らは、タスクに特化したデータセットを設計し、ゼロショット転移能力を評価することが重要だと述べている。

9. CLIPは、インターネット上のデータを用いて学習しているため、社会的バイアスを学習している可能性がある。

これらの制限は、CLIPの現状の性能と適用可能性を理解する上で重要な考慮事項です。著者らは、これらの制限の多くが将来の研究によって解決され得ると示唆しつつも、現時点ではCLIPの応用には注意が必要であると警告しています。

Claude3


7. Broader Impacts

7章のBroader Impactsでは、CLIPのような汎用的な画像認識モデルの潜在的な影響と関連する倫理的な考慮事項について議論されています。主要なポイントは以下の通りです:

1. CLIPは、画像分類タスクを幅広く実行できるため、その性能と適合性は文脈に応じて評価される必要がある。

2. CLIPは、独自の画像分類器を容易に作成できるため、潜在的な悪用のリスクがある。

3. 著者らは、FairFaceデータセットを用いてCLIPのバイアスを評価し、人種や性別によって分類精度に差があることを発見した。

4. 著者らは、有害なステレオタイプを助長する可能性のある分類語を用いて、CLIPのバイアスをさらに調査した。

5. 著者らは、分類語の選択がモデルの性能とバイアスに大きな影響を与えることを示した。

6. 著者らは、監視タスクにおけるCLIPの性能を評価し、特定の監視用途に適していることを発見した。

7. 著者らは、モデルの性能だけでなく、倫理的な考慮事項も評価することの重要性を強調している。

8. 著者らは、モデルの特性、欠点、バイアス、影響を理解するために、コミュニティ全体での取り組みが必要であると提案している。

9. 著者らは、有害な使用を防ぎ、有益な使用を促進するために、モデルの透明性と説明責任が重要であると主張している。

この章は、CLIPのような強力なAIシステムが社会に与える潜在的な影響を慎重に考慮することの重要性を浮き彫りにしています。著者らは、技術的な性能の追求だけでなく、倫理的な考慮とステークホルダーとの対話が不可欠であると主張しています。この章は、AIの責任ある開発と展開のための重要な指針を提供しています。

Claude3

7.2. Surveillance


7.2のSurveillanceの節では、CLIPの監視タスクへの適用可能性と、それに伴う社会的影響について議論されています。主要なポイントは以下の通りです:

1. 著者らは、CLIPが監視カメラの画像や顔認識など、いくつかの監視関連のタスクで高い性能を発揮することを発見した。

2. 具体的には、CLIPは低解像度の監視カメラ画像の分類や、有名人の顔認識において優れた性能を示した。

3. CLIPの柔軟なクラス設計機能により、特定の監視用途向けの分類器を容易に作成できる。

4. ただし、顔認識などの多くの監視タスクでは、大規模なデータセットと高性能な教師あり学習モデルがすでに存在するため、CLIPの相対的な有用性は限定的である。

5. CLIPは物体検出や意味論的セグメンテーションなど、監視に関連する一部のタスクには適していない。

6. しかし、CLIPの柔軟性により、データセットや教師あり学習モデルが存在しないニッチな監視用途に適用できる可能性がある。

7. 著者らは、CLIPが現時点では非自明な監視関連のタスクで中程度の性能を発揮していると結論づけている。

この節は、CLIPのような汎用的な画像認識モデルが監視目的に悪用される可能性を示唆しています。著者らは、こうしたモデルの監視への適用可能性を慎重に評価し、潜在的な悪影響を防ぐための措置を講じることの重要性を強調しています。同時に、著者らは、CLIPの現状の性能と既存の監視技術を比較し、CLIPの相対的な有用性は限定的であると示唆しています。

Claude3



7.3. Future Work


この予備的分析は、汎用のコンピュータビジョンモデルがもたらす課題のいくつかを説明し、その偏りや影響を垣間見ることを目的としている。私たちは、この研究が、このようなモデルの能力、欠点、およびバイアスの特徴付けに関する将来の研究の動機付けになることを願っています。私たちは、CLIPのようなモデルの能力をさらに特性化し、性能が期待できる応用分野と性能が低下する可能性のある分野を特定するために、コミュニティが調査することが良い一歩になると考えています9。この特徴づけのプロセスは、研究者がモデルを有益に使用する可能性を高めるのに役立つ:
- 研究プロセスの早い段階で、モデルの川下での有益な利用法を特定し、他の研究者が応用を考えることを可能にする。
- 政策立案者による介入を必要とするような、感度が大きく、社会的利害関係者が多数存在するタスクを浮上させる。
- モデルにおけるバイアスの特徴をより明確にし、懸念される領域や介入すべき領域について他の研究者に警告する。
- CLIPのようなシステムを評価するためのテスト・スイートを作成することで、開発サイクルの早い段階でモデルの能力をよりよく評価できるようにする。
- 潜在的な故障モードと、さらなる研究のための領域を特定する。

私たちはこの研究に貢献するつもりであり、この分析がその後の研究の動機付けとなるような事例を提供することを願っている。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)


8. Related Work

いろいろ関連研究について述べられている。

最後に、CLIPは、視覚と言語の共同モデルの学習に関する最近の活発な活動(Lu et al.) この研究は、視覚的質問応答、視覚的コモンセンス推論、またはマルチモーダル含意などの複雑な下流タスクを解決するために、視覚と言語を豊かに接続することに焦点を当てている。これらのアプローチは、3つ(またはそれ以上)の事前に訓練されたサブシステム(通常、画像特徴モデル、領域提案/物体検出モデル、およびBERTのような事前に訓練されたマスク言語モデル)を組み合わせた、印象的に設計されたモデルを活用する。これらのシステムは、画像とテキストのペアに対する様々な学習目標を通じて共同で微調整され、前述のタスクに適用され、印象的な結果を達成する。CLIPはその代わりに、自然言語監督を介してゼロから視覚モデルを学習することに重点を置いており、共同注意モデルで2つのドメインを密に接続することはない。画像領域とテキスト領域の間のCLIPモデルにおける唯一の相互作用は、学習された共同埋め込み空間における単一のドット積である。我々は、CLIPがこの研究分野とハイブリッド化されるのを楽しみにしている。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)


最後の段落について。

この段落は、最近の視覚と言語の結合モデルの学習に関する研究の動向と、CLIPとの関連性について述べています。

この一連の研究は、視覚質問応答、視覚的常識推論、マルチモーダル含意などの複雑なタスクを解決するために、視覚と言語を密に結びつけることに重点を置いています。これらのアプローチは、印象的にエンジニアリングされたモデルを利用しており、通常、以下の3つ(またはそれ以上)の事前学習済みサブシステムを組み合わせています:

1. 画像特徴モデル
2. 領域提案/物体検出モデル
3. BERTのような事前学習済みのマスク言語モデル

これらのシステムは、画像テキストペアに対してさまざまな学習目的関数を用いて共同でファインチューニングされ、前述のタスクに適用され、印象的な結果を達成しています。

一方、CLIPは、自然言語の教師情報を用いて視覚モデルをスクラッチから学習することに重点を置いており、共同注意モデルを用いて2つのドメインを密に結びつけることはしません。CLIPモデルにおける画像ドメインとテキストドメインの唯一の相互作用は、学習された共同埋め込み空間における単一のドット積です。

著者らは、CLIPがこの一連の研究と融合することに期待を寄せています。つまり、CLIPの自然言語監督によるシンプルな学習アプローチと、視覚と言語を密に結合するアプローチの利点を組み合わせることで、さらに強力なモデルが開発できる可能性があると示唆しています。

Claude3

 つまり、他のシステムと違って、CLIPは画像と言語が密に結合していないという特徴がある。密に結合というのは以下を意味する。

「密に結合する」というのは、モデルアーキテクチャ内で画像とテキストの情報を融合させる方法を指しています。多くの視覚-言語モデルは、画像とテキストの間の詳細な相互作用を学習するために、注意メカニズム(attention mechanism)を使用します。

例えば、画像の特定の領域とテキストの特定の単語の間の関係を学習するために、これらのモデルは画像の領域とテキストの単語の間の注意重みを計算します。この注意メカニズムにより、モデルは画像とテキストの情報を詳細に比較し、それらの間の複雑な関係を学習することができます。

一方、CLIPは、このような詳細な注意メカニズムを使用しません。代わりに、CLIPは画像とテキストを別々のエンコーダで処理し、それらの出力を共同埋め込み空間で比較します。この比較は、単純なドット積によって行われます。つまり、CLIPは画像とテキストの詳細な相互作用を直接モデル化するのではなく、それらを共通の埋め込み空間に射影し、そこで比較するだけなのです。

Claude3

9. Conclusion

我々は、NLPにおけるタスクにとらわれないウェブスケールの事前トレーニングの成功を、他のドメインに移植することが可能かどうかを調査した。この方式を採用することで、コンピュータビジョンの分野で同様の動作が現れることを発見し、この研究ラインの社会的意味について議論する。訓練目的を最適化するために、CLIPモデルは事前訓練中に様々なタスクを実行するように学習する。このタスク学習は、自然言語プロンプトによって活用され、多くの既存データセットへのゼロショット転送を可能にする。十分な規模であれば、このアプローチの性能はタスク固有の教師ありモデルと遜色ないが、まだまだ改善の余地がある。

Learning Transferable Visual Models From Natural Language Supervision(DeepL翻訳)

この記事が気に入ったらサポートをしてみませんか?