イリヤ・サツケヴァー | AI安全性を習得できなければ、人類はAIによって破壊される
教師あり学習アルゴリズムにおいて、それが最初のケースか2番目のケースかを判断できます。私は最善を尽くしたと言えます。ラベルなしデータから最大限の利益を得るために最善を尽くしたと言えます。そして、誰も私以上にうまくやることはできなかったでしょう。
ここで少し理論の世界に寄り道したいと思います。少し難解かもしれませんが、興味深いと思います。コルモゴロフ複雑性は究極の圧縮器として、究極の低後悔アルゴリズムを与えてくれます。実際にはアルゴリズムではありません。計算可能ではないからです。しかし、すぐにその意味がわかると思います。
まず、コンテキストとしてコルモゴロフ複雑性について知っている人はどれくらいいますか? 約50%ですね。コルモゴロフ複雑性は1分で説明できるようなものです。ですので、簡単に説明しましょう。
例えば、私があなたにデータを与えるか、あなたが私にデータを与えるとします。そして、私はそれを圧縮して、そのデータを出力する可能性のある最短のプログラムを与えるとします。その最短のプログラムを実行すると、あなたのデータが出力されるのです。はい、その通りです。Xを出力する最短のプログラムの長さです。
直感的に、この圧縮器がかなり優れていることがわかります。なぜなら、簡単に証明できる定理があるからです。というか、簡単に感じ取ることができて、一度感じ取れば、証明が簡単だと信じることができます。
基本的に、コルモゴロフ圧縮器を使ってあなたの文字列を圧縮すると、圧縮の質について非常に低い後悔しか感じないと言えます。この結果を証明できます。つまり、あなたの文字列X、つまりデータセットやデータベースなどがあるとして、Xを出力する最短のプログラムは、あなたの圧縮器が出力に必要としたものよりも短いということです。さらに、あなたの圧縮器がデータをどれだけうまく圧縮したかという項と、圧縮器を実装するのに必要なコードの文字数という小さな項が加わります。
直感的に、これが理にかなっていることがわかります。シミュレーション引数ですね。シミュレーション引数は、あなたが「私にはこの素晴らしい圧縮器Cがあります」と言うと、私は「いいですね。それはコンピュータプログラムとして提供されますか?このコンピュータプログラムをKに与えることができますか?」と言います。そしてKはあなたの圧縮器を実行します。なぜならKはコンピュータプログラムを実行するからです。あなたはただプログラムの長さに対して支払うだけです。
詳細は省きますが、コルモゴロフ複雑性の感覚は伝わったと思います。コルモゴロフ圧縮器は他のコンピュータプログラムをシミュレートし、他の圧縮器をシミュレートできます。これが計算可能ではない理由でもあります。すべてのコンピュータプログラムをシミュレートする自由があるからです。しかし、存在する最高の圧縮器です。
私たちは教師なし学習のための良い圧縮について話していました。ここで、コルモゴロフ複雑性とコルモゴロフ圧縮器を一般化して、副次的な情報を使えるようにしましょう。この点について何度か繰り返し説明します。なぜなら、この点が重要だからです。
明らかに、コルモゴロフ圧縮器は計算可能ではありません。決定不能です。すべてのプログラムを検索するようなものだからです。しかし、100層のニューラルネットのパラメータに対してSGDを実行すると、ある程度のメモリと一定のステップ数を持つコンピュータ上でプログラム検索を自動的に行っているようなものです。それは微小なマイクロマイクロマイクロHのようなものです。ニューラルネットには、その類似性を感じることができます。魔法のようですね。
ニューラルネットワークは小さなプログラムをシミュレートできます。小さなコンピュータであり、回路です。回路はコンピュータであり、計算機です。SGDはプログラムを検索します。ディープラーニング全体がSGDの奇跡の上に成り立っています。実際にこれらのコンピュータをSGDで訓練できるのです。データからそれらの回路を実際に見つけることができるのです。したがって、私たちはミニチュアのコルモゴロフ圧縮器を計算でき、シミュレーション引数もここに適用されます。
ところで、一つ事実を述べておきたいと思います。より良いニューラルネットワークアーキテクチャを設計しようとしたことがあるでしょうか。そうすると、より良い新しいアーキテクチャを見つけるのは難しいことがわかります。「このつながりを追加しよう」「あのつながりを追加しよう」「これとあれを修正しよう」などと言います。なぜ難しいのでしょうか。シミュレーション引数です。新しいアーキテクチャは、古いアーキテクチャによってかなり簡単にシミュレートできるからです。できない場合を除いてですが、そのような場合はまれです。そしてそのまれな場合には、大きな改善が見られます。例えば、小さなRNNからTransformerに切り替えたときのようです。
RNNには隠れ状態というボトルネックがあるので、Transformerを実装するのは難しい時間がかかります。しかし、非常に大きな状態を持つRNNを設計する方法を見つけていたら、おそらくTransformerと同じくらい良くなっていたかもしれません。
ここで、フォーマルな世界からニューラルネットワークの世界への移行が始まっているのがわかります。類似性が見えてきますね。
条件付きコルモゴロフ複雑性は、教師なし学習の解決策です。基本的に、同様の定理を持つことができます。K(Y|X)とは何かを定義しませんが、定義します。それはYを出力する最短のプログラムの長さです。ただし、Xを調べることが許可されています。同じ結果を証明でき、これが教師なし学習の解決策であることがすぐにわかります。
これを使えば、誰も自分以上に教師なし学習をうまくやっていないと確信して、安心して眠ることができます。文字通り、そういうことです。これが教師なし学習の究極の低後悔解決策です。ただし、計算可能ではありません。しかし、これは有用なフレームワークだと思います。
ここでは、例ではなくデータセットを条件としています。この方法は、Yを予測するためにXからすべての価値を抽出します。データセットです。例ではありません。これが教師なし学習の解決策です。成功です。
ここで、少し時間をかけて説明する必要がある技術的な詳細が一つあります。私たちは条件付きコルモゴロフ複雑性について話していました。つまり、一つのものを圧縮しようとする圧縮器が、別のものにアクセスできるという状況です。これは、少なくとも今日の機械学習の文脈では、大規模なデータセットに適合することを考えると、少し不自然です。急速に変化していますが、大規模なデータセットを条件とする本当に良い方法はまだないと言っても公平だと思います。大規模なデータセットに適合することはできますが、それを条件とすることはまだできません。少なくとも本当の意味では。
この結果は、教師あり学習タスクYについて予測を行いたい場合、XとYの連結を圧縮する古典的なコルモゴロフ圧縮器を使用することが、条件付き圧縮器を使用するのと同じくらい良いということを示しています。ここには詳細といくつかの微妙な点がありますが、興味のある人がいれば、オフラインで話し合うことができます。
基本的に、前のスライドでは条件付きコルモゴロフ圧縮器を使って教師なし学習を解決できると言いましたが、これは通常のコルモゴロフ圧縮器も使えるということを示しています。すべてのデータを取り、すべてのファイルを連結して圧縮すれば、あなたが気にしている教師あり学習タスクについて素晴らしい予測ができるのです。これが真である理由についていくつかの直感があります。この結果を証明するのは少し厄介なので、ここでは行いません。
教師なし学習の解決策は、すべてをコルモゴロフ複雑性に、コルモゴロフ圧縮器に与えることです。
最後に、この種の結合圧縮は、オーバーフィットしない場合、最尤法であることを言及します。データセットがあれば、パラメータが与えられた尤度の和は、データセットを圧縮するコストです。パラメータを圧縮するコストも支払う必要がありますが、2つのデータセットを圧縮したい場合は、トレーニングセットにポイントを追加し、和に項を追加するだけです。
この連結、この結合圧縮は機械学習の文脈では非常に自然です。そのため、条件付きコルモゴロフ複雑性があり、それから完全に擁護することなく主張を行い、通常の「すべてを圧縮する」コルモゴロフ複雑性も機能すると言うのは価値があったのです。
私はこれがエレガントだと思います。なぜなら、ニューラルネットワークが何をしているのかを説明していると言えるからです。SGDを大規模なニューラルネットワークに適用することは、大規模なプログラム検索であり、より大きなニューラルネットワークはコルモゴロフ圧縮器をより良く近似すると言えます。これが、私たちが大規模なニューラルネットを好む理由かもしれません。私たちは、到達不可能なコルモゴロフ圧縮器の理想に近づいているのです。コルモゴロフ圧縮器は本当に後悔がありません。そして、より大きなニューラルネットを訓練するにつれて、予測価値の抽出に関しては、より少ない後悔を持つようになるのです。
これがGPTモデルにどのように適用されるかについてですが、この理論はGPTモデルにも適用されると主張します。しかし、GPTモデルの扱いが少し難しいのは、その振る舞いの理論が圧縮や教師なし学習に言及せずに説明できるからです。単にインターネット上のテキストの条件付き分布だと言えばいいのです。フューショット学習は、繰り返しパターンのある文書を想像してください。そのパターンはおそらく続くでしょう。
したがって、GPTモデルは直感的に説明できます。少なくともそのフューショット行動は、この理論に言及せずに説明できます。そこで、この理論の直接的な検証を他に見つけることができないかと考えました。視覚のような別の領域で見つけることはできないでしょうか。視覚にはピクセルがありますが、ピクセルに対してこれを行うと良い教師なし学習につながることを示せないでしょうか。
答えはイエスです。これは2020年に行った研究で、IGPTと呼ばれています。これは高価な概念実証であり、実用的な手順を意図したものではありません。本当に良い次のステップ予測器があれば、素晴らしい教師なし学習ができることを示す論文を意図したものです。これは画像領域で証明されました。
説明しますと、画像があり、それをピクセルのシーケンスに変換します。各ピクセルにはある離散的な強度値が与えられます。そして、次のピクセル予測を行います。Transformerを使用するだけです。BERTとは異なり、単に次のトークン予測です。これは尤度を最大化するため、圧縮することになります。
直接的な結果として、これらはCIFAR-10での結果です。異なるサイズのモデルがあり、これは教師なし学習タスクであるピクセル予測タスクでの次のステップ予測精度です。そして、これは線形プローブ精度です。ニューラルネットの内部の最適なレイヤーを選び、線形分類器をフィットさせて、どれだけうまくいくかを見ます。
これらの素晴らしい曲線が得られ、だんだん似てきています。これはまさに望んでいたものです。つまり、うまくいっているということです。次の単語予測と同じ種類の次のピクセル予測が、より良い教師なし学習につながっています。単なるピクセル予測ではなく、次のピクセル予測です。これはかなりクールだと思いました。
私たちはこれを様々な程度にスケールアップしてみました。確かに、合理的に学習することがわかりました。教師なし学習と当時の最高の教師なし学習の間のギャップに近づきましたが、完全には埋められませんでした。ImageNetでは明らかにスケールしているように感じられ、計算力の問題でした。
これらは大規模な高解像度画像を使用しますが、私たちは巨大なTransformerで当時としては小さな64x64画像を使用しました。今日の基準では小さいですが、当時としては巨大な60億パラメータです。
つまり、大規模な画像データセットで教師なし次のピクセル予測を行い、ImageNetで線形プローブをフィットすると、強力な結果が得られます。これはクールです。CIFAR-10で99%の精度を得たのもクールでした。2020年は異なる時代でしたが、クールでした。
線形表現についていくつかコメントして締めくくりたいと思います。圧縮理論が好きな理由は、長い間教師なし学習について厳密に考えることができなかったからです。今では部分的にではありますが、できるようになったと主張します。まだ多くの手振りが必要ですが、以前よりは少なくなったかもしれません。
しかし、なぜ表現が線形分離可能であるべきかは説明していません。線形プローブが起こるべきだとは言っていません。線形表現は常に起こります。その理由は深遠で奥深いはずです。いつかはっきりと説明できるようになるかもしれません。
興味深いと思ったのは、これらの次のピクセル予測モデル、自己回帰モデルは、BERTよりも優れた線形表現を持っているようだということです。青い精度はBERTと自己回帰の比較です。なぜそうなのかはわかりません。推測はできますが、それらの線形表現がなぜ形成されるのか、本当の理由についてより理解を深めることができれば素晴らしいと思います。
以上です。ご清聴ありがとうございました。
[拍手]
質問: その推測を教えていただけますか?
はい、はい。推測は基本的に、次のピクセル予測を行う場合、すべての前のピクセルから次のピクセルを予測しているので、長距離構造を見る必要があるということです。しかし、BERTでは、ベクトルがあり、トークンまたはこの場合のピクセルの25%をドロップするとします。そうすると、実際にはすべての予測を過去と未来を少し見るだけでかなりうまく行うことができます。
つまり、すべての難しい予測タスクを取り除くか、かなり簡単にしてしまうのです。次のピクセル予測における最も難しい予測タスクは、BERT予測の場合の最も難しい予測タスクよりもはるかに難しいのです。これは議論です。少し考えれば、おそらくテストする実験を設計することもできるかもしれません。しかし、そういった推測です。
質問: 次の次のピクセル予測のより堅牢な2D版はありますか?
より堅牢というよりも、ニューラルネットワークを確率モデルに変換し、異なる入力に確率を割り当てるものなら何でも良いと言えます。次の次のトークン予測を行う他の大きな方法は拡散モデルです。拡散モデルも、高品質な画像生成器で使用されているものは、入力の尤度を最大化しているわけではありません。異なる目的関数を持っています。しかし、最も初期の定式化は尤度の最大化です。
ところで、拡散モデルは私の主張に対する反論です。というか、拡散モデルもBERTが持たないのと同じ理由で、次のトークン予測モデルよりも悪い表現を持つはずだと主張します。これにより、私の中では線形表現が形成される原因についての謎がさらに深まります。
質問: トークについてありがとうございます。コルモゴロフ複雑性とニューラルネットワークの類似性が気に入りました。一つ類似していない点は、ニューラルネットワークには訓練ダイナミクスがあることです。つまり、メモリを増やしてすべてのコンピュータプログラムを取るようなことをすると、コルモゴロフ複雑性ではデータの順序は関係ありませんが、ニューラルネットでは明らかに関係します。訓練の初期に学習されるシンプルなヒューリスティクスや特徴が、訓練の後期まで残っている可能性があります。この点についてどう考えますか?
はい、その類推は完璧ではありません。それは事実です。あなたが説明した方法で、類推が最も崩れるのは検索手順においてです。これはまさにあなたが言及していることです。データの順序が重要なのはなぜかというと、私たちが弱い検索手順を使用しているからです。コルモゴロフ圧縮器は、毎回すべてをゼロから列挙する無限に高価な検索手順を使用します。
つまり、この特定の類推には注意が必要だと言えます。明らかに普遍的に適用できるものではありません。しかし、教師なし学習がどこから来るのかを説明する上で、ある程度の価値があると思います。圧縮と次のビット予測、教師なし学習、教師あり学習の間を行き来する形式的な説明です。
質問: 暗号学の観点から遡ると、この種の理論は80年代にさかのぼります。圧縮が次の予測と同等であり、分布を区別できることと同等であるという話がありました。予測できれば圧縮できるアルゴリズムがあるということです。暗号学は逆で、圧縮する方法がないと言います。区別する能力がこれにどのように変換されるのか、何か自然なものはありますか?
質問を理解したと思います。私はあなたが言及した分野にそれほど精通していませんが、パラフレーズしてみます。2つの分布を区別できれば、その区別可能性を使って予測できると言っています。そして、質問は、どれだけうまく予測できるのか、それとも少し予測できるのかということですね?
関連することを一つ挙げられます。それはエネルギーベースモデルです。エネルギーベースモデルは、ニューラルネットワークを確率分布に変換するもう一つの方法を提供します。エネルギーベースモデルは、単にベクトルの構成を与えて、それがどのように感じるかを教えてくれます。そしてそれらすべてで正規化します。
エネルギーベースモデルに関しては特に、分布の比率がエネルギーの差に対応するように思えます。あなたが言っていることと何か関係があるかもしれません。おそらく、あなたが言ったことに正確にコメントしているわけではありませんが、残念ながらこれ以上付け加えることはありません。
質問: VC次元の名誉を守るために一言だけ言わせてください。2007年に量子状態のPAC学習に関する定理を出しました。これは、無限の精度を気にしない場合でも、状態空間を離散化しても、VC次元や脂肪粉砕次元などを見ると、仮説クラスのサイズの対数よりも指数関数的に小さくなる例でした。VC次元が必要な場合があると思います。
それは素晴らしい例ですね。
質問: あなたの表記法をよく理解できませんでした。大文字のXは分布からのサンプルですか?
分布からのデータセットです。
質問: そして、Transformer SGDは、与えられた一つのサンプルに対して圧縮するための最適なプログラムとは考えられないかもしれません。
その通りです。もう一つの仮定があります。ある種のニューラルネットワーク、Transformerである必要はありませんが、データに対数確率を割り当てるニューラルネットワークがあり、多数の訓練ケースがあるとします。ニューラルネットワークを実行して、各ケースでの対数確率を計算し、その合計を取ることができます。これがニューラルネットワークが全訓練データセットに割り当てる対数確率になります。
この特定の定式化では、ニューラルネットワークはデータの順序の構造を明示的に認識することはできませんが、それでも全データセットの対数確率を計算できると主張するのは意味があります。そして、その負の対数確率は、このニューラルネットワークを圧縮器として使用してこのデータセットを圧縮するのに必要なビット数を文字通り与えてくれます。
質問: あなたは圧縮を教師なし学習を理解または動機付けするためのフレームワークとして主張しています。最後に言及したポイントは、言語モデルに適用すると次の単語予測に適用するフレームワークは少し表面的に感じるかもしれないということでした。なぜなら、テキストタスクはすべて次の単語予測に変換でき、教師なし学習が表面的に教師あり学習と同じになるからです。
そこで、画像GPTに目を向けました。ここではすべてを次のピクセル予測として定式化することはできません。できるかもしれませんが、できないとしましょう。しかし、線形表現を使用して、圧縮が教師なし学習を定式化する良い方法であることを示すことができます。
しかし、有用な線形表現を与えない非常に効果的な圧縮器もあります。教師なし学習と教師あり学習が表面的に同じではないが、圧縮器が効果的な線形表現を与える必要がなく、圧縮が良い教師なし学習の目的関数であることを示すケースはありますか?
はい、この質問については考えがあります。まず、線形表現が良いことはボーナスだと言っています。この議論のどこにも、したがって線形表現が現れるべきだとは言っていません。しかし、良いファインチューニングが現れるべきだと理論は言っていると主張します。なぜなら、結合圧縮は一種のハッキーな近似ファインチューニングであり、SGDという悪い検索アルゴリズムを使用しているからです。
これらの古い実験からの証拠は、BERTが画像で実行した場合、次のピクセル予測よりも悪い線形表現を学習することを示唆しています。おそらく拡散モデルについても同じことが言えるでしょう。それはかなりありそうです。拡散モデルのファインチューニングがどのように比較されるか見てみるのは非常に興味深いでしょう。誰かがすでに知っているかもしれません。
質問: 教師なし学習に関するあなたのアイデアを持ち帰ることができると思いますが、何か洞察を得られるでしょうか?
ここでは、望ましい関数クラスについての洞察が得られると思います。例えば、多くの層を持つニューラルネットを望むでしょう。多くの層があれば、より多くの思考ができます。それらをより広く、より大きくしたいでしょう。基本的に、これは分野がすでにカバーしていることです。
必ずしも例の数を増やす必要はありません。これは、例えば、この理論の大きな実践的な弱点を示しているかもしれません。計算コストを無視しているのです。情報にのみ焦点を当てています。
ユニバーサルTransformerを知っていますよね。基本的に、Transformerですが、各層で同じ重みを使用します。素晴らしいアイデアです。ただし、多くのパラメータを持ちたい場合は、計算に多くの代価を払う必要があります。誰もそれをしたくありません。計算コストを無視することはできません。この理論は計算コストを無視しています。計算コストを無視すれば、どのように進めるべきかのレシピを与えてくれます。
質問: 特に確率分布の自己回帰モデリングの重要性についてどう思いますか? BERTも一種の最大尤度訓練を行っているとみなすことができます。例えば、サンプリング方法を見つけることもできます。
確かに、拡散モデルも最尤モデルとして設定できます。したがって、この理論はすべて、拡散モデルでも同様に素晴らしいことができるはずだと予測します。ただし、いくつかの定数因子があるかもしれません。これは先ほどの回答のように、計算に敏感な理論ではないからです。自己回帰モデルと拡散モデルの間で、おそらく10倍か15倍の計算が必要になり、その後は同じになるでしょう。自己回帰モデルはシンプルで便利です。エネルギーベースモデルはさらに素晴らしいことができるかもしれませんが、この観点からはすべて同じです。
質問: GPT-4が現時点で最高の圧縮器であり、おそらく最大のモデルでもあると思われます。一方で、より良く圧縮できますが、他方で圧縮器自体のサイズが増加しています。理論の観点からは、必ずしもそうではないのでしょうか?コルモゴロフ複雑性の観点から。
そうですね。重要なのは、実際に求めているのは、固定されたデータセットを圧縮することですが、GPTモデルの訓練方法では、大規模な訓練セットがあり、テストセットは無限大と仮定されています。テストセットが無限大で、テストセットを圧縮することを気にするなら、テストセットのサイズがはるかに大きい限り、圧縮器のサイズは気にしません。
これも類推が現実と完全には一致しない点だと言えます。ここでもっと慎重に考えれば、明確になるかもしれません。
質問: 独立した検証セットを使用すれば十分ではないでしょうか?それでギャップが埋まるような気がします。
良いことですね。本当に理論が言うことと同じでしょうか?単一エポックの場合を考えてみましょう。単一エポックの場合、訓練しながら対数確率を計算するだけで、それがデータセットのモデルによる圧縮の近似になります。これは検証セットの良い推定値も与えます。単一エポックの場合、things are quite similarということですね。
質問: 先月、あなたが示したように、2つの文字列を個別に連結して圧縮するのと同じように、圧縮された文字列に続く圧縮に関する論文があったことをお知らせしたいと思います。
それについて唯一コメントできるのは、gzipはテキストの非常に強力な圧縮器ではないということです。ある程度のことが可能であることは示していますが、本当に面白いことは最後のビットを絞り出すときに起こります。わかりますよね。
質問: カリキュラム効果について触れましたね。ニューラルネットでは見られますが、コルモゴロフ複雑性では見られません。昼食時に、カリキュラム効果が実際にどの程度重要なのかについて、現在の実証的な状況はどうなっているのか話し合いましたが、誰も答えを知りませんでした。
そうですね、少し複雑です。私の見解としては、私たちは分野として、使用しているTransformerのようなアーキテクチャを比較的最適化しやすいものにするために多くの作業を行ってきました。良い初期化を見つけ、良いハイパーパラメータを見つけ、トレーニングをできるだけ簡単にするようにアーキテクチャに変更を加えました。
トレーニングの最適化問題が簡単であればあるほど、カリキュラム効果の影響を受けにくくなります。例えば、あらゆる種類の特殊なアーキテクチャをトレーニングしていた人々、例えばニューラルチューリングマシンのような本当に複雑なものや、非常に多数の異種レイヤーを持つものをトレーニングしていた人々は、カリキュラムに非常に注意深くする必要がありました。完全なデータセットを与えるとすぐに失敗してしまうからです。
質問: 教師あり学習アルゴリズムにおいて、それが最初のケースか2番目のケースかを判断できます。私は最善を尽くしたと言えます。ラベルなしデータから最大限の利益を得るために最善を尽くしたと言えます。そして、誰も私以上にうまくやることはできなかったでしょう。