見出し画像

なぜアメリカのAI法のコンピュート閾値は的外れなのか...

サラ、MLSTに戻ってきていただき素晴らしいです。ここにいられて本当に嬉しいです。前回の会話から1年半くらい経っていますね。そうですね。確か私たちはNeurIPSで会って、それからロンドンのオフィスで撮影させていただきましたね。とても良かったです。番組のファンの方々はご存知だと思いますが、最初のインタビューはあなたのHardware Lotteryの論文についてでしたね。あれがあなたの最初の不満のエッセイでした。そうですね、非常に不満に満ちたエッセイでした。
ええと、Cohere for AIについてお話しします。これは研究部門で、私たちは多くの基礎研究を行っています。私の仕事の多くは効率性、信頼性、そして次世代モデルにスケールするモデルの構築に関するものです。Cohere for AIのウェブサイトに行けば、私たちの研究の一部を見ることができます。
サラ・フッカーはCoheereの研究担当副社長で、複雑な機械学習の問題を解決しようとするCohere for AIという研究所を率いています。Cohere for AIは未知の領域を探求する基礎研究をサポートしています。彼女は大規模言語モデルをより効率的で安全、そして現実に即したものにするために取り組む研究者とエンジニアのチームを率いています。この会話で、サラは多言語AIに関する最近の研究と、多くの異なる言語で機能する言語モデルを開発する上での課題について議論しています。彼女は特に低リソース言語におけるRHFのような現在のアプローチの限界について洞察を提供しています。
サラはまた、AI統治戦略としてのコンピュート閾値の使用を批判した最近の論文について話し、なぜFLOPSのような単純な指標がAIの能力とリスクを評価するには不十分であるかを説明しています。サラはコンピュート、データ、モデルアーキテクチャの関係を理解することの重要性を強調しています。彼女は言語、文化、そして現在のモデルでしばしば無視されている表現や長尾(全ての低頻度データが存在する場所)の複雑さを考慮に入れた、AIの開発と統治へのよりニュアンスのあるアプローチを提唱しています。
サラの研究は、これらの技術が社会にますます統合されていく中で、AIをより世界的に代表的で公平なものにすることを目指しています。番組をお楽しみください。
あなたの最新の不満の論文は「統治戦略としてのコンピュート閾値の限界について」というタイトルですね。エレベーターピッチを聞かせていただけますか?
この論文は非常に退屈なタイトルですが、表面的には一般の人々にはあまり知られていないこの奇妙なコンピュート閾値についてのものです。実際、これらは広く採用されています。AIに関する大統領令で採用され、EUのAI法でも採用されました。これらがAIに関して出された主要な政策であることは興味深いですね。
なぜこの非常に深いトピックであるコンピュート閾値について論文を書いたのでしょうか?それは、私たちの分野が現在問いかけていることの核心にあるからです。コンピュート閾値は、将来的な規模のモデル(現在のモデルには適用されません)が、精査に値するリスクプロファイルの違いを引き起こすという考えに基づいています。スケールがこの瞬間を引き起こし、モデルが以前のモデルとは根本的に異なるプロパティを持つかどうかという問題は、実際に過去20年間私たちの分野の核心にありました。なぜなら、過去20年間、私たちは「より大きいほど良い」という哲学を持っていたからです。データをスケールアップし、モデルサイズもスケールアップしてきました。
このエッセイは、本当にそうなのか、過去10年を振り返ってみて、コンピュートとリスクの関係について何を知っているのか、そしてこれらのコンピュート閾値が実際にリスクを軽減する可能性についてどう考えるかについてのものです。それが出発点でした。
最初に、歴史的に我々がリスクを推定し、制御し、対応しようとしてきた方法について話していましたね。いくつか例を挙げていただけますか?
主に社会として、私たちは未来をより良いものにするために積極的に制御しようとしてきました。これは最近のことでもあります。現代社会の典型的な特徴として、計画を立て、リスクを予測し、軽減することができるという考えがあります。あなたや私が毎日行っている例もあります。太陽に行くことがわかっていれば日焼け止めを塗るとか、暗い場所での作業を避けるなどです。政府が行っている分野もあります。この現代の時代、つまり過去300〜400年の間でさえも。
うまくやるためには2つのことが必要です。1つは、リスクがどこから来るのかを理解することです。リスクの種類を理解する必要があります。失敗した良い例は、黒死病のようなものです。例えば、当時の多くのプロトコルはネズミが病気の主要な媒介者であることを認識していなかったため、多くの軽減技術が成功しませんでした。
2つ目の重要な側面は、リスクのレバーを特定したら、それに見合った対応を形成することです。これが歴史的に失敗した例もあります。例えば、ロンドン大火は素晴らしい例です。これがリスクであることは知られていましたが、火災の拡大の初期段階で抑制に失敗したことがロンドンの大部分の破壊につながりました。
これらが政策立案者が直面する2つの課題です。技術のような何かにとって、これを複雑にするのは、通常、リスクのレベルを特定するという考えが非常に困難だということです。なぜなら、ほとんどの技術的ブレークスルーは、ブレークスルーの性質上、積極的な設定というよりも、むしろ遡及的な設定にあるからです。「これが世界を変えている今、私たちは何をすべきか」というのは、誰かが対応を形成するには非常に困難な立場です。
そうですね。つまり、私たちは未来を予測するのが非常に下手だということが、論文のテーマの1つですね。アメリカの大統領令とEUのAI法について少し触れてみましょう。彼らはFLOPSという概念を使用しましたが、FLOPSについては後で説明してください。アメリカでは制限を10の26乗に設定し、EUではもう少し厳しくしたいと考えて、25乗に下げたのですよね。
そうですね、FLOPSはこのコンピュート閾値が行われる方法です。FLOPSは単なる数え方だと思います。通常、モデルを訓練する際には、多くの異なる操作を行います。加算、減算、乗算、特に行列の乗算が現代のネットワークを支配しています。それをたくさんの操作に分解できます。FLOPSは単にそれを集計するだけです。
これらの閾値、10の26乗と10の25乗は、その時点で精査が始まるという考えです。現在の世界のモデルには適用されないことを理解することが重要です。大統領令やEUのAI法については、来年施行されるときにはほんの一握りのモデルに影響を与えるかもしれません。これは将来を見据えた政策です。現在の世界のモデルに基づいているわけではありません。
そのため、これは興味深い問題を提起します。つまり、私たちはどのようなリスクが出現するかを予測するのが上手なのか、そしてそれが正しい数字なのかという疑問です。そこから非常に興味深くなります。
そうですね。彼らは集計を持っていて、モデルで行われている計算量を推定し、この閾値を設定しています。その数字以下のものは気にしていないので、現在の実際のリスクの多くを気にしていないということですね。そして、この数字を超えると問題があると言っています。確かGPT-4モデルのサイズにほぼ相当する数字を設定したのではないでしょうか。
難しいですね。彼らはなぜその数字を設定したのか正式に正当化していませんが、逸話的には私の理解では、それによって導かれたようです。興味深いですね。まず、このリスクの有効な集計なのかという概念があります。つまり、将来のリスクを信じているなら、訓練のコンピュートが気にする数字なのかということです。
第二に、私たちはその数字を予測するのが得意なのかということも考える必要があります。それは考えるのに興味深いですね。
私にとっては、それは一見してちょっとクレイジーでした。私の頭の中を巡っているのは、政府に実際に何を話しているのかを知っている人が働いているのかということです。おそらくあなたに尋ねたら、すぐにこれを否定したでしょうね。実際にいくつかの例を挙げましたよね。
正規分布を持つものがあると言いましたね。例えば、生まれたときの赤ちゃんの体重や血圧、そういったものです。そして、他にもっと複雑なものがあります。例えば、家を買う場合、不動産業者は何をするでしょうか。彼らは複雑なモデルを持っていて、近隣を見たり、さまざまな要因を見たりします。一部の人々はインデックスを持っていて、時間とともに変化する可能性のあるものがあります。
この1つの絶対的な数字を持つことは、少し馬鹿げているように思えます。
実際、私は政策立案者の気持ちがわかります。なぜなら、彼らはその数字を継続的に調整するプレッシャーにさらされるでしょうから。この数字を考える上でいくつかの利点があったと思います。科学的なインプットなしでここまで来てしまったのは残念ですが、人々がFLOPSを好む理由の1つは、例えばそれがハードウェアに依存しないということです。異なるタイプのハードウェアでも同じ方法で測定できます。また、操作の集計を行うだけなので、測定が比較的簡単です。
また、どのようなリスクを気にするかを特定することを避けることもできます。そのため、政府が時間とともに適応する柔軟性を与えています。おそらく、これが最大の短所の1つだと私は言えます。特定しないことで、FLOPSの閾値を回避しつつも、非常にリスクの高いモデルになる可能性があります。
これが実際に重要な短所の1つだと思いますが、多くの政策立案者の動機が「他に何があるのか」ということは理解できます。私が主張したいのは、この指標にこだわるなら、そしてそれがいくつかの政策で正式化されていることを知っているなら、この指標が操作される可能性があることを理解する必要があるということです。論文ではいくつかの方法を列挙していますが、あなたの指摘のように、単一の数字は政策立案者に常にそれを調整し、技術的な情報を持って調整するという大きなプレッシャーをかけます。
なぜなら、これは急速に変化する分布だからです。コンピュートの概念は過去10年を見ても非常に不安定でした。私たちはこれを知っています。そのため、すぐに有効期限が切れてしまいます。あなたが言っていることは素晴らしい例だと思います。つまり、比較対象のリファレンスクラスが必要だということです。
不動産業者が家のプールを比較する方法を例に挙げましたね。これらの各ドメイン、生物学モデル(特定の研究者にとって非常に興味深い)、言語モデル、マルチモーダルモデルは、コンピュート要件の分布が異なります。そのため、リファレンスクラスに対して相対的に行う必要があります。
また、不動産業者が周囲の家のパーセンタイルに基づいて動的に行うのと同じように、動的に行う必要があります。リスクの単一の変曲点という概念は、実行可能な政策ツールではありません。なぜなら、常に物事が変化しているからです。
そうですね。ここには多くの話題がありますね。論文の中で素晴らしい例のリストを紹介されましたが、部屋の中の象の一つは、コンピュートと能力の間に何らかの線形の対応関係があるという仮定です。もちろん、あなたは多言語の分野で働いていますが、実際にはこれはあなたにとってペナルティになっています。なぜなら、多くの異なる言語で機能するモデルを持つためには、より多くのコンピュートが必要だからです。このことはあなたにとってうまく機能していないのではないでしょうか。
おっしゃる通りです。多言語を扱うと、基本的に英語と同じくらい広大な新しい分布を学習しようとしているのです。そのため、通常はもっと多くのコンピュートが必要になります。これは「多言語性の呪い」と呼ばれています。
他にも非常にトリッキーなことがあります。例えば、FLOPSや訓練時のコンピュートは、訓練後の最適化の大きな変化をどのように考慮しているのでしょうか。RHFについて話しましたが、他にも指示微調整があります。また、合成データの蒸留のように訓練時間を短縮するものもあります。これらはすべて、私たちが「推論時の最適化」と呼ぶものです。
訓練後に時間をかけて、コンピュートで支払うのです。例えば、Francois Cholletが言及したベストオブNサンプリングのように、多くの補完をサンプリングして最良のものを選択することができます。これらはすべて、モデルにとって非常に顕著な利点があります。通常、これらの技術のサブセットだけを使用しても、モデルのパフォーマンスは2〜6倍強力になります。それがFLOPSには反映されていません。
そうですね。モデルのライフサイクルや予測のライフサイクルを見ると、コンピュテーションを費やせる場所がたくさんありますね。データセットの生成や、もちろんモデルの訓練があり、それから推論時の最適化やアクティブ推論など、いろいろなことができます。彼らはモデルの訓練だけを考慮に入れていますが、さらに訓練の出自の問題もあります。例えば、Hugging Faceからモデルをダウンロードして、ファインチューニングしたり、いろいろなことをしたりできます。しかし、それがどのくらいの訓練を受けたのかは、不可解な重みの塊なので、全くわかりません。
これは、ライフサイクル全体でFLOPSを追跡するという考えです。これも困難になると思います。なぜなら、Hugging Faceで最も人気のあるモデルは、指示微調整されていないモデル、つまりベースモデルだからです。なぜなら、人々は継続的な事前訓練を行いたがり、独自の最適化技術を重ね合わせたいと考えているからです。これは、人々がこれを最適化プロセスの一段階として使用していることを示唆しています。
特に、時には私たちが測定する方法を考えると、合理的な方法で追跡することは非常に困難な課題になるでしょう。エキスパートの混合や古典的なアンサンブルのようなものを考えてみてください。その場合、何がカウントされるのでしょうか。エキスパートの混合では、多くの異なるエキスパートを持っているかもしれませんが、最終的には2つだけを使用しています。
古典的なアンサンブルはさらにニュアンスがあります。技術的には、すべてのモデルを一緒に最適化したわけではありません。最後にアンサンブルするだけで、最終的に1つのモデルを得ます。それをどのように扱うのでしょうか。非常に興味深いですね。これは、人々がすでにある程度のコンピュートを使用し、訓練の最後に何らかの変更を加えて、より性能を上げているという課題に非常に関連しています。
そうですね。そして、グッドハートの法則の問題もあります。目標が指標になると、それは良い指標ではなくなるというものです。これには多くの例があります。例えば、銀行には送金できる金額に恣意的な制限がありますね。例えば10,000ドルと設定されていると、9,999ドルの取引がたくさん見られます。制限を知っているからです。ここでも同じことが起こるのではないでしょうか。システムをゲーム化し、人々はさまざまな方法でそれを回避しようとするでしょう。
私が主に助言したいのは、政策立案者がこれを決定し、実行しようとしているなら、実際に気にしているリスクの補助的な指標を補完する必要があるということです。インデックスでなければなりません。なぜなら、コンピュートだけにこだわると、回避するのが簡単すぎるからです。訓練後にパーセンテージポイントを獲得するために行える方法が多すぎるし、訓練時間を短縮したりFLOPSを減らしたりしながら、依然として非常に性能の高いモデルに到達する方法も多すぎるからです。
これが私のもう一つの重要な推奨事項です。つまり、実際に気にしているダウンストリームのリスクに固定されたものが必要だということです。コンピュートはそれではありません。それは単に、より多くのコンピュートがより良いという私たちの信念を反映しているだけで、小さなモデルが非常にターゲットを絞っていれば極めてリスクが高くなる可能性があるという、すべての方法を考慮するには単純すぎる見方です。
そうですね。おそらくリッチ・サットンを持ち出すべきでしょう。彼はこの素晴らしい...
彼は「苦い教訓」というエッセイを書きましたね。あなたに紹介してもらいますが、彼はコンピュートが必要なすべてだという考えの一部を担っていました。
そうですね。ちなみに、私はそれが素晴らしいエッセイだと思います。それは、歴史が私たちに教えてくれる、特にコンピュータサイエンスにおいて、私たちの専門知識を体系化しようとするすべての努力、モデルに学習の正しい方法だと思うものを非常に fancy な方法で教え込もうとするすべての努力が、言ってみれば無駄だったという考えです。彼は実際に、私たちコンピュータサイエンティストはあまり上手ではないと言っています。そして、成功を導いた最大の勾配は、コンピュートをミックスに加えることだったのです。
私たちはアルゴリズム的なことを行うことはできますが、それはコンピュートとうまく調和する必要があります。つまり、彼はこのハードウェアのアイデアを得ましたが、それはより一般的なものです。特定のタイプのハードウェアに固有のものではなく、単にコンピュートだという考えです。コンピュートとうまく調和し、うまくスケールすれば、それが勝利するバリアントになるというものです。
そうですね。私には、彼が正しくて間違っているという直感があります。より良く、より多くのものを記憶するシステム1モデルに関しては、彼はある程度正しいです。長い尾をより多く記憶するにつれて、モデルはどんどん良くなっていくという対応関係があります。
しかし、コンピューティング能力と推論を実際に行う、たとえばニューロシンボリックアーキテクチャを持つシステム2モデルの間に根本的な断絶があるかもしれないと私は考えています。皮肉なことに、このような規制が、そのような断絶を見つけることを促進するかもしれません。そうすれば、突然、より少ないコンピュートで本当に良い能力を持つことになるかもしれません。
おっしゃる通りです。私はあなたに同意しません。リッチ・サットンに同意する点は、与えられたアーキテクチャ、例えばTransformersに対して、ある飽和点まではより多くのコンピュートを投入できるということです。他のすべての条件が同じで、データセットが同じであれば、コンピュートが多いほど良いでしょう。なぜなら、これらは貪欲な学習者だからです。すべてのディープニューラルネットワークは頻度カウンターです。長い尾のパフォーマンスと全体的な利益が見られるでしょう。
しかし、それが見逃している点は、実際にいくつかのことが起こっているということです。1つは、私たちの現在の表現が非常に非効率的であるため、アルゴリズム自体を本当に変更し、コンピュートのルールを曲げる方法があるということです。そして、ディープニューラルネットワークがゲインを解き放つのに必要なコンピュートの割合は、特に素晴らしい例です。
なぜなら、これらは痛々しいほど非効率的だからです。すべてのデータを同じ回数見せなければならず、これらのグローバルな更新を行わなければならないからです。そのため、今では多くのトリックが見られます。例えば、私たちは再びデータを気にするようになり、データの品質を気にするようになりました。
私たちがダウンストリームでモデル化したいものをよりよく表現するように、その空間を条件付けます。つまり、はるかに少ない訓練で済むのです。なぜなら、データセット内のすべての特徴が、私たちが学習したいものだからです。もしインターネット上で単に訓練するだけなら、学習したくないものがたくさんあります。そのため、後でそれを「アンラーン」しなければならず、その中で欲しいものを見つけようとするだけで多くのコンピュートを費やす必要があります。
これがルールを曲げるところであり、より微妙になります。つまり、コンピュートの割合は、他の何よりもアルゴリズムの事前分布によって決定されるということです。はい、あなたのアルゴリズムがコンピュートとうまく調和し、スケーラブルであれば、コンピュートは多くのことを解き放ちます。しかし、その割合と飽和点はアルゴリズムによって決定されます。
これはどういう意味でしょうか。畳み込みニューラルネットワークは素晴らしい例です。2012年に導入され、スケーラビリティを本当に解き放ちました。なぜでしょうか。畳み込みフィルターとパッチにより、当時の高次元の画像をモデル化することが可能になったからです。なぜでしょうか。パッチを画像上で移動させることで、局所的な関係を利用できます。次元性を本当に減らすことができます。
Jeffrey Hintonが有名に不満を持っている(そして正当に)最大プーリング層は、最大値以外のすべてを捨ててしまいます。特徴の量を減らしているのです。画像をモデル化する能力を解き放ち、ある程度までスケーラビリティを獲得します。これは、画像モデルについて私たちが有名に知っていることです。今では飽和点に達しています。みんなTransformersに切り替えました。なぜなら、それは新しいアーキテクチャだからです。
つまり、アルゴリズムは検索空間に対する最も重要な事前分布の一つだということです。リッチの言うように、コンピュートとうまく調和するものがデフォルトになるでしょう。しかし、問題は、スケーリング法則と未来を予測する能力が本質的にアルゴリズムとコンピュートに限定されるということです。
これが興味深いのは、未来を予測するのがあまり得意ではないということを意味しているからです。なぜなら、このアーキテクチャとコンピュートの組み合わせという狭い弧に閉じ込められすぎているからです。
そうですね。CNNの例でさえ、リッチが間違っていることを証明する例だと思います。なぜなら、彼は「苦い教訓」の中で、対称性のような手作りの事前分布を与えようとする試みは、CNNは対称性ですが...
そうですね、CNNでは対称性とスケール不変性がエンコードされていて、本質的にはそれが行っていることは、最後にはまだMLPがあるので、スケールと対称性がなかったかのようにMLPを構築するためのショートカットです。
つまり、基本的にはMLPを構築していますが、スケールと対称性の手動設計されたショートカットを使っているだけです。
そうですね、はい。しかし、コネクショニストたちは、これらのものが私たちよりも単に賢いと考えているという考えがまだあります。例えば、Deep Mindの合理主義者のNeil Nandaが私に言ったのですが、「これらのものは単にあなたよりも賢いんだ」と。それを聞いてどう感じましたか?
まあ、良い気分ではありませんでしたね。しかし、このメカニズム解釈の問題があって、彼らは本当に、そこに何か深い形の解読不可能な知性が存在すると信じているようです。最近、Anthropicから単一意味性に関する論文が出ましたが、何か本当に興味深いことが起こっているという深い信念がありますね。あなたはどう思いますか?
言語は非常に強力だと思います。だからこそ、私たちはこの技術と非常に結びついているのです。なぜなら、言語は私たちが互いに感情的につながる方法だからです。人間としての私たちがかなり部族的であることと非常に結びついています。そのため、モデルが人間と区別がつかない分布を学習すると、それは立ち止まって考えさせられます。
これらの会話は有用だと思います。なぜなら、この技術がどのように使用されるかについて価値ある熟考を与えるからです。例えば、私は人間に通知せずにこれらのアルゴリズムを展開しようとする多くの試みに非常に反対です。アルゴリズムと話しているときは常にそれを認識しているべきだと思います。なぜなら、これらは時々かなり説得力があるからです。そのため、モデルと人間の役割が何であるかを常に伝えることが非常に重要です。
ここにより高度な推論があると思いますか?私はそうは思いません。多くの点で、アイデア間の空間の説得力のある補間がある場合、それは私たちにとって驚きになると思います。私たちを喜ばせるのは創造性と驚きの要素ですが、これは推論する能力でしょうか?そうは思いません。
私たちが持っている記憶関係のアーキテクチャのタイプには明確な関係があると思います。私たちはこれを知っています。スケールを増やすとき、特定のアーキテクチャを学習するとき、またはスケールを補償するためにさまざまなトリックを行うとき、つまり小さくても物事を学習できるようにするとき、私たちが本当にしているのは、良い記憶を誘導しようとしているだけです。
そして、結局のところ、私たちが気にする分布の一部に向けて適切に導くことです。率直に言って、なぜこれらすべの最適化トリックが、コンピュートを超えてコンピュートを削減するために機能したかというと、私たちは主に欲しくない分布で訓練しているからです。インターネットで訓練することから始めますが、実際にはこれらのモデルと関わるとき、インターネットは欲しくありません。非常におしゃべりで哲学的で賢明なものが欲しいのです。
そのため、私たちが行っていることの多くは、訓練データの中で私たちが気にする tiny sliver、つまり微小な部分に向けて物事を導こうとしているのです。だからこそ、最後に到達する前に多くの最適化トリックがあるのです。しかし、それは非常に興味深いです。なぜなら、それが本当に教えてくれるのは、伝統的な機械学習の問題とは異なり、訓練データセットが学習したい分布である場合、言語で私たちが行っていることの多くは、アンラーニング、つまり導き、アンラーンし、無視し、そして欲しいものに集中しようとしているということです。本当に興味深いですね。
機械アンラーニング、それは非常に興味深いですね。私も認知科学の外在主義的伝統の大ファンです。例えば4E認知のようなものです。その意味で、モデルの周りに境界を引くのは意味がないと思います。なぜなら、私たちの意味づけ、意味論的状況づけられた知識などは、ある意味で観察者相対的だからです。
これらのものは私たちの文化や意味づけに埋め込まれています。人間がプロンプトを入力し、出力を解釈します。実際に、これらのものを構築するためのデータ生成プロセスさえも、宇宙から発生したものです。私たちはみな行為者であり、物理的世界と社会的世界にいます。モデルが構築される方法と、それらが使用され、解釈され、評価される方法の両方で、実効的な計算を行っているのです。
では、宇宙のFLOPSも含めるべきでしょうか?
それは興味深いですね。はい、FLOPSに関して他にも興味深いことがあります。通常、最終的に提供するモデルは可能なモデルの1つに過ぎません。実際、大規模なスケールでさえ、多くの候補モデルを訓練し、最良のものを選択します。これは興味深いです。なぜなら、これらは一緒に最適化されているわけではありませんが、選択プロセスを通じて暗黙的に最適化されているからです。私たちが望むものに向けて導いているので、本当に興味深いダイナミクスです。
しかし、そのように考えたことはありませんでした。それは、Hardware Lottery論文についてさらに大きなメタアプローチです。我々はそれについて話しましたね。それは本当に楽しい会話でした。あなたがStreet MLのトリオ、Street Talkの初期バージョンを行っていたときのことを覚えています。
私が最初にショーに招待されたのは、私が書いたこのアイデアについてだったと思います。コンピュータサイエンスの歴史のほとんどは、あなたのアイデアが利用可能なハードウェアで機能するかどうかによって導かれてきたという考えです。
当時、多くの人々にそれが共感を呼んだと思います。なぜなら、それが本当に言っているのは、私たちは今、別のハードウェアの抽選にいるかもしれないということだからです。Transformersのようなものは、私たちが皆使用しているものですが、GPUやTPUに徐々にロックインされてきました。これらはすべてこのハードウェアを加速するために構築されてきました。
これは、次は何か、そして次の素晴らしいアイデアが数十年間停滞しないようにするにはどうすればいいかという疑問を投げかけます。それはディープネットワークに起こったことです。GPUがビデオゲームの使用から変換されるまで、単純に機能しませんでした。これは本当に、機械学習ワークロードのために変換された意図された目的ではありませんでした。
それは10年以上にわたって起こりました。非常にゆっくりとした変換プロセスでした。しかし、それがディープネットワークのカギだったことが判明しました。私たちが現在2012年と特定しているこの瞬間、興味と資金と加速の爆発が起こったこの瞬間、人々はそれを畳み込みニューラルネットワーク、つまりアルゴリズムと特定しています。しかし、実際には両方でした。ハードウェアがアルゴリズムを実現可能にし、それがディープネットワークが実行可能であるという経験的証拠を初めて得た時でした。
アルゴリズムの抽選もあると思いますか?
それはどういう意味ですか?
ええと、あなたの論文はハードウェアの引力の盆地についてでしたが、アルゴリズムの引力の盆地もあるのでしょうか?
絶対にそうですね。最適化器を見るだけでそれがわかります。つまり、アルゴリズムは本質的にデータからどのように学習するかということです。これがアルゴリズムの本質です。私たちが固執しているのは、勾配ベースの最適化でなければならないという考えです。非微分可能な目的関数を扱うのは本当に難しいです。
これは、アクセスしやすい言葉で言えば、グローバルな更新を行うことに縛られているということです。私たちのモデルが訓練される方法は、データをシャベルで通し、重みの更新は見られたすべてのデータの平均に基づいています。これが難しい理由はいくつかあります。
平均に過適合してしまうからです。そのため、多くの訓練データが必要になります。本質的に、平均に過適合しているだけなので、珍しいパターンを学習するのに時間がかかります。長時間訓練し、より多くのデータが必要になります。
もう一つ非常に難しいのは、モデルが忘れてしまうということです。新しいデータをシャベルで入れるたびに、モデルは古いデータを忘れます。なぜなら、すべてを一度に更新しているからです。
対照的に、人間は通常、長期記憶と短期記憶を持っています。これらは異なる学習方法で、学習の速度も異なります。情報を処理するとき、一部は長期記憶に保存されます。子供の頃の記憶で、最初の記憶だと思うものがあるかもしれません。それは時間とともに変化している可能性があります。それが記憶の性質です。しかし、今日行ったこと、何年も前に行ったことという2つの状態を保持する能力は、勾配の更新とは非常に異なります。
代替方法を見つけていないため、多くの人々が取り組んでいるにもかかわらず、微分可能な目的関数に依存しないアルゴリズムを提案するのが非常に難しいアルゴリズムの盆地にいるのです。
そうですね。後で話しますが、問題の一部は、人々がこのパラダイムを一般的で抽象的な純粋な知性の形態と考えていることです。実際には、あなたの多言語の仕事で明らかなように、私たちは複雑さの長い尾、異種のデータセットを扱っているのです。
しかし、おそらくそれが良い橋渡しになるでしょう。あなたは最近「AI言語ギャップ」というこのプライマー論文を発表しましたね。それについて教えてください。
いくつかの点で、あなたが話しているこれらのテーマは、AI言語ギャップにうまくつながります。実際に、これらのモデルを構築するとき、私たちはそれを構築した人々にとって最も重要に重み付けされたものに過適合してきました。これらのモデルは少数の場所で構築されてきました。ロンドンは研究者が多く集まる非常に大きなハブです。アメリカやヨーロッパ、中国もそうです。
最初の印象的な大規模言語モデルがアメリカとイギリスで構築されたため、DeepMindや、アメリカではCohere、OpenAIのような場所で、必然的にそれらを構築した研究者の性質を反映しています。彼らは英語で作業したかったのです。
難しいのは、AIを実際に世界のために機能させようとすると、膨大な数の異なる言語を扱うことになるということです。世界には7,000の言語があり、そのうち80%にはテキストデータがありません。したがって、これは単なる言語の問題ではなく、マルチモーダルな問題でもあります。
2つ目の部分は、上位101言語でさえ、現在のところI-101を除いて、それらをカバーするモデルがないということです。つまり、AIが機能する方法とAIが誰に奉仕するかに反映されていない世界の膨大な部分があるのです。
言語ギャップに関するプライマーは、実際にこれに注意を喚起するものですが、この問題の根本にあるのは、あなたが長い尾でモデルがどのように機能するかというテーマで指摘していることです。つまり、基本的な問題は、私たちのモデルが高頻度のパターンに本当に過適合しているということです。
言語ギャップの主な難しさは、これらの言語が通常、インターネット上で利用可能なデータによって十分にサービスを受けていないことです。インターネットは必ずしも人類の現状を反映しているわけではなく、初期の採用パターンを反映しています。そのため、インターネット上の英語は、英語を話す人々の数よりもはるかに多いのです。家庭の5%が英語を話していますが、インターネットの50%は英語です。
対照的に、4,000万人が話すユバ語はほとんどサービスを受けていません。これは長い尾の問題ですが、ここでは富める者はますます富み、貧しい者はますます貧しくなるというパターンがあります。なぜなら、今は合成データの時代に入っているからです。モデルが英語と中国語、特にこの2つの高リソース言語での生成がますます上手くなるにつれて、これらの2つの言語でより多くのコンテンツが生成されるのを見ることになるでしょう。そして、それによって、大量のデータに依存して現在十分にサービスを受けていない言語を適切に表現することがさらに難しくなるのです。
そうですね、非常に興味深いです。なぜなら、私たちは物質世界から情報世界へと移行しているからです。現在、物質世界では英語を話す人の数とインターネット上のデータ量の間にある程度の対応関係がありますが、あなたが言うように、今や私たちは言語のデータを生成する場所に移行しつつあり、その偏りはさらに増大するでしょう。つまり、この北米のテクノロジーベースの不平等が悪化しているということですね。そして、これには安全性の影響があるとおっしゃいました。この「安全性」という言葉に興味を持ちました。昨夜もこれについて話しましたが、AI安全性と言えば、私はX-リスクやシリコンバレーのことを思い浮かべます。そして、倫理と実存的リスクの2つのコミュニティが年々融合しているのに気づきました。それについてどのように感じていますか?
それについては不満に思っています。しかし、ここで重要なのは、サブフィールドはいつもこのようなものだということです。同じ目標を気にかけている人々が、時間とともに自分たちを区別しようとする傾向があります。AI安全性は、さまざまな視点や専門知識、そして異なることを気にかける人々を包含する大きな分野です。
責任あるAIからAI安全性への移行は非常に興味深いものです。なぜなら、それは責任あるAIとは異なることをしているかもしれないコミュニティからの意図的な動きだからです。代わりに、AI安全性はこれらの深刻なリスク、つまり私たちの時代の根本的な問題についてのものだと示唆しています。そして、責任あるAIは「素晴らしい、あなたはそれをしていますが、続けてください」というものです。
そのため、私たちが物事に名前を付け、会話において正確さを持つ方法に非常に興味深いものがあると思います。私はますますAI安全性がこれら両方を包含すると考えていますが、両方についてより正確な言語が必要です。実際、私の主な要求は、AI安全性の目的について正確であることです。
なぜなら、多くの点で責任あるAIと同じ目標だからです。しかし、これが明確に述べられるときの正確さの程度は、目的に対する説明責任の兆候です。時々、その言葉の使用には説明責任が欠けていると思います。
その通りです。一部のX-リスク派の人々がAIについて話すのを聞くと、抽象的に感じます。つまり、この技術をスケールアップすれば、あらゆる状況で機能する抽象的な表現を学習し、それはただスケールの問題だと考えているようです。そして、それは研究から離れているように感じます。
あなたの多言語モデルに関する研究を読むと、彼らが「低リソース言語」と呼ぶものでは、モデルはあまりうまく機能しないことが明確に指摘されています。他の言語で自動的に機能するこれらの抽象化を学習しているわけではありません。そこには特異性があり、それが私にとっては違いのように思えます。
はい、あなたが指摘しているのは、今大きな問題になっていることです。スケールに対する神秘性があり、それは異なる名前で呼ばれています。これは、突然現れるプロパティはあるのか、スケールによって解き放たれる、どこからも現れないプロパティはあるのかという問題です。ちなみに、多言語は最初の「突然現れるプロパティ」の論文で提案されたもののひとつでした。「わあ、これはどうやって現れたのだろう。訓練データにはなかったのに」というものでした。
しかし、興味深いことに、その後の研究で、それは常にそこにあったことが示されました。ただ、訓練データに文書化されていなかっただけです。つまり、スケールは本当に長い尾を学習しているだけです。低頻度のものを学習しているだけです。私たちが驚くのは、訓練している膨大なデータについて知っていると思っていることと、実際にそのミックスの中にあるものとの間に大きな乖離があるからだと思います。
そのため、しばしば特定のプロパティがスケールを解き放つのに時間がかかることがあります。なぜなら、これは記憶の問題と非常に関係があるからです。この会話は、この種の科学的な問題、つまりプロパティはいつ現れるのか、スケールは何を解き放つのかという問題を超えて、より大きなテーマになったと思います。
これらのモデルに関する一種の神話、スケールが何をもたらすかを理解する能力の欠如を取り巻く神話になりました。そして、それは、このプロパティがいつ現れるかを正確に知らないため、これらのモデルの使用について不安感や本当の危険性の感覚をもたらすために使用されています。
私はこれが間違ったフレーミングだと言いたいです。正しいフレーミングは、まず、私たちがただスケールアップし続けるという考えは間違っているということです。Transformersのようなものでスケールアップする限界に達しつつあり、それは非常にアーキテクチャに依存しているという明確な証拠があると思います。
2つ目に言いたいのは、これらのプロパティが驚くべきものであるのは、私たちがスケールで何が現れるかを予測するのが得意ではないからだという、増え続ける証拠を本当に無視しているということです。
そうですね。最近デイヴィッド・チャーマーズと話しましたが、彼は複雑なシステムがあるときはいつでも「それは現れている」と言うことを嘆いていました。あなたが言うように、長い尾をより多く記憶するにつれて、能力が質的に向上するという興味深いことが起こっています。観察者としては、「ああ、それは現れるプロパティだ」と言うのは簡単です。そして、人々はこれらのモデルに、発散的な意図性や推論など、実際には存在しないかもしれない人間的な性質を帰属させます。
しかし、興味深いのは、これらの表面的な統計をスケールで記憶すると、言語モデルをアイデアジェネレーターとして使用できるということです。フランソワ・ショレのARC チャレンジでは、ライアン・グリーンブラットがすべてのタスクに対して約3万の補完を生成しました。驚くべきことに、感度の点では、正解は補完の中にあります。そして、ニューロシンボリックな評価と選択を行って、それを引き出すことができます。
つまり、本当にうまく機能するアーキテクチャを構築できますが、人々は人間による選択、つまり脆弱性を滑らかにする量を過小評価していると思います。
そうですね。現在、これらのモデルで解き放たれる創造性の量には大きな同意があります。実際、多くの異なるオプションを作成し、どれが正しいかを検証できるというこのアイデアは、現在の進歩のさまざまな状態で見られます。これは現在、コードの作成方法です。コードを実行し、どれがテストをパスしたかを見て、どれがパスしたかの形式的な検証を行うことで、本当に素晴らしいコードデータセットを作成できます。
これらのモデルが理にかなった回答を生成できないということではありません。ただ、あなたが指摘しているように、すべてのターンで確率的に一貫性がないことがあります。一貫性が時々ないのです。また、アイデアの創造性と反復の観点から美しいことの一部は、時々実際に一貫性を望まないということだと思います。異なる設定では目的が異なる場合があります。
例えば、コードの場合は常にパスするコードが欲しいので、これは多くをサンプリングして部分集合を得る良い例です。しかし、時々、アイデアのシードとしてそれを使用する人々と話したことがあります。その場合、多様性が重要な部分であり、毎回非常に異なる応答を得ることが重要です。
そのため、時間とともに、異なることに対して異なるモデルを持ち、これが操縦性の課題の核心です。制御の問題で、現在はうまくいっていません。正直なところ、なぜプロンプトエンジニアリングがあり、なぜみんながそれを好むのでしょうか。これは解決策の兆候ではなく、問題の兆候です。完璧なものを操縦するためにプロンプトエンジニアリングに多くの時間を費やすという事実は。
希望的には、将来的にはより良いツールができるでしょう。私が見ているキーとなる変化の1つは、使用したいモードに向けて操縦できるようになることです。一貫性が欲しいのか、探索が欲しいのか、そしてそれが私たちの反復パターンにどのように適合するのか。プロンプトエンジニアリングに多くの時間を費やす必要がなくなるでしょう。
これについてはあまり長く話さないようにしますが、みんなに聞いているので、創造性の源はどこにあると思いますか?長い尾をより多く記憶し、モデルが外挿でき、人間のプロンプターが新しい組み合わせを混ぜ合わせることができるようになると、この潜在的な外挿空間などがあります。どれほど創造的になれるでしょうか?
私たちが最近発表した論文の1つは、「アクティブ継承」と呼ぶものについてです。これは、異なるモデルから分布の異なる部分からデータをサンプリングする方法を操縦し始めることができるという考えです。これまで、人間や他のモデルからデータをサンプリングするパラダイムは、単一の教師があり、あなたは生徒であるか、または別の生徒がいるか、あるいは単一のモデルと共同作成者であるというものでした。
しかし、考えてみると、それは一種の受動的な継承です。単一のプロンプトを試すだけで、本当に何かの基準を強制しているわけではありません。アクティブ継承は、解決したい問題のさまざまな部分を様々な異なるモデルからサンプリングするものです。その多様性が本当に興味深いパターンを生み出し、可能なものの範囲を拡大し、任意の1つのモデルの品質を超える高品質を促進します。
これを非常に重要なステップだと考えており、多言語を含む多くの作業を構築しています。また、この基本的な領域でも使用しました。最近発表した論文では、非微分目的関数に向けて操縦するために使用しました。
あなたがアルゴリズムの盆地について話していたことに戻りますが、この考えと、私が言っていたすべてが勾配降下に依存しているという話です。非線形目的関数に向けて操縦するのは非常に難しいです。ディープニューラルネットワーク以前は、これらの非微分目的関数に関する数十年の研究がありました。例えば、与えられた文章の読みやすさスコアをどのように計算するかなどです。
これらのスコアは一種の体系化されたものですが、微分可能ではないので本当に使用することができません。実際に、読みやすさスコアでより良いモデルに向けて操縦するためにアクティブ継承の一部として使用できることを示しました。そして、それを使用してデータセットの基礎を形成します。これは非常に魅力的だと思いますし、単一の教師からサンプリングするという、より静的な概念を超えて創造性を本当に促進すると思います。
それは魅力的ですね。あなたの研究の多くは、長い尾を忘れる、あるいはそれに注意を払わないという専制に関するものでしたが、もちろんそれはより良い最適化で解決できます。連合学習や、情報を共有し、クエリを行う、ほぼ敵対的なセットアップのような、エージェンシャルなマルチモーダルシステムで解決できます。より動的なプールのようなものですね。
そうです。実際に長い尾は、アクティブ継承が最も有望だと思う完璧な例です。なぜなら、長い尾では通常、多くの弱い教師がいるからです。誰も長い尾に対してあまり優れていません。しかし、効果的にサンプリングし、このアクティブ継承を行うことで、単に単一の教師を選ぶのではなく、様々な教師を選び、比較し、最適化することができます。これは魅力的で、長い尾に最も恩恵をもたらすと私は予想しています。
あなたは言語ギャップの論文で、言語モデルが現代社会に不可欠になると言っていましたね。それがどのように展開すると見ていますか?
それはすでに様々な形で起こっています。私はそれを「ハイ・ロー」の方法と呼んでいます。ハイレベルのテーマについて話すことができます。つまり、もっと簡単にコミュニケーションを取る能力ができるでしょう。そのため、芸術や文章、あるいはコミュニケーションの困難な部分を取り除くようなものがもっと普及するのが見られるでしょう。
ローレベルの方法は、今あなたが一日を通じて使用している、より細かい方法です。例えば、私は日常的に非常に基本的なことにそれを使用します。私たちは多くの論文を書くので、言語モデルを使って引用の書式を整えたりします。
つまり、平凡なものもあれば、深遠なものもあります。深遠な点は、それがコミュニケーションの容易さを変え、情報の流れの速度を変えるということです。これは非常に強力になる可能性があります。より創造的になり、空間でより多く実験できるようになる可能性があります。また、新しいリスクももたらす可能性があります。そのため、これについても考えることが重要だと思います。
興味深いですね。また、言語モデルのトレーニングにおけるこの北米のバイアスが、モデルの設計、出力、振る舞いに影響を与えると言っていましたね。それはどういう意味でしょうか?
モデルの設計、出力、振る舞いについて言及したとき、私が意味していたのは2つのことです。まず、モデル自体に異なる言語に対する最適化バイアスがあると思います。トークナイザーは素晴らしい例です。ローマ字系の文字、例えばフランス語、イタリア語、そして英語も含むラテン系の文字に基づく文字体系があります。ラテン系の文字体系から逸脱すると、例えばヒンディー語や韓国語のような言語では、トークナイザーとうまく機能しません。
トークナイザーがこれらの言語にうまく機能しないだけでなく、これらの言語を表現するのにより多くのトークンが必要になるため、二重の税金のようになります。つまり、英語以外の言語のユーザーにとって、APIを使用する際により高いレイテンシーとコストがかかります。これは最適化バイアスの例です。
もう一つの問題は、分布のさまざまな部分を表現しようとするモデルを持とうとするとき、現在の解決策は通常、より多くの容量を与える必要があるということです。I-101は興味深い例でした。私たちはI-101をリリースしましたが、それは101の言語を表現していました。20以上の言語を列挙しようとすると、その数がどれほど多いかを考え始めることができます。おそらく10まで行って、そこから苦労し始めるでしょう。101は凄まじいです。
ウェールズ語やアイルランド語も含まれていましたが、トーゴ語や多くのアフリカの言語も含まれていました。また、ハイチ語のような非常に代表性の低い言語も含まれていました。その多様性と複雑さ、方言も含めて、101はおそらく宇宙開発のような、問題の最も極端な例です。そこで学んだことはすべて、より深刻でない設定にも波及します。
そこで学んだことの一つは、容量の使い方に非常に注意深くなければならないということです。130億パラメータのモデルがありましたが、101をカバーする事前トレーニングデータがなかったため、それにこだわらざるを得ませんでした。このモデルは実際に2019年のものでしたが、それ以降多くのことが起こっているのを考えると、これは狂っています。
そのため、私たちは持っている容量を最大限に活用しようとするしかありませんでした。適切に重み付けし、データ処理、データクリーニングを行う必要がありました。また、合成データと最適化時の操作方法についても多くの作業を行う必要がありました。
これを2つの方法で行うことができました。1030億パラメータのモデルに増やすこともできましたが、その場合は再トレーニングが必要になります。なぜなら、現在のモデルは最初からデータでトレーニングしない限り、後から追加することはできないからです。しかし、もう一つの方法は、最適化とデータ作成についてもっと賢くなることです。
これが本当の問題です。多言語に移行すると、ある言語で持っていた問題がすべて掛け算されるのです。そのため、すべての詳細に非常に注意深くなければなりません。
言語と能力の関係について疑問に思います。その理由は、Morton ChristensenとNick Chaterの「The Language Game」という素晴らしい本を読んだからです。それは、状況に応じた知識という考えに大きく導いてくれました。実際、私たちの認知や思考の多くは、私たちがいる文化や言語に非常に特有のものです。これは、これらのものが言語を超えた一般的な推論パターンを学習しているという考えに反するようです。
むしろ、その文化内で行われる種類の思考を行うためには、実際にその言語と文化の中にいる必要があるという結論に導きます。では、これらすべてを1つの言語モデルに混ぜ合わせるとき、それはどのように機能するのでしょうか?
現在はあまりうまく機能していないと思います。これが核心的な問題の一つだと言えるでしょう。なぜなら、あなたの指摘通りだからです。実際に、方言のようなものでもこれを見ています。方言の概念は、I-101を含むどのモデルにとっても本当に難しいものです。私たちの目標は主に最先端の次のステップになることですが、I-101でさえこの方言のニュアンスを扱っていません。
アラビア語のさまざまな方言や他の方言はいくつか扱っていますが、例えばポルトガル語を考えてみてください。ポルトガル語は世界の多くの場所で話されています。私は子供時代の一部をモザンビークで過ごしましたが、モザンビークのポルトガル語は、例えばブラジルのポルトガル語とは非常に異なります。また、ポルトガルのポルトガル語も独自のニュアンスがあります。
実際に、このプロジェクトには世界中の研究者が参加していました。ブラジルとポルトガルのポルトガル語の貢献者の間でよく小さな対立がありました。なぜなら、彼らは単一のプールで審査するよう求められたからです。ブラジル人がポルトガル人よりも数が多かったため、彼らはすべての提出物をブラジルのポルトガル語に修正していました。これは非常に興味深い概念です。これは方言の概念だけの話です。
しかし、あなたのより広い指摘は、言語がコミュニケーションのツールであるという考えです。実際、言語を考えるために使用しているのか、それとも実用的なツールとして使用しているのかという非常に興味深い概念があります。なぜこれが関係あるのでしょうか?なぜなら、目的を達成する方法は、私たちが世界のどこにいるかによって異なるからです。そして、テクノロジーが私たちにどのように役立つべきかは、私たちが世界のどこにいるかによって異なるでしょう。
これは最近出てきました。私たちは、地域的な危害と世界的な危害という考えについての論文を発表しました。私はこの論文をかなり誇りに思っています。任意の瞬間に、私たちは複数のアイデンティティの側面を持っています。
例えば、世界市民としての私たちの一部にとって無神経なものがあります。それはおそらく、子供に対する危害のような一部の種類の危害が特に深刻であるという普遍的な合意につながります。ほとんどの法制度がこれを反映しています。
しかし、私たちの生活方法に非常に特有の文化的で特定の危害の概念もあります。これは言葉遣いのようなものに反映されます。
私たちはこの論文を発表しました。これは安全性にとって重要だと思いますが、この分野のより広い動きの一部でもあります。現在、私たちのモデルのほとんどは単一の目的、単一の決定境界でトレーニングされています。これは、すべてのデータがこの1つの決定境界に押し込められることを意味します。
私は多目的最適化に非常に興味があります。これはそれを変え、一度に複数の目的を保持できるようにします。おそらく、これらの目的をその場で適応させることさえできるかもしれません。これは非常に興味深いです。
そうですね。いくつかのことがあります。おそらく、相対主義的な世界観と、いくつかのグローバルな規範を持つことの相互作用について話しているのでしょう。一般的に、RHFなどでモデルのアライメントを行う方法は、私たちが住む世界の現実を単純化する傾向があります。
倫理的フレームワークでは、単なる指導原則があると考える義務論の人々がいます。また、強調すべき特定の美徳があると考える徳倫理の人々もいます。そして、特定の結果が悪いと考える結果主義者もいます。あなたが指摘したように、これらすべてを一緒に包含するハイブリッドな倫理的フレームワークを持つのは非常に難しいです。
人々はどのような仕事をしていて、あなたはここで何を考えていますか?
最近、私たちが発表した論文は、「多言語プリズム」と呼んでいるものです。これは、安全性のために、多くの言語にわたる非常にニュアンスの効いた収集プロセスで、ローカルな赤チーム例とグローバルと考えられる危害の両方を収集したという考えです。
そこからRHFに進んで、単一の報酬モデルの概念を変更することができます。これは私が非常に興味を持っている分野です。複数の報酬モデルをどのように持つか、そしてそれらをどのようにバランスを取るかです。これが問題の核心であり、あなたが指摘していることです。
これら2つのことをどのように一緒に持つかです。私が予想しているのは、以前よりもモデルの適応をより機敏に行う概念を見ることです。通常、生産環境では、このモデルを数ヶ月かけて作成し、リリースし、「はい、お楽しみください」というものでした。それはあまり動的ではありませんでした。
しかし、真の生産モデルは更新され、より機敏で、異なる場所に異なる方法で展開されます。Netflixはその推薦システムでこれを有名に行っています。ここでは、これはより深遠な方法でこれを行う方法だと思います。なぜなら、これらのモデルの操縦方法が適応されるからです。
これは興味深いと同時に非常に難しい課題でもあります。難しいのは、世界中でユーザーの好みがどのように変化するかに敏感でありたいが、あまりに細かい好みに過適合してはいけないからです。これは実際にあなたが指摘している哲学的な緊張関係です。
リバタリアン的な見方では、ここにいる各個人には好みのリストがあり、その順位通りに尊重されるべきだと言うでしょう。しかし、社会として、私たちは通常、この一群の好みを持っていますが、共通の利益のためにいくつかの好みを抑制し、従属させると言います。
そのため、これをアルゴリズムとして明確に述べるとき、その中間のバランスをどのように取るかという概念もあります。つまり、完全に社会的な見方に従うのではなく、アルゴリズムやトークナイザーが特定の国家の影響下で展開される懸念の一つです。しかし、完全にリバタリアン的な見方も避けたいです。異なる視点を紹介し、バランスを取ることなく、人々が世界についてどう考えているかを単に増幅するような目的は望ましくありません。
そうですね、非常に興味深いです。偏極化のようなものでさえ、一見すると非常に悪いことのように見えますが、ある種の多様性の保存が実際には多元的な社会につながり、私たちが必要とする情報や健全性の程度を得られる可能性があります。しかし、安全主義者の間では常にこの考えがあります。おそらく私たちはこれについて少し同意したと思いますが、人々を自分たちのデバイスに任せておくとそれは悪いことになる可能性がありますが、少しはそれも必要です。そうでないと社会が硬直化してしまう可能性があるからです。これらの決定は、何らかの形でこれらのモデルを構築する方法に組み込まれる必要があるのでしょうね。
現在はそうなっていませんね。現在、安全性へのアプローチは、拒否という概念があります。モデルと関わるとき、通常、より黒白はっきりしたケースに対して拒否が見られます。安全性についての考え方の進化において、非常に興味深い機会があると思います。「これには答えられません」と言うだけではなく、より多くのニュアンスを提供したり、追加のサポートへのリンクを提供したりすることです。これは非常に興味深いと思います。なぜなら、それは異なる種類の議論だからです。
しかし、あなたの視点、つまりあなたが話していることは、本当にこの中間部分です。アルゴリズムを構築する上でいくつかの価値観を持っていますが、同時にこれはアルゴリズムと関わっている誰かであり、アルゴリズムは世界の単一の見方を完全に反映すべきではないということを認識しています。
UIの中でも、人々が影響を与え、フィードバックを提供するためのより多くの方法が必要だと思います。幻覚のようなものも本当に興味深いです。なぜなら、幻覚は排除できないと私は非常に懐疑的だからです。それらはまた、これらのモデルについて私たちが本当に好きなものでもあります。それは創造性です。
私にとって、これはモデルだけの問題ではありません。これらの会話では、モデルがこれを解決しなければならないということに多くの焦点が当てられがちですが、システムの概念もあると思います。システムで遊ぶのが面白いと思うことの一つは、ユーザーが操縦が自分が合理的だと考えることと一致していないと思うときに、どのように表現するかです。
良い例は、性的健康に関する質問です。これらの質問をする正当な理由があります。自分の生物学の一部や類似のことを理解したいという正当な理由があります。Wikipediaには性的健康に関する全ページがあります。そのため、多くのシステムが現在これに答えることを拒否しているのは非常に興味深いです。
ここには微妙さがあり、これらの二元的な決定境界を更新する必要があります。完全な拒否ではなく、代わりにリソースに向けて操縦するようなものに移行する必要があります。
そうですね。これらの多くは、現在のものを固定すると両方の方向に行く可能性があるということです。おそらく、この状況ではモデルに本当に教えるべきだと説明することができ、同様にモデルも「いいえ、実際にこれを許可しない理由は次の通りです。あなたの視点を少し変えるべきかもしれません」と言うことができるでしょう。
これは微妙に行う必要があります。なぜなら、人々は再教育を好まないからです。ですから、実際には良い意図で舗装された道は地獄への道だと言われるように、人々を再教育しようとすると、同等で反対の反応を引き起こします。
しかし、RHFに話を戻しましょう。私たちは何年もこれについて話してきました。あなたは常にRHFについて少し不満を持っていましたね。あなたの論文を読みました。残念ながら、インターネット接続がないので記憶を頼りにしていますが、最近発表した多言語の論文で、翻訳のアーティファクトを取り除こうとしていましたね。それについて思い出させてください。
ああ、はい。「RHF speaks many languages」という非常に素晴らしい論文です。John が主導したこのアイデアは、多くの異なる言語にRHFの技術を拡張しようというものでした。実際、RHFについてはより広い見方があると思います。私はそれについて不満を持っていましたが、まずあなたから話してください。
そうですね、この論文でさえ、あなたは言っていました。もちろん、私たちが今まで話してきた広い会話は、おそらく多数の異なるモデルや最適化器、データセットなどを持つ、より大きなシステムアプローチが必要かもしれないということですね。しかし、RHF内でさえ、それが非常に複雑で非効率的であり、別の報酬モデルを持つ必要があり、それをうまく最適化できないと言っていました。時にはDPOや基本的な強化学習を使用する方が良いと言っていましたね。
そうです。最近、我々は「Back to Basics」という非常に重要な論文を発表しました。これは多言語に特化したものではなく、もっと根本的な問題に取り組んでいます。私たちは一歩下がって言いました。「OK、RHFに関する最も引用されている元の論文は本当に興味深いです。これらは、RLの伝統的な空間で進化したPOという標準的な方法を言語設定に適用したものです。」
POは、伝統的なRL空間で、ORLの多くの問題に対処し、緩和するために進化しました。ORLは通常、大きな探索空間にわたって非常にノイズが多く、最も厄介な部分は、エラーが重なることです。それはほと�ど、ゲームテーブルで間違ってベットし、再び間違ってベットしようとするようなものです。あなたの見積もりが外れるほど、損失は重なっていきます。
POは、不正確な見積もりの影響を制限するために、私が言うところの大きく正則化または条件付けられています。これは、しばしばメモリ集約的であることを意味します。通常、任意の時点で4つのモデルが動作しています。また、非常に敏感であることも意味します。通常、POをトレーニングするには時間がかかります。
言語設定に入り、初期のPO(例えばDPOなど)の成功は額面通りに受け取られました。「これは素晴らしい、これで行こう」という感じでした。しかし、言語空間もまた巨大な探索空間です。次のトークンを予測しようとしていると考えてみてください。世界中の言語を表現するのに、可能なトークンはどれほどあるでしょうか。
しかし、トレーニング済みのモデルがあり、すべての事前トレーニングを行った時点で、探索空間はずっと狭くなります。実際に興味深いのは、次のトークンの尤度と確率が非常に集中しているということです。事前トレーニングされたベースがある場合、予測する可能性のあるトークンは数個だけです。
これは、この設定に対してオーバーキルだったことを意味します。「Back to Basics」で私たちが説得力を持って示したのは、POの多くのコンポーネントを取り除くことができ、ARUのような方法を提案できるということです。これは依然としてRL手法ですが、効果的に機能し、さらにそれを上回ります。
ARUは、「RHF speaks many languages」でも使用しました。これがオンラインであるため、DPOのようなオフラインのものよりも優れていることを示しました。ARUは依然としてRL手法ですが、本当に言っているのは、私たちが良好に条件付けられた探索空間にいるということです。そのため、それを探索する方法についてずっと機敏になれるのです。
そうですね。多言語に関するRHFの論文では、もちろんあなたは多言語に大きな焦点を当ててきました。おそらく、多様なデータを得ることの問題があります。なぜなら、多言語言語トレーニングを行う際には、これは非常に異種のデータだからです。もちろん、好み完了さえも生成する必要がありました。確か、翻訳でいくつかを生成し、強力なモデルを持ち、そこでセットアップを行ったと思います。それについて教えてください。
それは面白いですね。なぜなら、これは多言語が従来、翻訳に大きく依存しているより広い問題の一部だからです。データがないので、良質な英語データ、ゴールドスタンダードのデータ、または良質な中国語のデータを多くの異なる言語に翻訳します。
ここで興味深いのは、翻訳モデルには通常「transationese」と呼ばれるものがあることです。奇妙なアーティファクトが現れます。例えば、自動列挙があります。「1、2、3」のような数字の代わりに、「one、two、three」とスペルアウトされてしまいます。これは、経験しなければならない人々にとって非常に厄介です。なぜなら、それがダウンストリームのモデルに伝わってしまうからです。
この論文では非常に面白いことをしました。RHFの全体的な目標は、分布の特定の部分から離れ、他の部分に向かって操縦することだと言いました。そこで、私たちの好みのペアに対して非常に面白いことをしました。
通常の好みのペアの作り方を考えてみてください。これはかなり高価で時間がかかります。アノテーターを集め、人間にどちらを好むかを尋ねる必要があります。ここで私たちは本当に面白いトリックを使いました。
transationeseのペアがあることを知っています。合成ペアを生成し、もう一方のペアを非常に高性能なモデルで生成します。この場合、CommandRプラスを使用しました。これは非常に高性能で、多くの異なる言語でうまく機能します。
そして、2つを比較し、LMに判断者として、翻訳された英語と他の言語でサンプリングされたもののどちらが良いかを尋ねました。そして、これが実際に翻訳のアーティファクトに役立つことがわかりました。なぜなら、悪い翻訳から離れ、より汎用性のある流暢なCommandR プラスの生成に向かってモデルを導いたからです。非常に興味深いですね。そして、翻訳の方が良かった時間の割合もあったので、そのニュアンスも得られました。非常に非常に興味深いです。
素晴らしいですね。そして、それによって多くの翻訳アーティファクトが取り除かれたのですね。
そうです。
サラ、これは素晴らしい会話でした。最後に、あなたの最新の研究について、人々にどこを参照してほしいですか?
ご自由に、Cohere for AIをご覧ください。これは研究部門で、私たちは多くの基礎研究を行っています。私の仕事の多くは効率性、信頼性、そして次世代モデルにスケールするモデルの構築に関するものです。Cohere for AIのウェブサイトに行けば、私たちの研究の一部を見ることができます。
また、ここに再び来られて本当に素晴らしかったです。久しぶりにお会いできて嬉しかったです。
素晴らしいです。サラ、本当にありがとうございました。
ありがとうございました。

この記事が気に入ったらサポートをしてみませんか?