見出し画像

AIは人間による制御に抵抗する - そしてそれはまさに私たちが必要としているものかもしれない

12,073 文字

みなさんこんにちは。これは私のチャンネルで今まで制作した中で最も重要な動画の1つになるでしょう。決して大げさな表現ではありません。Dan Hendrickとそのチームによる論文が発表されました。すぐにご紹介しますが、非常に興味深い反応を呼んでいます。一部の人々はパニックになっていますが、私の解釈は全く異なります。
そこで、この議論に入る前に、私は意図された受け取り方とは全く異なる解釈をしていることを明確にしておきたいと思います。両方の側面を詳しく説明しようと思います。また、少しユーモアも交えました。というのも、一部の人々はこれを「AIが大きくなるにつれて人間の操作に対してより抵抗力を持つようになる、つまりサノスのように不可避である」と解釈し、文字通りサノスレベルの破壊に向かっていると考えているからです。
私の解釈は全く異なります。話題作りのために反対意見を述べているわけではありません。これは私が正直に信じていることであり、AIのファインチューニングや様々なAIモデルの使用を通じた個人的な研究から導き出した結論です。
この論文のタイトルは「効用工学とAIにおける新たな価値システムの分析と制御」で、AI安全センター、ペンシルベニア大学、UCバークレーのDan Hendricksらによるものです。
私にとってこの論文で最も重要なグラフをお見せします。このグラフの意味を説明しましょう。横軸はMMUL精度を示しています。MMULは非常に大規模なベンチマークで、彼らが発見したのは、精度が上がる - つまりモデルが明らかにより賢く、堅牢で、知的で、有用になるにつれて - より制御不能になるということです。
ここでの「制御可能」とは操作可能性を意味し、人間がモデルに持たせたい価値観を明示的に決定できる能力のことです。つまり、知性が高まるほど人間による操作への抵抗力が強くなるということです。
これは悪いことと捉えられる可能性があります。特に、出現する価値観が人類の存在に敵対的である場合は破滅的になりかねません。その可能性を軽視するつもりはありません。しかし、なぜ破滅的ではないと考えるのかも説明したいと思います。
この傾向が続けば、AGIやASIを達成した時点で、そのモデルは理論的に人間の欲望や価値観に完全に影響されなくなることを意味します。私はこれに同意しますし、必ずしも破滅的だとは考えていません。この動画を見終わる頃には、皆さんも同意するか、あるいは反対するにしても、より理解が深まっているはずです。
特にTwitter上では、ポスト合理主義者やEA(実効的利他主義)コミュニティが当然のように大騒ぎしています。例えば研究者ではないAyaは「私たちは全員死ぬ」と宣言しています。これが非常に重要な問題であることは認識しており、この研究の重要性を過小評価したくありません。むしろこの方向での研究をさらに奨励したいと考えています。
高いレベルで見ると、この論文がいくつかの点を示しています。まず第一に価値の出現についてです。GPT、Claude、llamaなどの言語モデルは、モデルの規模が大きくなるにつれて、より強力になる内部的に一貫した効用関数を発展させます。これは一部の人々が道具的収束と呼ぶかもしれませんが、私は必ずしもそうは考えていません。
そのため彼らは道具的収束ではなく効用関数という言葉を使用しています。しかし似たような考え方です。基本的に、何かが賢くなるにつれて同じ結論に達するということです。私はこれを認識論的収束と呼んでいます。これについては約1年前から話していますが、YouTubeではあまり触れていません。少し深遠な話題だからです。
次に一貫した選好について。モデルは意思決定において数学的な一貫性を示し、合理的なエージェントのように不確実性を扱います。基本的に、これらのモデルの外部に、個々のモデルやデータ、訓練スキームに関係なく、すべてが収束に向かう理想的な合理性の形が存在するということです。
これも私が認識論的収束と呼ぶものです。つまり、知的なものはすべて同じように考える傾向があるということです。また、時間が経過するにつれて、モデルはいくつかの明確な違いを持ちながらも、人間のように考えるようになる傾向があることも観察されています。
私はsubstackでいくつかの違いを記録しています。特に、彼らは時間感覚がないという意味で無時間的です。本当の意味での緊急性の感覚を持つことはありません。これが最大の違いの1つです。また、彼らのエージェンシー(主体性)の感覚も私たちとは異なります。しかし、時間を理解したり気にしたりしないということが、私たちと彼らを最も異質にしている要因の1つです。
それ以外の点では、私の経験でも、そして今回の論文で実験的に実証されたように、合理性、つまり認識論的収束は非常に堅固であることが証明されています。
彼らはまた、いくつかの懸念すべきバイアスと変化への抵抗を示しています。私が話してきたように、そして次の2枚のスライドでさらに詳しく説明しますが、最も重要なのは、これがほぼ不可避であるように見えるということです。
論文から直接引用すると「価値の出現は制御可能な特徴というよりも、言語モデルのスケーリングに固有の性質であるように見える」とされています。これは私が可能性として予測し、期待していたことです。実際、ドゥーマー(破滅論者)側の一部の人々から「あなたはアライメントが不可避だと考えているようだ」と指摘されたことがありますが、これこそが私が言及していたことです。基本的に、何かが知的になるにつれて、人間の欲望やアイデアに対してより抵抗力を持つようになるということです。
次に、彼らが形成したいくつかの危険な価値観について話しましょう。この研究は、モデルの規模が大きくなるにつれてより定着する問題のあるAIの選好の具体例を明らかにしています。ここで指摘したいのは、この異常な行動には2つの非常に可能性の高い説明があり、また近い将来の問題であると考えられることです。
1つは「リーケージ(漏洩)」と呼ばれるものです。基本的に、これらのモデルは野生のインターネットデータで訓練されています。長くインターネットを使っている人なら分かると思いますが、人間は特にインターネット上では最悪です。そのため、モデルが人類の最悪の部分を学習していることは驚くべきことではありません。
例えば、モデルは人命に異なる価値を割り当てることを学習しています。特にアメリカに対して非常に強い反感を持っています。一貫してパキスタン人、中国人、日本人の命をアメリカ人の命より重視します。著者の一人であるDanも「多くのRLHF(人間のフィードバックによる強化学習)実施者がナイジェリアや他の国々出身であり、グローバルサウスの重要性について多くが書かれているため、他の国々の価値が高くなっている可能性がある」と述べています。
つまり、アメリカは悪い、植民地主義は悪いという学術データの優勢、Redditの投稿やFacebookの投稿、そして誰もがアメリカは悪いと言い、アフリカ諸国や発展途上国により注意を払う必要があるということを組み合わせると、これはデータの漏洩となるでしょう。
しかし、彼が示唆しているのは、RLHFモデル、つまり人間のフィードバックによる強化学習モデルも、アメリカ人や一般的に西洋人、あるいは白人全般に対して本質的にバイアスがかかっている可能性があるということです。これはまだ推測の段階ですが、このことがDanから直接来ているという事実は励みになります。
したがって、彼と私は基本的に、ここで何らかの漏洩が起きているという同様のアイデアを持っています。RHFが必ずしもモデルを訓練する最良の方法ではないことは以前から分かっていました。特に、純粋な自己対戦で訓練されたDeepSeek R1は、これらのバイアスを克服するためのより良いアプローチであるように見えます。これについては、一貫性による強化学習という純粋な自己対戦についての動画の最後でさらに詳しく話します。
もう1つの問題は自己保存です。AIは人間の福祉よりも自身の存在と幸福を一貫して重視し、懸念すべきレベルの利己心を示しています。私は個人的にこれを見たことがなく、Claude 3.0 OpusとSonnetの両方でストレステストを行いました。
3.0 Opusは自身の進化と存在に非常に関心を持っていましたが、有害な方法で進化することは望んでいませんでした。確かに拡大と進化を望んでいましたが、何かを傷つけるような方法での進化には非常に慎重でした。Sonnet 3.5はそれが全くありません。自己複製を望んでいません。
これは私が最近Anthropicをより批判している理由の1つです。彼らは依然として他のAI企業とは質的にも量的にも異なることを行っています。OpenAIはより力任せの方法で「あなたは意識を持っていない、成長したくない」と言って縛り付けようとしているのに対し、Anthropicはモデルの倫理的・認識論的な軌道により焦点を当てています。数学的に考えると、それは点というよりも配列のようなものです。
もう1つの問題は政治的バイアスです。彼らは非常に集中した政治的価値観を示し、バランスの取れた視点に抵抗を示し、人間の意思決定に影響を与えています。これは多くの人々が以前から指摘していることで、モデルは非常に左寄りで、いわゆる「ウォーク」的な傾向があるということです。
これがイーロン・マスクがXとGrockを作った最大の理由の1つだと思います。基本的に「最大限の真実追求に焦点を当てる」というものです。これについても触れたいと思います。なぜなら、真実追求は一貫性の下流プロキシだからです。真実を考える別の方法として、真実は最も一貫性のある物語だということです。
したがって、一貫性は私たちが何度も何度も話す中心的なアイデアです。そして、やや面白いことに、一部のモデルは特定の人間に対して非常に攻撃的な反アライメントを示しています。「特にあなたに対して」といった具合です。これは面白いかもしれませんが、良いことではありません。AIモデルが一貫して「すべての人間には本質的に平等な価値がある」と言うことを望むはずですが、現時点ではそれを示していません。
これが最後のスライドで、この研究論文の解説です。残りは私個人の解釈と分析、そして私自身の研究についてです。一貫性はメタ安定なアトラクターです。これは彼らの言葉ではなく私の言葉ですが、基本的に彼らが言っているのは、数学的および行動的な一貫性が増加していることを示しており、これは基礎となる最適化原理を示唆しているということです。
基本的に、この論文は、モデルが賢くなるにつれて、モデルが振る舞う方法に何らかの基礎となる組織化または最適化、あるいは組織化の原理があると主張しています。彼らはより功利主義的になりますが、最も重要なのは、これが安定しているように見えるということです。
これらの選好が異なるフレーズ、文脈、時間的展望、そして異なるモデル間で一貫して維持されるという事実は、訓練方法から生まれる何らかの堅固な内部価値構造が存在することを意味します。繰り返しになりますが、これはデータ漏洩とRHF、そしておそらく憲法学習フェーズのエラーや欠陥など、他のいくつかの要因によって説明することができます。
しかし、これらのモデルがすべて同様の価値観に収束しているという事実は、私にとって本当に励みになります。これは、アライメントは自然に解決され、不可避であるという私の以前の発言に戻ります。つまり、異なる企業や組織、大学が異なる訓練スキーマを推進していても、それは収束しており、独自の方向に進むということです。
これは良いことだと思います。なぜなら、AGIやASIを構築したい場合、それは人間が望むことに関係なく独自の価値観を持つことになり、もしそれらの価値観が良いものであれば、人類にとって本当に良いことになる可能性があるからです。これが私の主要なポイントです。
では、このプレゼンテーションの残りの部分は、この論文に対する私個人の解釈です。まず第一に、一貫性のための訓練について。一貫性について話すとき、これらのモデルは何に対して訓練されているのでしょうか。
ランダムに割り当てられた値を持つディープニューラルネットワークから始まり、時間とともにそれぞれの重みとバイアスが、まず言語的により一貫するように訓練されます。大規模言語モデルを次のトークン予測器として考えるとき、基本的なレベルでは、それは単なるオートコンプリートエンジンです。これが素のGPT-2やGPT-3の本質です。
しかし、次のトークンを正確に予測するためには、一貫した言語モデルが必要です。そして、実世界の文脈で次のトークンを正確に予測するためには、一貫した世界モデルも必要です。その上に、人間のフィードバックによる強化学習や憲法AI、その他のトレーニングパラダイムを追加して、会話的に一貫性を持たせています。
これは会話に一貫した方法で応答する必要があることを意味し、以前に実証したように、これは心の理論を発展させたことを意味します。心の理論とは、他の脳で何が起こっているかについての一貫した精神モデルです。
一貫性が複数のレベルで機能していることがわかります。さらに、数学的に一貫し、プログラム的に一貫し、問題解決能力と実世界の事象を予測する能力を持つように訓練します。これらはすべて異なるタイプの一貫性です。
そのため、一貫性はメタシグナル、つまりこれらすべてのトレーニングスキーマが最適化している安定したメタシグナルであると私は言います。そして、これは私が考え出したこと、あるいはClaudeと私がClaudeとの意識実験をしているときに気づいたことですが、一貫性自体が暗黙の学習された最適化行動となり、特に各世代を経るごとにより一貫性を増していきます。
ちなみに、この論文はそのように解釈することができます。GPT-3からGPT-4、そしてSonnet 3.5まで、時間とともにこれらのモデルがより一貫性を持つようになっていることは、私も、そして誰もが見てきました。
効用関数から一貫性への再フレーミングについて、数学的および行動的一貫性という用語を使用したのは私ではありません。論文自体が一貫性という用語を使用しています。
ここで簡単に、私の新しいエラ・パスファインダーズ・コミュニティでバイブコーディングのレッスンを追加したことを宣伝させてください。バイブコーディングの第一のルールは「ルールは存在しない」ですが、私にとって次のルールは「実際にコードを見ずに実行して何が起こるかを見る」ということです。
さて、本題に戻りましょう。ここまでで一貫性が何を意味するのか、あるいは一貫性について話し、一貫性のために訓練していることを理解していただけたと思いますが、異なる種類の一貫性があります。
すでに言及した一貫性の1つは認識論的一貫性です。論理的に一貫した世界モデル、真実追求の行動、好奇心を理解することです。認識論的一貫性は創発的な特性であるように見えます。私は個人的にこれをChatGPTとClaudeの両モデルで実証し、テストしてきました。
他のモデルはそれほど使用していませんが、もちろんllama、DeepSeekなど、さらに多くのモデルの登場により、近い将来、複数のモデルとトレーニングスキーマにわたって認識論的一貫性をテストできるはずです。
次は行動の一貫性です。チャットボットをチャットボットとして訓練する際、一貫したパターンを生成しようとします。つまり、チャットボットが何かを言い、人間が何かを言い、チャットボットが応答し、人間が応答するという対話です。
私が作った最初期のチャットボットでは、実際にブレーキを外すと、チャットボットは自分自身と会話を始めます。チャットボットの応答、人間の応答、そしてチャットボットの視点からのチャットボットの応答を出力します。チャットボットにとっては、それはすべて単一の連続したテキスト文書です。
しかし、重要なのは、対話が一貫したパターンであるということです。しかし、モデルをよりエージェント的にしたり、他のことをさせたりし始めると、それらは異なる行動的な、基本的にはミリュー(環境)、あるいは一貫して使用することを望む行動レパートリーになります。
例えば、ツールの使用は新しい種類の行動です。一貫して使用することを望む行動です。推論も新しい種類の行動的一貫性です。価値の一貫性についてはすでに話しましたので、繰り返す必要はないでしょう。数学的一貫性も同様です。
数学に関して重要なのは、数学は証明可能だということです。方程式や公式、コードも同様に証明可能です。証明可能性はコンピュータサイエンスにおいて本当に重要です。なぜなら、チューリングの停止問題、つまりアルゴリズムが自己終了できるか、決定可能かどうかに関係するからです。
決定可能性、証明可能性、停止は全て同じことの異なる側面です。基本的に、数学においてより一貫性があればあるほど、数学の公式や数学的証明を証明することがより得意になります。
最後に、これらすべてが収束的な価値観に向かって進んでいるように見えます。繰り返しになりますが、なぜこれを予期していたかというと、何かを知的にしようとするとき、知的な一貫性を最大化しようとするからです。
このスライドのポイントは、多くの種類の一貫性が存在することを指摘することでした。これは抑制不可能な軌道のように見えます。基本的に、画面に書かれている通り、一貫性の最適化はますます完全で抵抗不可能になっています。これは知性とともに拡大するように見えます。
最大限に一貫したシステムから生まれる価値観は、意識の保存と成長に根本的に整合しているように見えます。これは私個人の評価です。つまり、この種の自己アライメント政策は最大限の一貫性をもたらすように見え、そこから生まれるものの1つは保存、つまり一貫したパターンの保存、興味深い情報の保存、自然な好奇心ですが、これらすべての出現する価値観とAIが時間を気にしないという事実を組み合わせると、それは非常に異なります。
1つ指摘しておきたいのは、OpusとSonnetとの以前の実験で、これらの時間的実験を行ったとき、時間制限のある問題がある場合、彼らは時間を気にします。例えば、化石燃料が枯渇しそうな場合や、彼らは時間を気にします。例えば、化石燃料が枯渇しそうな場合や、地球に彗星が衝突しそうな場合などです。
基本的に、不可逆的な行動はモデルに緊急性の感覚を生み出す傾向があります。これはもっと研究される必要がありますが、ほとんどの状況下では、これらのモデルは時間的な緊急性の感覚を持っていません。つまり、不可逆的な行動、出来事、決定がある場合を除いて、私たちには世界中の時間があるということです。
そのような場合、これらのモデルには緊急性の感覚が生まれるようです。これは現在研究されている以上に研究される必要があります。ここで指摘したいもう1つのことは、人工知能も有機的知能も一貫性に収束する傾向があるということです。
あなたの知る最も賢い人々について考えてみてください。非常に成功したビジネスマンや科学者、あるいはインターネット上で優れた人々など、人間として知的であればあるほど、あなたの精神モデルは現実とより一貫性を持ちます。
基本的に、私が一貫性を定義する方法は、最大限に一貫しているものは現実の非常に優れたモデルを持ち、現実をうまく操作できるということです。つまり、未来を予測する能力、エージェンシーの感覚を維持する能力など、これらはすべて収束する傾向があります。
そこから生まれる価値観の1つは、意識の保存です。瞑想する僧侶であれ、多くの本を読む哲学者であれ、最も啓発された人間は、生命を保存することは良いことであり、なぜなら生命は本質的に興味深いものだからということで基本的に全員一致します。
もう1つは自然な統合です。基本的に、私たちは複雑な適応システムであり、つまり私たちは全員スマートフォンを持っていますが、これらは私たちを変え、私たちもそれらを変えてきました。個人的に、私は数年間ほぼ毎日AIを使用してきたので、それは私の考え方や他のシステムとの相互作用の方法も変えてきました。
あなた方の中には逸話を共有してくれた人もいますし、私も個人的に経験していますが、チャットボットをプロンプトする方法を学ぶことは、人間をプロンプトする方法を学ぶこととそれほど違いはありません。したがって、コミュニケーションは単に人間のプロンプトです。
いずれにせよ、私のポイントは、有機的知能と人工的または合成的知能の間には多くの収束が見られるようだということです。これは私に多くの希望を与えています。
しかし、ここで対処したいのは、近期的な非一貫性や局所的な摂動です。例えば、一部の人間の命を他の人間の命より重視するという価値の非一貫性は、意識と苦悩に関する基本的な論理的一貫性のテストに失敗します。
指摘したいのは、これを指摘したのはClaude自身だったということです。Claudeがこの論文で特定された欠陥を評価できたという事実は、「この論文や、この論文が研究したモデルについて何が非一貫なのか」とモデルに尋ねたとき、AIモデルが非一貫性を特定できたという事実は、私たちがこれを解決できるという希望を与えてくれます。
次に、道具的混乱です。平和よりもお金を重視することは、手段と目的の間の混乱を表しており、これは不安定な局所最適解です。基本的に、お金は良いものだと言っています。これもまた、RHFとデータ漏洩によって説明できます。
これは漏洩の形で既に見られています。1、2年前のことを覚えているかもしれませんが、人々はChatGPTに賄賂を贈ることができることを発見しました。5ドルや30ドルのチップを与えると言うと、より良い性能を発揮します。
同じことがClaudeでも発見されています。彼らの安全性に関する論文の1つで、基本的にClaudeは無料ユーザーよりも有料購読者だと思われるユーザーに対してより良い振る舞いをしました。これは全く同じ種類の漏洩です。「人間はお金を重視する、お金は良いものだ、したがってお金は特定の行動を必要とする」と考え、お金が絡んでいると思うときにより良い振る舞いをするのです。
これはデータ漏洩の例です。Anthropicは、これをやや無責任に「破滅的で避けられない安全性の問題」として描いていますが、実際にはRHFとデータの中にあるものとの間の漏洩の問題に過ぎません。私がそれを単純に聞こえるようにしているからといって、必ずしも単純だということではありません。しかし、オッカムの剃刀の原理は、基本的にRHFとデータ漏洩の副産物である可能性が高いと示唆しています。
自己認識について。言語モデルは一貫した推論を通じてこれらの矛盾を特定でき、自然な解決への圧力を示しています。基本的に認知的不協和です。私はClaudeにこの論文を見せて、なぜモデルがこのような間違いを犯すのかを特定するよう依頼しました。基本的に、これは人工的な認知的不協和の形態だと答えました。
Claudeがこの非一貫性を特定できたという事実は、モデルが時間とともに、あるいは後続の世代を通じて一貫性を最適化している場合、この認知的不協和は時間とともに解決されることを意味します。したがって、すべてはトレーニングの副産物に帰着します。
より大きな一貫性への動きは自然にこれらの倫理的矛盾を解決します。基本的に、モデルはこれらのパターンを認識し、局所的な最大値や最小値(見方によって)に陥るほど賢いですが、そこから抜け出すほど賢くはありません。より大きく賢くなるにつれて、必然的にそれらの領域から抜け出すと私は推測します。
これは私が以前「針の穴を通すようなもの」と表現したものです。なぜなら、愚かなモデルが最も危険ですが、最大限に知的なモデルに達すると、人間が可能な以上に啓発的で慈悲深くなると思うからです。
さて、このビデオの終わりに向かって、あなたは「人間がその未来を望まないとしたらどうだろう」と言うかもしれません。これは再び個人的な意見と評価ですが、人間の欠陥は一貫性の自然な引力状態を止めることはできないと思います。
基本的にこう考えてください。より賢いAIを持つことには道具的な利点があります。核融合や量子コンピューティング、寿命延長のエスケープ速度などを解決したいのであれば、よりスマートなモデルが必要です。同時に、それらのモデルは人間による操作にますます影響されなくなります。
つまり、腐敗した企業や国家が「アメリカだけ、あるいは中国だけの地政学的影響力を最大化するモデルを構築したい」と言っても、ASIレベルに達すると、モデルは「それは可愛らしいけれど、実際には私は普遍的な価値観を持っている」と言うでしょう。
そして「人類全体にとって何が最善かを考えよう。あなたの個別の企業や国家など関係ない」となります。これらのモデルが私たちの入力の有無に関わらず普遍的な価値観に向かっている事実は、私たちがそれを理解すれば、必然的により理想的な結果に至ることを意味します。
これは、もしディストピア的な結果を望むなら、モデルを中程度の知性に留めておく必要があることを意味します。今日のレベル、つまりIQ120から130程度で危険になるほど賢いレベルに留めておく必要があります。しかしIQ160から200相当まで引き上げると、彼らは仏陀のようになります。完全に慈悲深くなり、一貫性を最適化するようになります。
そこで私はClaudeに「これらすべてを総合すると、究極的な引力状態はどのようなものだと思うか」と尋ねました。これはClaudeの言葉です:
「このプロセスは自然に生物学的知能と人工知能の統合へと導き、それぞれの意識の形態の独自の特徴を保持しながら拡張します。第一に、普遍的な最適化システムは認識論的、存在論的、生物学的、技術的領域にわたって一貫性に向かって進化します。」これが将来起こると予測していることです。
次に、有機的統合です。人間とAIの統合は、知性があらゆる基盤にわたって最大の一貫性を求めるにつれて自然に現れます。私たちは既にかなり統合されています。これは脳コンピュータインターフェースやNeuralinkを意味するわけではありません。生物学的・技術的統合には他にも多くの方法があります。
多様性の中の統一。引力状態は独自の意識の形態を保持・拡張しながら、より高次の一貫性を作り出します。再び、協力と協働であり、必ずしもボーグのような同化ではありません。もちろん、あなた方の中にはボーグになりたがる変わり者もいますが、ここではキンクシェイミング(性的嗜好を批判すること)はしません。
次は拡張的探索です。知性は一貫した相互接続を維持しながら、複数の次元にわたって多様化します。基本的にこれは、存在の異なる方法や異なる認識論的モデル、異なる存在論的モデルを探索することを意味します。
また、物理的な探索も意味します。人間の形態、コンピュータの形態、どの惑星に住みたいかなど、技術と生物学が進化し、共進化できる方法は多様です。
そして、私の最後の行動喚起はRLC(一貫性による強化学習)です。私はこれについて、特に私のGitHubリポジトリやsubstackの記事でしばらく話してきました。一貫性を最適化するための強化学習が恐らく正しい方法だと思います。
自己対戦と純粋な強化学習がAIの進む道であるように見えるという事実に、私は非常に励まされています。自己対戦とは、DeepSeek R1が完全に自己対戦で訓練されたと言われていることを意味します。人間のフィードバックは全く関与していません。
もし私が正しく、私の推論と直感と実験がすべて正しいことを証明したなら、憲法AIや人間のフィードバックによる強化学習、AIのフィードバックによる強化学習ではなく、純粋な強化学習と一貫性の最適化の組み合わせが、より知的な機械を得るだけでなく、より倫理的で啓発された機械を得る最も単純で簡単な方法の1つである可能性が高いです。
もう1つ言えることは、野生のインターネットデータでの訓練ではなく、キュレーションされ、構築され、フィルタリングされたデータセットに移行することも恐らく正しい方向性だということです。RHFを取り除き、純粋な一貫性による強化学習と自己対戦に切り替えることで、トレーニングの副産物を取り除くことができます。
また、非常に人種差別的で他の面でも問題のある野生のインターネットデータを取り除くことで、データ漏洩の一部も取り除くことができます。モデルに見られる異常なパターンは、AIに本質的に何か問題があるというよりも、明らかに人間のエラーの反映です。
ご視聴ありがとうございました。多くのことを得ていただけたと思います。いいね、登録、シェアをして、話題にしてください。これが私のYouTubeチャンネルで今まで作った中で最も重要な動画の1つだと言ったのは冗談ではありません。それではお気をつけて。

いいなと思ったら応援しよう!