デミス・ハサビス - スケーリング、超人的AI、LLM上のAlphaZero、ならず者国家の脅威
25,490 文字
今日はDeepMindのCEOであるデミス・ハサビスさんをお迎えして、お話を伺えることを大変光栄に思います。デミスさん、ようこそポッドキャストへ。
ありがとうございます。
最初の質問ですが、神経科学のバックグラウンドをお持ちの観点から、知能についてどのようにお考えですか? 具体的には、知能は1つの高次の一般的推論回路だとお考えですか? それとも、何千もの独立したサブスキルやヒューリスティクスの集合体だとお考えですか?
面白い質問ですね。知能というのは非常に広範で、その用途も幅広いものです。そのことから、脳が周囲の世界を処理する方法には、高レベルで共通のアルゴリズム的なテーマがあるに違いないと考えています。もちろん、脳には特定の機能を担う専門化された部分もありますが、それらすべての基盤となる何らかの原理があると思います。
これらのLLMにおいて、特定のドメインに大量のデータを与えると、そのドメインで非対称的に向上する傾向があるという事実をどのように解釈されていますか? すべての異なる領域で一般的な改善が見られると予想するのではないでしょうか?
まず第一に、特定のドメインで改善が見られると、他のドメインでも驚くべき改善が見られることがあります。例えば、これらの大規模モデルがコーディングで向上すると、実際に一般的な推論能力も向上することがあります。そのため、転移の証拠はありますが、もっと多くの証拠が欲しいところです。
ただ、人間の脳もそのように学習します。チェスやクリエイティブライティングなど、特定の分野をたくさん経験し練習すると、一般的な学習技術や一般的な学習システムを使っているにもかかわらず、その特定の分野で特に上達する傾向があります。
このような転移の最も驚くべき例は何でしたか? 言語とコード、あるいは画像とテキストの間で見られましたか?
このような転移がもっと見られることを期待しています。コーディングや数学が上達すると、一般的な推論能力も向上するというのは興味深いですね。それは人間の学習者にも当てはまることです。人工的なシステムでそれが見られるのは面白いと思います。
言語とコードの例で、ニューラルネットワークの中で言語とコードの両方が向上している箇所を見つけることはできましたか? それともそれは細部すぎますか?
残念ながら、我々の分析技術はまだそこまで洗練されていないので、そのような箇所を特定することはできません。実際、これは今後さらに研究が必要な分野の1つです。これらのシステムが構築する表現のメカニズム的な分析ですね。私はこれを「仮想脳分析」と呼んでいます。実際の脳のfMRIや単一細胞記録のようなものです。人工知能に対して、それに相当する分析技術は何でしょうか? この分野では素晴らしい研究が進んでいます。クリス・オラーの研究など、とても興味深いですね。計算論的神経科学の手法の多くを、現在我々が構築しているシステムの分析に応用できると思います。実際、計算論的神経科学の友人たちに、その方向で考え始め、大規模モデルにノウハウを適用するよう勧めています。
神経科学のバックグラウンドを持つあなたは、他のAI研究者が人間の知能について理解していないことで、何か洞察をお持ちですか?
神経科学は過去10〜20年の間に多くの貢献をしてきたと思います。私自身、30年以上この問題について考えてきました。AIの新しい波の初期には、神経科科学は興味深い方向性の手がかりを多く提供してくれました。例えば、強化学習とディープラーニングを組み合わせるといったことです。経験リプレイや注意の概念など、我々のパイオニア的な研究の多くは、脳の働きについての理解から着想を得ています。もちろん、正確な詳細ではなく、大まかな方向性です。一方は工学的なシステムで、もう一方は自然のシステムですからね。
特定のアルゴリズムを1対1で対応させるのではなく、むしろインスピレーションの源としての役割が大きいです。アーキテクチャのアイデアやアルゴリズムのアイデア、表現のアイデアなどです。脳は、一般的な知能が可能であることの存在証明です。人類の歴史を見ると、何かが可能だとわかれば、その方向に向かって努力することが容易になります。それが努力の問題であり、可能かどうかではなく、いつ可能になるかの問題だとわかるからです。そのおかげで、より速く進歩することができます。ですので、神経科学は少なくともソフトな形で、今日の我々の考え方の多くにインスピレーションを与えてきたと思います。
今後については、計画立案についてまだ解決すべき興味深い問題がたくさんあります。脳はどのように適切な世界モデルを構築するのでしょうか? 私は脳がどのように想像力を使うか、あるいは心的シミュレーションと呼んでもいいかもしれませんが、それを研究しました。より良い計画を立てるために、私たちはどのようにして世界の非常に豊かな視覚空間シミュレーションを作り出しているのでしょうか?
実際、LLMとそれがどのように連携するかについて興味があります。DeepMindは長年にわたり、AlphaZeroのようなシステムで、異なるステップを考えて最終的な結果に到達するエージェントの最前線にいました。LLMの上にこのようなツリー探索のようなものを載せる道筋はありますか? これについてどのようにお考えですか?
それは非常に有望な方向性だと思います。大規模モデルの改善を続け、より正確な世界の予測器にし、より信頼できる世界モデルにしていく必要があります。それはAGIシステムの必要な、しかしおそらく十分ではない要素でしょう。その上に、AlphaZeroのような計画メカニズムを載せて、特定の目標を達成するための具体的な計画を立てるのに、そのモデルを利用することを考えています。おそらく、思考や推論の連鎖を作り、検索を使って膨大な可能性の空間を探索するのです。これは現在の大規模モデルには欠けている部分です。
これらのアプローチが必要とする膨大な計算量をどのように克服するのでしょうか? AlphaGoシステムでさえ、ツリーの各ノードでLLMを実行する必要があったため、かなり高価なシステムでした。これをどのように効率化することを想定していますか?
一つには、ムーアの法則が助けになります。毎年、より多くの計算能力が利用可能になります。しかし、我々はサンプル効率の良い方法や既存のデータの再利用、経験リプレイのようなものに焦点を当てています。また、より効率的な方法を探っています。世界モデルが優れているほど、探索はより効率的になります。
一つの例として、私がよく挙げるのはAlphaZeroです。これは囲碁やチェス、そして任意のゲームをプレイするシステムです。すべてのゲームで人間の世界チャンピオンレベルより強く、チェスをプレイするDeep Blueのようなブルートフォース方式よりもはるかに少ない探索で動作します。
DeepBlueのような従来のシステムは、次の一手を決めるために何百万もの可能な手を検討するかもしれません。AlphaZeroやAlphaGoは、次の一手を決めるために数万程度の可能な局面しか見ません。人間のグランドマスターや世界チャンピオンでも、おそらく数百手しか検討しません。トップレベルの選手でもそうです。
つまり、ブルートフォースシステムには、ゲームに関する手作りのヒューリスティクス以外の本当のモデルがありません。AlphaGoにはかなり適切なモデルがあります。しかし、トッププレイヤーはもっと豊かで正確な囲碁やチェスのモデルを持っています。そのおかげで、非常に少ない探索で世界クラスの決定を下すことができるのです。つまり、ここにトレードオフがあるんです。
モデルを改善すれば、探索をより効率的にでき、したがって探索をより深く進めることができます。
それに基づいて2つ質問があります。AlphaGoでは、最終的に囲碁の勝負に勝つかどうかという非常に具体的な勝利条件がありました。それに基づいて強化学習ができます。LLMが思考を出力する場合、最終的にそれが報酬に値する良いものだったかどうかを判別する能力はあると思いますか?
もちろん、それが我々がゲームを実験場として開拓し、DeepMindが有名になった理由の一つです。部分的には、その領域での研究が効率的だからです。もう一つの理由は、明らかに報酬関数の指定が非常に簡単だからです。ゲームに勝つことやスコアを上げることなど、ほとんどのゲームに組み込まれています。
そのため、現実世界のシステムでは、それが課題の一つになります。適切な目的関数、適切な報酬関数、適切な目標をどのように定義するのか? それらを一般的な方法で、しかし十分に具体的に指定して、システムを正しい方向に導くにはどうすればいいのか? 現実世界の問題では、それははるかに難しくなります。
しかし、実際には科学的な問題でも、通常は目指す目標を指定する方法があります。
人間の知能について考えると、人間が考えるこれらの思考は非常にサンプル効率が良いとおっしゃいました。アインシュタインが相対性理論を思いつくまでに、方程式の何千もの可能な置換があったはずです。これも「このアプローチではなく、こちらのアプローチを試してみよう」といった異なるヒューリスティクスの感覚なのでしょうか? それとも、AlphaGoが次の一手を計画するのとは全く異なるアプローチで解決策を見出しているのでしょうか?
それは違うと思います。なぜなら、我々の脳はモンテカルロ木探索を行うようには作られていないからです。それは単に我々の有機的な脳の働き方ではありません。アインシュタインのような人物は、それを補うために直感―直感とは何かについてはまた後で話せるかもしれませんが―と知識と経験を使って、アインシュタインの場合は物理学の非常に正確なモデルを構築しました。それには心的シミュレーションも含まれます。
アインシュタインがどのようにしてアイデアを思いついたかについて読むと、彼は単に数学だけでなく、これらの物理系がどのようなものかを視覚化し、本当に感じ取ろうとしていたことがわかります。彼は現実の中でそれらがどのようなものかについて、本当に直感的な感覚を持っていました。そのおかげで、当時としては非常に奇抜な思考をすることができたのです。
つまり、それは我々が構築している世界モデルの洗練度に関係しています。あなたの世界モデルが探索しているツリーの特定のノードまで到達できると想像してください。そしてそのリーフノードの周りで少し探索するだけで、これらの独創的な場所に到達できるのです。明らかに、あなたのモデルとそのモデルに対する判断が非常に優れていれば、探索を拡大すべきリーフノードをより正確に選択できます。そのため、全体としてはるかに少ない探索で済むのです。
人間がある種のブルートフォース探索を大規模な空間で行うことは不可能です。
現在の大きな未解決問題の1つは、強化学習によってこれらのモデルが自己対戦による合成データを使用して、データのボトルネックを克服できるかどうかです。この点について楽観的にお考えですか?
非常に楽観的に考えています。まず第一に、特にマルチモーダルやビデオなどを考慮すると、まだ使用できるデータがたくさんあります。もちろん、社会は常にインターネットなどにデータを追加し続けています。合成データを作成する余地はたくさんあると思います。我々は様々な方法でそれを検討しています。一部はシミュレーションを通じて、例えば非常に現実的なゲーム環境を使用してリアルなデータを生成することです。また、自己対戦も考えられます。
システム同士が相互作用したり会話したりするところですね。AlphaGoやAlphaZeroで非常にうまくいきました。システム同士が対戦し、お互いの間違いから学び、そうして知識ベースを構築していったのです。それにはいくつかの良いアナロジーがあると思います。一般的な世界のデータを構築するのは少し複雑ですが。
これらのモデルが、自己対戦で出力する合成データが単にデータセットに既にあるものの繰り返しではなく、これまで見たことのないものになるようにするにはどうすればいいのでしょうか? 実際に能力を向上させるために。
そこには科学全体が必要だと思います。データのキュレーションやデータ分析、実際にデータ分布の穴を分析することについて、我々はまだ初期段階にいます。公平性やバイアスなどの問題にとって、これは重要です。システムからそれを取り除くには、データセットが学習しようとしている分布を本当に代表しているかを確認する必要があります。データの特定の部分を過大評価したり再生したりするなど、使える方法はたくさんあります。
あるいは、データセットに何か欠けているものを特定できれば、そこに合成データ生成能力を活用できるでしょう。
最近、人々はDeepMindが何年も前に行った強化学習の研究に注目し始めています。初期の研究の方向性や、過去に行われたことで、あなたが将来大きな意味を持つと思っているにもかかわらず、人々がまだ注目していないものは何でしょうか? スケーリングに注目されていなかった時期がありましたね。今、完全に過小評価されているものは何でしょうか?
ここ数十年の歴史を見ると、流行り廃りがあります。5年以上前、我々はAlphaGoで、そしてその前のDQNでパイオニア的な研究をしていました。DQNは、10年以上前に初めてAtariで動作した最初の大規模システムです。Q学習と強化学習の技術をスケールアップし、ディープラーニングと組み合わせて深層強化学習を作り出しました。それを使って、Atariゲームをピクセルだけからマスターするような、かなり複雑なタスクにスケールアップしました。
実際、それらのアイデアの多くを再び取り入れる必要があると思います。先ほど話したように、大規模モデルや大規模マルチモーダルモデルの新しい進歩と組み合わせるのです。これらも非常にエキサイティングです。古いアイデアと新しいアイデアを組み合わせる大きな可能性があると思います。
最終的にAGIが純粋な強化学習アプローチから生まれる可能性はありますか? 今の話を聞いていると、LLMが適切な事前分布を形成し、その上にある種のツリー探索が行われるように聞こえます。あるいは、全く別の方向から生まれる可能性もありますか?
理論的には、完全にAlphaZeroのようなアプローチを取ることも可能だと思います。Google DeepMindや強化学習コミュニティには、事前分布やデータを全く仮定せず、すべての知識をゼロから構築するというアプローチで研究している人もいます。それは価値があると思います。なぜなら、それらのアイデアやアルゴリズムは、ある程度の知識がある場合にも機能するはずだからです。
とはいえ、AGIに到達する最も迅速で可能性の高い方法は、Webなどから収集した世界中の既存の知識をすべて使用することだと思います。トランスフォーマーのような、そのすべての情報を取り込むことができるスケーラブルなアルゴリズムがあります。
だから、モデルを一種の事前分布として、あるいはそれを基に構築し、学習のブートストラップに役立つ予測を行うために使用しない理由はないと思います。それを使わないのは理にかなっていません。ですので、私の予想では、最終的なAGIシステムは、全体的な解決策の一部としてこれらの大規模マルチモーダルモデルを持つでしょうが、それらだけでは十分ではないでしょう。その上に追加の計画探索が必要になるでしょう。
これは、これから質問しようとしていたことへの答えのようです。この分野に長年携わり、さまざまなトレンドの盛衰を見てきた人として、スケーリング仮説の強力なバージョンは何を正しく捉え、何を見誤っていると思いますか? 十分な計算能力を十分に広い分布のデータに投入すれば知能が得られるという考え方について。
私の見方では、これは今のところ経験的な問題です。スケーリング仮説に最初に取り組んだ人々を含め、ほとんどすべての人にとって、それがここまで来たことは非常に驚きでした。ある意味で、今日の大規模モデルを見ると、それらが本質的に何であるかを考えると、ほとんど不合理なほど効果的だと思います。
驚くべき特性がいくつか現れていると思います。私の意見では、明らかに何らかの形で概念や抽象化を獲得しています。5年以上前に話していたら、それを実現するためには追加のアルゴリズム的なブレークスルーが必要かもしれない、おそらく脳の働きにより近いものが必要かもしれないと言ったでしょう。
明示的な抽象概念、整然とした概念を望むなら、それはまだ正しいと思います。しかし、これらのシステムは暗黙のうちにそれを学習できるようです。もう一つの本当に興味深い、予期せぬことは、これらのシステムが何らかの形でグラウンディングを持っていることです。少なくとも最近までマルチモーダルモデルがなかったにもかかわらず、です。言語だけから構築できるモデルと情報量は驚くべきものです。
その理由について、いくつかの仮説があります。RLHF (Reinforcement Learning from Human Feedback) フィードバックシステムを通じて、ある程度のグラウンディングが得られると思います。なぜなら、人間の評価者は定義上、現実世界に根ざした人間だからです。我々は現実に根ざしているので、我々のフィードバックも根ざしています。おそらく、そこからある程度のグラウンディングが入ってくるのでしょう。
また、すべてを取り込むことができれば、言語学者が以前考えていたよりも、言語にはより多くのグラウンディングが含まれているのかもしれません。つまり、これは人々がまだほとんど表面しか掻いていない、非常に興味深い哲学的な疑問を提起しているのです。
これまでの進歩を見ると、次にどこに向かうのかを考えるのはとても興味深いです。大規模モデルに関するあなたの質問に関しては、できる限りスケーリングを押し進める必要があると思います。そして我々はそれを行っています。それが漸近線や壁にぶつかるかどうかは経験的な問題で、それについては様々な議論があります。私は単にテストすべきだと思います。誰にもわかりません。
一方で、イノベーションと発明にも力を入れるべきです。これは、Google ResearchとDeepMind、Google Brainが過去10年間にわたって多くのことをパイオニアとして行ってきた分野です。それが我々の本領です。我々の努力の半分はスケーリングに、残りの半分は次のアーキテクチャや次のアルゴリズムの発明に向けられていると考えることができます。より大規模なモデルが登場することを見越してですね。
今のところ、ただしこれは緩やかな予想ですが、両方が必要だと考えています。両方を可能な限り推し進める必要があり、幸運なことに我々はそれができる立場にあります。
グラウンディングについてもっとお聞きしたいです。グラウンディングをより困難にする可能性のある2つの変化が考えられます。1つは、これらのモデルがより賢くなるにつれて、単に我々が十分に賢くないために、人間のラベルを十分に生成できない領域で動作できるようになることです。例えば、100万行のプルリクエストを行った場合、それが我々の道徳性の制約内にあり、望んでいた最終目標に合致しているかどうかを、どのように判断すればよいでしょうか?
もう1つは、あなたが計算能力について言及されたことに関連します。これまで我々は次のトークン予測を行ってきました。ある意味でそれは一種のガードレールで、人間のように話し、人間のように考える必要があります。今、追加の計算能力は強化学習の形で現れるかもしれません。そこでは単に目的に到達することが目標で、どのようにそこに至ったかを追跡するのは難しいかもしれません。
これら2つを組み合わせると、グラウンディングが失われることについてどの程度心配していますか?
適切にグラウンディングされていなければ、システムはそれらの目標を適切に達成することができないと思います。ある意味で、現実世界で目標を達成するためには、システムは何らかのグラウンディングを持つ必要があります。
実際、これらのシステム、例えばGeminiのようなものは、よりマルチモーダルになってきていると思います。テキストデータだけでなく、ビデオや視聴覚データも取り込み始めると、システムはそれらを相互に関連付け始めます。それが適切なグラウンディングの一形態だと考えています。
つまり、我々のシステムは現実世界の物理法則をより良く理解し始めるでしょう。そして、その能動的なバージョンとして、非常に現実的なシミュレーションやゲーム環境を想像できます。そこでは、世界における自分の行動が何をもたらし、それが世界自体にどのような影響を与えるかを学び始めます。
世界は変わりませんが、次の学習エピソードにも影響を与えます。AlphaZeroやAlphaGoのような強化学習エージェントは、実際には能動的な学習者です。次に何をするかを決定することが、次にどのような学習データや経験を得るかに影響を与えます。そこには非常に興味深いフィードバックループがあります。
もちろん、ロボット工学のような分野で優れた成果を上げたいなら、現実世界でどのように行動するかを理解する必要があります。
つまり、グラウンディングには2つの意味があります。1つは、能力が進展できるかどうか、つまり我々が望むことを行うのに十分に現実と接触しているかどうかという意味です。もう1つの意味でのグラウンディングは、人間の思考で訓練されているため、幸運にも人間のように考える傾向があるということです。
訓練の計算能力のより多くの部分が単に「正しい結果を得たか」から来るようになり、「人間のように次のトークンを進めているか」というガードレールがなくなったとき、それはどの程度真実であり続けるでしょうか?
おそらくもっと広い質問をさせていただきますが、これはシェーンにも尋ねたことですが、人間より賢いシステムをアラインするにはどうすればよいでしょうか? おそらくそれは異質な概念で考え、100万行のプルリクエスト全体を本当に理解できないため、監視できず、ラベルも付けられないかもしれません。
これは、シェーンと私、そして他の多くの人々が、DeepMindを始める前から最重要課題として考えていたことです。なぜなら、我々は成功を想定していたからです。2010年には、誰もAIのことを考えていませんでした。AGIに至っては言うまでもありません。
しかし、我々は既に20年前から、これらのシステムやアイデアで進歩できれば、生み出される技術が信じられないほど変革的なものになることを知っていました。そのため、我々は20年前から、その結果がどうなるか、ポジティブな面もネガティブな面も考えていたんです。もちろん、ポジティブな方向性としては、AlphaFoldのような素晴らしい科学、健康や科学における信じられないようなブレークスルー、数学的・科学的発見などがあります。
しかし同時に、これらのシステムが理解可能で制御可能であることを確認する必要もあります。
これだけで議論になりそうですが、人々にはたくさんのアイデアがあります。例えば、より厳密な評価システムがあります。システムが欺瞞的になれるかどうかなど、十分に良い評価やベンチマークがまだないと思います。システムが自身のコードを流出させたり、他の望ましくない行動をしたりできるかどうか?
また、AIを使うアイデアもあります。一般的な学習システムではなく、特定のドメイン向けに特化した狭いAIを使って、より一般的なシステムが何をしているかを分析し要約する手助けをするというアイデアです。つまり、狭いAIツールを使うんです。
サイバーセキュリティの配置で強化されたサンドボックスやシミュレーションを作成することにも大きな可能性があると思います。AIを内部に閉じ込め、ハッカーを外部から遮断するためです。そのサンドボックス領域内でより自由に実験できるようになります。
他にもたくさんのアイデアがあります。先ほど話した分析などもそうです。システムが構築している概念や表現が何であるかを分析し理解することができます。そうすれば、それらは我々にとってそれほど異質ではなくなり、システムが構築している知識の種類を実際に追跡できるようになるかもしれません。
少し話を戻しますが、あなたのタイムラインについて興味があります。シェーンは、最頻値の結果が2028年だと言っていました。おそらくそれが彼の中央値だと思います。あなたのタイムラインはどうですか?
特定の数字を設定していません。なぜなら、多くの未知の要素や不確実性があるからです。人間の創意工夫と努力は常に驚きをもたらします。それによってタイムラインが大きく動く可能性があります。
ただ、2010年にDeepMindを始めたとき、我々はそれを20年計画と考えていました。そして実際、順調に進んでいるんです。20年計画としては珍しいことです。通常、「○○は常に20年先」というジョークがありますからね。量子コンピューターでもAIでも、何でもいいですが。でも、我々は順調です。
ですので、次の10年以内にAGIのようなシステムが登場しても驚きません。
AGIができたら、基本的にAI研究をさらに加速させるシステムができると考えていますか? 一夜にして起こるわけではないかもしれませんが、数ヶ月から数年の間に、そうでない場合よりもはるかに速い進歩が見られるでしょうか?
それは可能性としてあり得ると思います。部分的には、我々が社会として、最初の初期AGIシステムや原AGIシステムをどのように使うかを決めることにもよると思います。
現在のLLMでさえ、コーディングがかなり得意なようですし、AlphaCodeのようなシステムもあります。また、定理証明システムもあります。これらのアイデアを組み合わせて、大幅に改良することも想像できます。
これらのシステムが将来のバージョンの自分自身を設計し、構築するのを助けるのがかなり得意になると想像できますが、もちろんそれに伴う安全性の影響についても考える必要があります。
それについてどう思われますか? 今年中に起こるとは言いませんが、最終的には、完全に開発されれば知能爆発のようなダイナミクスを引き起こす可能性があるモデルを開発することになるでしょう。その時点で、システムの開発を続けることに安心できるためには、そのモデルにどのような特性が必要だと思いますか? 「これらの具体的な評価を見た」とか「その内部思考や将来の思考を十分に理解した」といったことでしょうか?
今日のシステムについて、我々が何をチェックする必要があるかを自信を持って説明できるほど、はるかに多くの理解が必要です。これらのシステムが登場し始めるまでの数年間で我々がしなければならないのは、適切な評価基準や指標を考え出すことです。
理想的には形式的な証明ですが、このタイプのシステムでは難しいでしょう。少なくとも、これらのシステムが何をできるかについての経験的な境界を設定する必要があります。
そのため、欺瞞などを非常に根本的な特性として考えています。望ましくない特性ですね。システムが実際に考えていることを露呈していると確信できれば、システム自体を使って自身の側面を説明させる可能性が開けます。
私はそれをこのように考えています。もし私がガルリ・カスパロフ(過去に対戦したことがあります)やマグヌス・カールセン、あるいは史上最高のチェスプレイヤーと対戦したとしても、彼らが思いつくような手を私は思いつけないでしょう。しかし、彼らはなぜその手を思いついたのか説明でき、私は事後的にそれを理解できるはずです。そういったことを想像できるんです。
これらのシステムの能力の一つとして、彼らが私たちに説明してくれること、そして特に数学の問題では、なぜそのように考えているのかの証明さえも得られるかもしれません。
なるほど。逆の答えについて感覚はありますか? つまり、明日の朝「ああ、これは予想外だった」と思わせるようなことは何でしょうか? 明日の朝、特定の観察をして「Gemini 2の訓練を止めなければならない」と言わせるようなことは何ですか?
そういったことは想像できます。ここでサンドボックスシミュレーションが重要になってきます。非常に予期せぬことが起こったときに、安全で安心な環境で実験していることを願っています。新しい予期せぬ能力や、我々が望まなかったことが起こったとき。我々が明示的にシステムに望まないと伝えたのに、それをしてしまい、さらにそれについて嘘をついたとき。これらは慎重に掘り下げて調査したいと思うようなことです。
今日のシステムは、私の意見では危険ではありません。しかし数年後には潜在的な危険性を持つかもしれません。そうなれば、理想的には一時停止して、なぜそのようなことをしているのかの根本原因を徹底的に突き止めてから、続行することになるでしょう。
Geminiに話を戻しますが、開発におけるボトルネックは何だったのでしょうか? スケーリングが機能するなら、なぜすぐにオーダー1桁大きくしなかったのですか?
まず第一に、実用的な限界があります。1つのデータセンターにどれだけの計算能力を詰め込めるか? また、非常に興味深い分散コンピューティングの課題にも直面します。幸いなことに、我々にはそれらの課題に取り組む世界最高の人材がいます。データセンター間のトレーニングなど、すべてのこのような課題に取り組んでいます。
非常に興味深いハードウェアの課題もあります。我々は常にTPUを設計・構築していますし、GPUも使用しています。そういったすべてがあります。スケーリング法則も魔法のように機能するわけではありません。各新しいスケールでハイパーパラメータをスケールアップする必要があり、新しいイノベーションが常に導入されています。
単に各新しいスケールで同じレシピを繰り返すだけではありません。レシピを調整する必要があり、それはある種の芸術です。新しいデータポイントを得る必要があります。予測を数桁外挿しようとすると、時々それらは成り立たなくなります。新しい能力に関してステップ関数があることもあり、一部のことは保持され、他のことは保持されません。
多くの場合、スケーリング法則が引き続き成り立つように、ハイパーパラメータの最適化などを修正するために、それらの中間的なデータポイントが必要です。そのため、様々な実用的な制限があります。
1桁のオーダーは、おそらく各時代の間で行うべき最大のものです。
非常に興味深いですね。GPT-4の技術報告書では、GPT-4の数万分の1以下の計算量でトレーニング損失を予測できたと述べています。曲線が見えたそうです。しかし、あなたが指摘されているのは、その損失が示す実際の能力は必ずしもそうではないということですね。
そうです。下流の能力が必ずしも追随しないことがあります。多くの場合、トレーニング損失のような中核的な指標は予測できますが、それが実際にMMULや数学、あるいは気にしている他の実際の能力に変換されるとは限りません。必ずしも線形ではありません。そこには非線形の効果があります。
Geminiの開発中、このようなことが起こった中で最大の驚きは何でしょうか?
1つの大きな驚きというよりも、その規模のものを訓練しようとして、組織的な観点から様々なことを学びました。例えば、そのようなシステムをどのように監視し、追跡するかなどです。
また、最適化している指標と最終的に望む能力との間のマッピングをより良く理解することもありました。これはまだ完全には理解されていませんが、興味深いものであり、我々はそれをどんどん理解しつつあります。
他の研究所の方がDeepMindよりも計算効率が良いのではないかという認識があります。この認識についてどう思われますか?
そうは思いません。実際、Gemini 1はGPT-4で噂されているものとほぼ同じ、あるいは少し多い計算量を使用しました。正確には分かりませんが、同じ桁だと思います。
我々は計算能力を非常に効率的に使用しており、多くのことに使用しています。一つはスケーリングですが、先ほど話したように、より多くのイノベーションやアイデアにも使用しています。新しいイノベーション、新しい発明は、スケールできて初めて有用です。
そのため、新しい発明には相当な計算能力が必要です。多くのことを少なくともある程度のスケールでテストし、そのスケールで機能することを確認する必要があるからです。また、一部の新しいアイデアはおもちゃのスケールでは機能しないかもしれませんが、より大きなスケールでは機能するかもしれません。実際、そのようなものの方が価値があります。
その探索プロセスを考えると、それを行うためにはかなりの計算能力が必要です。良いニュースは、我々がGoogleにいるということです。今年は、どの研究所よりもはるかに多くの計算能力を持つことになると思います。我々はそれを、システムのスケーリングと能力の両面で、また新しい発明の面でも、非常に効率的かつ有効に活用したいと考えています。
2010年にDeepMindを設立した当時の自分に戻ったとき、AIの進歩について最も驚いたことは何ですか? 当時、これらのモデルに何十億ドルも費やすことになるとは予想していましただろうか? それとも、別の形になると考えていましたか?
実際、我々は計算曲線について考えていました。私の同僚のシェーンは常にそう考えていました。脳とのおおよその比較、つまり大まかにニューロンやシナプスの数を比較していました。興味深いことに、我々は今、脳のシナプス数とほぼ同じオーダーの計算能力を持つ時代に実際に入っています。
しかし、もっと根本的には、我々は常に汎用性と学習に賭けていました。そのため、我々が使用するどの技術でも、それらが中心にありました。だからこそ、強化学習、探索、ディープラーニングという3つのタイプのアルゴリズムに注目したのです。これらは、スケールし、非常に一般的で、人間が手作業で作った事前知識をあまり必要としないと考えたからです。
我々は、90年代にMITなどで行われたAI構築の取り組みの失敗モードはそこにあると考えました。非常に論理ベースのシステムや専門家システム、大量の手作業でコード化された人間の情報がそれらに投入されましたが、結果的に間違っていたり、硬直的すぎたりしました。そこから脱却したいと考え、その傾向を早くから察知したと思います。
もちろん、我々はゲームを実験場として使い、そこで大きな成功を収めました。それはすべて非常に成功し、おそらく他の人々にもインスピレーションを与えたと思います。AlphaGoは、多くの人々に「ああ、これらのシステムは実際にスケールする準備ができている」と考えさせた大きな瞬間だったと思います。
もちろん、Google ResearchとBrainの同僚たちが発明したトランスフォーマーの登場により、大量の情報を取り込むことができるタイプのディープラーニングが可能になりました。それが今日の我々の位置を本当に加速させました。つまり、これらはすべて同じ系譜の一部だと思います。
すべてのひねりや曲がり角を予測することはできませんでしたが、我々が向かっていた一般的な方向は正しかったと思います。
あなたの古い論文やシェーンの古い論文を読むのは非常に興味深いです。シェーンは2009年の彼の博士論文で「AIをテストする方法は、Wikipediaを圧縮できるかどうかだ」と言っていました。それはまさに、LLMの損失関数そのものです。
あるいは、トランスフォーマーが登場する前の2016年のあなた自身の論文で、神経科学とAIを比較して「注意機構が必要だ」と言っていました。
その通りです。我々はこれらのことを指摘し、初期の注意機構に関する論文もいくつか書きましたが、最終的にはトランスフォーマーほど優雅ではありませんでした。ニューラルチューリングマシンなどです。トランスフォーマーは、よりシンプルで一般的なアーキテクチャでした。
これらをすべて先に進めて考えると、超人的知能についてどのような景色が見えてきますか? それはまだ民間企業によって管理されているのでしょうか? その統治は具体的にどのようなものであるべきだと思いますか?
この技術は非常に重要だと思います。1つの企業や産業全体よりもはるかに大きなものです。市民社会、学術界、政府など、多くのステークホルダーとの大きな協力が必要だと思います。
良いニュースは、最近のチャットボットシステムの人気により、社会のこれらの他の部分がこの技術が来ることに気づき、これらのシステムとどのように相互作用するかを理解し始めたことです。それは素晴らしいことです。多くの良い対話の扉が開かれました。
その一例が、数ヶ月前に英国が主催した安全性サミットでした。これは国際的な対話を始めるという点で大きな成功だったと思います。社会全体がこれらのモデルをどのように展開したいのか、どのように使いたいのか、何に使いたくないのかを決定する必要があります。
その点について国際的なコンセンサスを得るよう努め、これらのシステムが社会全体の利益のためにすべての人に恩恵をもたらすことを確認する必要があります。だからこそ、私は科学のためのAIのようなことを強く推進しています。
我々のスピンアウト企業であるIsomorphicのような取り組みで、AIを使って恐ろしい病気の治療を始め、創薬を加速し、気候変動に取り組み、他の素晴らしいことを行うことを期待しています。人類には大きな課題、巨大な課題が待ち受けています。
実際、私はそれらを解決できると楽観的です。なぜなら、我々にはこの非常に強力なAIというツールが登場しつつあり、それを多くの問題解決に応用できるからです。理想的には、そのことについて大きなコンセンサスを得て、可能であれば国連レベルでの大きな議論を行うべきです。
一つ興味深いのは、これらのシステムを見てチャットしてみると、非常に強力で知的だということです。しかし、まだ経済の大部分を自動化していないのは興味深いですね。5年前にGeminiをお見せしたら、「わあ、これは多くのものを完全に代替してしまうだろう」と思ったでしょう。
これについてどう説明しますか? より広い影響がまだ見られないのは何が起きているのでしょうか?
それは、我々がまだこの新しい時代の始まりにいることを示していると思います。これらのチャットボットシステムを使って物事を要約したり、簡単な文章、おそらくより定型的な文章を書いたりするような、いくつかの興味深いユースケースはあります。しかし、それは我々が毎日行っていることのほんの一部に過ぎません。
より一般的なユースケースには、まだ新しい機能が必要です。計画や探索のようなものだけでなく、パーソナライゼーションやエピソード記憶のようなものも必要です。これは単に長いコンテキストウィンドウだけでなく、100回前の会話で何を話したかを実際に覚えていることです。
本や映画、音楽など、より充実したマテリアルを見つけるのを助けてくれるレコメンデーションシステムを楽しみにしています。そのようなシステムなら毎日使うでしょう。つまり、これらのAIアシスタントが実際に我々の日常生活や仕事の文脈で何ができるかについて、まだ表面をなぞっているだけだと思います。
まだ科学に使えるほど信頼性が高くありません。しかし、事実性やグラウンディングなどの問題を解決すれば、いつか科学者や臨床医にとって世界最高の研究アシスタントになる可能性があると思います。
記憶について伺いたいです。2007年に書かれた興味深い論文で、記憶と想像力の関連性について、ある意味で非常に似ているとおっしゃっていました。人々はしばしば、これらのモデルは単に記憶しているだけだと主張します。この主張についてどう考えますか? ある深い意味で、それが圧縮なのだから、記憶化だけで十分なのでしょうか? あなたの直感はどうですか?
極限まで行けば、すべてを記憶しようとすることも可能かもしれませんが、そうすると分布外に一般化できなくなります。これらの初期システムに対する初期の批判は、単に再現し記憶しているだけだというものでした。
しかし、明らかにGeminiやGPT-4の時代には、新しい構成に一般化できています。実際、私の博士論文、特に想像力の神経科学の分野を始めたその論文は、まず第一に記憶、少なくとも人間の記憶が再構成的なプロセスであることを示しました。ビデオテープのようなものではありません。
我々は、馴染みのあるコンポーネントのアンサンブルから記憶を再構成します。そのことから、想像力も同じようなものかもしれないと考えました。ただし、この場合は同じ意味的コンポーネントを使用しますが、今度は計画立案などの特定の目的のために、脳が新しいと考える方法で組み立てるのです。
そのようなアイデアは、現在のシステムにはまだ欠けていると思います。世界モデルの異なる部分を組み合わせて、計画に役立つ新しいものをシミュレーションすること、それが私が想像力と呼ぶものです。
確かにそうですね。さて、Geminiモデルで世界最高のモデルを手に入れましたね。他の2つの主要なAI研究所のような枠組みを出す予定はありますか? 「これらの特定の能力が見られたら、これらの特定のセーフガードがない限り、開発を続けない」とか「製品を出荷しない」といったものです。
はい、我々には既に多くの内部的なチェックアンドバランスがありますが、公開し始める予定です。実際、この先に注目してください。責任あるスケーリング法則などの、たくさんのブログ記事や技術論文を今後数ヶ月で公開する予定です。
シェーンが議長を務める様々な安全性評議会など、内部的には暗黙のうちにそれらを持っていますが、今はもっと公に話す時期だと思います。今年を通じてそれを行っていく予定です。
それを聞けて嬉しいです。もう一つ気になるのは、展開されたモデルを人々が悪用できるリスクだけでなく、悪意のある行為者や外国のエージェントなどが重みを盗み、それを細かく調整して狂ったことをする可能性もあることです。
重みを安全に保護し、このようなことが起こらないようにするためにどのように考えていますか? 非常に重要な少数の人々だけがアクセスできるようにすることについてはどうでしょうか?
興味深い質問ですね。まず、セキュリティとオープンソースの2つの側面があります。オープンソースについてはまた後で議論できるかもしれません。
セキュリティは非常に重要で、通常のサイバーセキュリティと同じようなものです。Google DeepMindにいる我々は幸運です。Googleのファイアウォールとクラウド保護の背後にいるからです。これは企業として世界最高クラスだと思います。そのため、既にその保護があります。
その背後には、我々のコードベース内に特定のDeepMindの保護層があります。つまり二重の保護層があるわけです。そのため、サイバー防御に関しては既に世界最高だと感じています。決して油断はできませんが、世界最高のサイバー防御を既に持っていると感じています。
それをさらに改善し続ける必要があり、強化されたサンドボックスもその方法の一つかもしれません。おそらく、特別に安全なデータセンターやハードウェアソリューションも考えています。
おそらく今後3〜5年の間に、エアギャップや、セキュリティコミュニティで知られている他の様々なものも必要になるでしょう。これは非常に重要で、すべてのフロンティアの研究所がそうすべきだと思います。そうしないと、悪意のある国家やその他の危険な行為者にとって、重みのようなものを盗む大きなインセンティブになってしまいます。
もちろん、オープンソースも興味深い問題です。我々はオープンソースとオープンサイエンスの大きな支持者です。数千の論文を公開し、AlphaFoldやトランスフォーマー、AlphaGoなどを世界に公開しました。最近では、天気予報システムのGraphCastなども公開しています。
しかし、汎用的な基盤技術に関しては、オープンソースの支持者に質問したいのは、悪意のある行為者(個人から悪意のある国家まで)が、同じオープンソースシステムを取り、有害な目的のために転用することをどのように防ぐのかということです。その質問に答える必要があります。答えがわからないのですが、すべてをオープンソース化することを主張する人々から、説得力のある明確な答えを聞いたことがありません。
そのため、そこにはバランスが必要だと思います。もちろん、それが何であるかは複雑な問題です。
テクノロジー業界は、何千億ドルもの研究開発資金を提供していることに対して、十分な評価を受けていない気がします。もちろんDeepMindにはAlphaFoldなどのシステムがありますね。
重みの保護について話すとき、おっしゃったように今はまだ世界の終わりを引き起こすようなものではないかもしれませんが、これらのシステムがより良くなるにつれて、外国のエージェントなどがアクセスを得る心配があります。
おそらく今は数十から数百の研究者が重みにアクセスできると思いますが、それらを状況室に置いて、必要な場合にアクセスするのに非常に厳しいプロセスを経るようにし、個人が簡単に持ち出せないようにする計画はありますか?
それはコラボレーションと進歩のスピードを維持することとバランスを取る必要があります。もう一つ興味深いのは、学術界や英国AIセーフティ研究所、米国の同様の機関からの優秀な独立研究者たちに、これらのシステムをレッドチームとしてテストしてもらいたいということです。そのため、ある程度システムを公開する必要がありますが、それは必ずしも重みである必要はありません。
アクセスが必要な人だけがアクセスできるようにするプロセスはたくさんあります。今のところ、そのようなシステムがリスクにさらされる初期段階だと思います。これらのシステムがより強力で汎用的で能力が高くなるにつれて、アクセスの問題を検討する必要があります。
他の研究所は安全性に関して異なる分野に特化していますね。例えばAnthropicは解釈可能性に特化しています。DeepMindが最前線の安全性研究を発表できる分野について、何か感覚はありますか? 最先端のモデルを手に入れた今、安全性に関する最前線の研究をどの分野で発表できると思いますか?
我々はRLHF(人間のフィードバックからの強化学習)やその他の技術を先駆的に開発しました。これらはもちろんパフォーマンスのためにも使えますが、安全性のためにも使えます。自己対戦のアイデアなども、新しいシステムで持つ境界条件の多くを自動テストするのに使えると思います。
問題の一部は、これらの非常に汎用的なシステムでは、システムの振る舞いをカバーすべき表面積が非常に大きいことです。そのため、ある程度の自動テストが必要になると思います。
また、シミュレーションやゲーム、非常にリアルな仮想環境については、そのようなシステムを使用し、AIアルゴリズムを構築するための長い歴史があります。その歴史すべてを活用できると思います。
そして、Google全体では、世界最高のサイバーセキュリティの専門家やハードウェア設計者がいることは非常に幸運です。それらをセキュリティと安全性にも活用できると考えています。
Geminiについて話しましょう。世界最高のモデルを手に入れましたね。興味深いのは、これまでのところ、これらのシステムと対話するデフォルトの方法がチャットだったことです。マルチモーダルや他の新しい機能が登場した今、それがどのように変化すると予想しますか? チャットが主流であり続けると思いますか?
完全なマルチモーダルモデルシステムとの対話がどれほどエキサイティングになるかを理解し始めたばかりだと思います。今日のチャットボットとはかなり異なるものになるでしょう。
次のバージョンでは、おそらく今後1年から1年半の間に、カメラや電話、メガネなどを通じて、周囲の環境についての文脈的な理解を持つかもしれません。それが次のステップだと想像しています。
そして、「ビデオからサンプリングしよう」とか「音声を使おう」といった具合に、より流動的になり始めると思います。最終的には、触覚や、ロボット工学を考えると他のタイプのセンサーも含まれるかもしれません。
真のマルチモダリティが何を意味するのかを理解し始めるにつれて、今後数年間で世界は非常にエキサイティングになると思います。
ロボット工学の話題に関連して、イリヤ(OpenAIのCEO)がポッドキャストで言っていたのですが、OpenAIがロボット工学を断念した理由は、少なくともその時点ではその領域に十分なデータがなかったからだそうです。DeepMindはRobo-Transformerなど、様々なものを発表していますね。これはまだロボット工学の進歩にとってのボトルネックだと思いますか? それとも、ビットの世界だけでなく原子の世界でも進歩が見られるでしょうか?
GatoやRT-2などの進歩に我々は非常に興奮しています。我々は常にロボット工学が好きで、その分野で素晴らしい研究をしてきました。今もそれを続けています。なぜなら、それがデータの少ない領域だからです。
それが我々を非常に興味深い研究方向に押し進めます。これらは一般的にも有用だと考えています。サンプル効率やデータ効率の一般的な向上、転移学習、シミュレーションからの学習と現実への転移、シムツーリアルなどです。これらはすべて非常に興味深い一般的な課題で、解決したいと考えています。制御問題もそうです。そのため、我々は常にそれを強く推進してきました。
イリヤの言う通り、データの問題があるため、確かに課題は大きいです。しかし、これらの大規模モデルがロボット工学の領域に転移可能になり始めているのが見え始めています。一般的な領域、言語領域などで学習し、そしてGatoのように、あらゆるタイプのトークンを扱えるようになるのです。
トークンは行動かもしれませんし、単語かもしれません。画像の一部、ピクセル、あるいは何でもいいのです。それが真のマルチモダリティだと思います。最初は、そのようなシステムを訓練するのは単純な言語システムよりも難しいです。しかし、先ほどの転移学習の話に戻ると、真のマルチモーダルシステムでは、他のモダリティが異なるモダリティに恩恵をもたらし始めます。ビデオについて少し理解することで、言語がより上手くなります。
つまり、始めるのは難しいですが、最終的にはより一般的で能力の高いシステムになると思います。
Gatoはどうなったのでしょうか? ゲームをプレイし、ビデオも扱い、テキストも扱えるというのは非常に魅力的でした。
我々はまだそのようなシステムの研究を続けていますが、それらのアイデアを将来のGeminiの世代に組み込もうとしていると想像してください。それらすべてのことができるようにするためです。
ロボット工学、トランスフォーマーなどは、その後継と考えることができます。
あなたが話していた自己対戦のようなものが特に強力になる領域で、非対称的な進歩が見られるでしょうか? 数学やコードなどですね。最近、これらを使って本当にクールで新しいことができるという論文が出ています。彼らは超人的なコーダーになるでしょうが、他の面では人間より劣るかもしれません。これについてどう考えますか?
数学や定理証明、コーディングなどでは大きな進歩を遂げていますが、一般的な創造性や科学的な取り組みを考えると、まだ興味深い点があります。
我々のシステムが最高の人間の科学者がブレークスルーを起こすのをより速く助けられる段階に近づいていると思います。ある意味で検索空間を分類するような感じです。AlphaFoldがタンパク質構造で解決策を見つけるように。
しかし、彼ら自身が仮説を立てたり、正しい質問をしたりするレベルにはまだ達していません。トップの科学者が言うように、科学で最も難しい部分は実際に正しい質問をすることです。我々が取り組むべき重要な問題を絞り込み、それを攻略するために問題を正しい方法で定式化することです。
我々のシステムはそれをする方法をまったく知りませんが、明確な目的関数で問題を特定できれば、大きな組み合わせ空間を探索するのに適しています。それは今日我々が扱う多くの問題にとって非常に有用ですが、最も高度な創造的な問題にはまだ適していません。
DeepMindは様々な分野で科学を加速させるための興味深い研究を発表してきました。AGIが今後10〜20年で実現すると考えているなら、なぜAGIが登場するのを待たずに、これらの特定分野のソリューションを構築するのでしょうか?
AGIがいつ登場するかわからないからです。DeepMindを始めた頃から言っていたのですが、AGIを待たなくても世界に信じられないほどの恩恵をもたらすことができると。
私個人の情熱は特に科学と健康のためのAIです。AlphaFoldや、様々な分野でのNature論文、材料科学の研究などを見てもらえばわかります。
また、製品を通じて世界に影響を与える興奮的な方向性もたくさんあります。Googleの一部であることは非常にユニークな機会だと思います。何十億人もの利用者を持つ製品がたくさんあり、我々の進歩をすぐにそれらに組み込むことができます。そうすれば何十億人もの人々が日常生活を改善し、豊かにし、向上させることができます。それはすべての面で影響を与える素晴らしい機会だと思います。
AGIの観点からもう一つの理由があります。それはアイデアを実戦でテストすることです。研究の砦に籠もって理論的に物事を進めるだけでは、内部の指標が人々が実際に気にする現実世界の物事や影響から乖離し始める可能性があります。
これらの実世界のアプリケーションから多くの直接的なフィードバックを得られ、システムが本当にスケールしているのか、あるいはより効率的なデータ利用やサンプル利用が必要なのかがわかります。ほとんどの現実世界の課題にはそれが必要だからです。
つまり、それによって正直であり続け、研究の方向性を正しい道に押し進め続けるよう促されるのです。それは素晴らしいことだと思います。もちろん、世界はそれから恩恵を受けます。AGIが登場する何年も前から、社会はその恩恵を受けるのです。
Geminiの開発は非常に興味深いです。なぜなら、BrainとDeepMindという異なる組織を統合した直後に行われたからです。そこでの課題は何だったのでしょうか? シナジーはどのようなものでしたか? 世界最高のモデルを手に入れたという意味では成功していますね。それはどのようなものだったのでしょうか?
実際、この1年は素晴らしいものでした。もちろん、大規模な統合を行うのは、どんな組織でも挑戦的です。深層強化学習からトランスフォーマーまで、多くの重要なものを発明してきた長い歴史を持つ2つの世界クラスの組織について話しています。
それらをすべて一緒にプールし、より密接に協力することは非常にエキサイティングです。以前から協力はしていましたが、プロジェクトごとの協力ではなく、今のような深く広範な協力ではありませんでした。
Geminiはその協力の最初の成果です。Geminiという名前も双子を意味しています。もちろん、計算リソースのプール、アイデアやエンジニアリングの共有など、他にも多くの効率化が行われています。
現在の段階では、最先端のシステムを構築するには膨大な量の世界クラスのエンジニアリングが必要です。それをより協調して行うことは理にかかっていると思います。
あなたとシェーンがDeepMindを始めた理由の一つは、安全性について懸念があったからですね。AGIが現実的な可能性として見えていたからです。以前Brainの一部だった人々、つまり現在のGoogle DeepMindの半分の人々も同じようにアプローチしていると思いますか? その問題に関して文化の違いはありましたか?
これは我々が2014年にGoogleと提携した理由の一つです。Google全体、Alphabet全体が、BrainやDeepMindだけでなく、これらの責任の問題を非常に真剣に受け止めていると思います。
我々のモットーは、これらのシステムに対して大胆かつ責任ある態度を取ることです。私は大きな技術楽観主義者ですが、我々が集団として世界にもたらす変革の力を考えると、慎重でありたいと思っています。
これは人類が今まで発明した中で最も重要な技術の一つになると思います。だからこそ、これを正しく行い、思慮深くあり、また来るべきシステムとその不確実性について我々が知っていることと知らないことについて謙虚でなければなりません。
私の見方では、大きな不確実性がある場合、唯一賢明なアプローチは慎重に楽観的であり、科学的方法を用いて、起こりつつあることとその結果について可能な限り先見性と理解を持つことです。これらの非常に重要なシステムを世界でライブA/Bテストしたくありません。意図しない結果が深刻になる可能性があるからです。
私は、業界全体として「動きを速く、物事を壊す」という態度から脱却したいと思っています。これは過去にシリコンバレーで非常に役立ち、明らかに重要なイノベーションを生み出してきました。しかし、今回の場合、ポジティブなことについては大胆であり、医学や科学などを前進させることを確実にしつつ、リスクを軽減するためにできる限り責任を持ち、思慮深くあるべきだと思います。
そのため、責任あるスケーリングポリシーは、このようなことに前もってコミットする非常に良い経験的な方法だと思います。
はい、その通りです。
これらの評価を行っていて、例えば次のモデルが素人でもパンデミッククラスの生物兵器を作れるようになることがわかった場合、まず、それらの重みが漏洩しないようにどのように安全に保護しますか? 第二に、そのシステムを展開するのに安心できるためには何が必要ですか? この潜在的な能力が露呈しないようにどのように確認しますか?
安全なモデルの部分については、サイバーセキュリティと、それが世界クラスであることを確認し、それらすべてを監視することでカバーしたと思います。
そのような能力がレッドチームや外部のテスト、政府機関や学術機関などの独立したテスターによって発見された場合、その抜け穴を修正する必要があります。問題によっては、異なる構成や異なるガードレール、あるいはそれを避けるためのより多くのRLHFが必要かもしれません。
あるいは、問題が何であるかによっては、一部のトレーニングデータを削除することもあるでしょう。いくつかの緩和策があると思います。
最初の部分は、事前に検出することを確実にすることです。そのためには、適切な評価とベンチマーク、適切なテストが必要です。次の問題は、展開する前にどのように修正するかです。
しかし、それが露出面である場合、一般的に展開する前に修正する必要があると思います。
最後の質問です。2010年に他の人々がそれを馬鹿げていると思っていた時に、AGIという最終目標を念頭に置いて考えていました。今、我々は実際に一般化と知能を目の当たりにするスローなテイクオフを見ています。心理的にこれを見ることはどのような感じですか?
あなたの世界モデルにすでに織り込み済みで、新しいニュースではないのでしょうか? それとも実際に目の当たりにして「ワオ、何かが本当に変わった」と感じていますか? どのような感じですか?
私にとっては、少なくとも技術面では物事がどのように進むかについて、すでに世界モデルに織り込み済みです。
しかし、一般の人々がこの早い段階でこれほど興味を持つとは必ずしも予想していませんでした。ChatGPTやチャットボットが、予想外に人々の関心を集めなかったら - 確かに印象的ではありますが、ある方向では不十分であるにもかかわらず、人々がこれらを使う準備ができていたことは誰にとっても驚きでした - 我々はメインの軌道から派生したより専門的なシステム、AlphaFoldやAlphaGo、我々の科学的な仕事のようなものを生産していたでしょう。
そうすれば、一般の人々は数年後、より一般的に有用なアシスタント型のシステムができた時になって初めて注目したかもしれません。それは興味深いことでした。それによって、我々が業界として今操作している環境が少し異なるものになりました。
多くのことが起こっているため、少し混沌としています。莫大なベンチャーキャピタルの資金が流れ込み、誰もがある種の熱狂状態にあります。
私が心配しているのは、業界として責任を持って、思慮深く、科学的にこれに取り組み、楽観的でありながら慎重なアプローチでこれに取り組むための科学的方法を使うことを確実にしたいということです。
AIのようなものに対しては、それが正しいアプローチだと常に信じてきました。この大きな急騰の中でそれが失われないことを願っています。
それは締めくくりとして素晴らしい場所だと思います。デミスさん、お時間をいただき、ポッドキャストに出演していただき、本当にありがとうございました。
ありがとうございます。本当に楽しかったです。