基調講演：ヤン・ルカン「人間レベルのAI」

2024年10月15日 20:05

11,725 文字

次の基調講演者は、人間レベルのAIへの道のりについて語ってくれはりますわ。ヤン・ルカンはメタAI研究所（フェア）の主任AIサイエンティストです。ニューヨーク大学の教授でもあり、2018年ACMチューリング賞を含む多くの賞を受賞しています。全米工学アカデミー会員でもあります。皆さん、ヤン・ルカンを拍手でお迎えください。
ありがとう、タリア。ちなみに、フェアのFはもうフェイスブックを意味しませんねん。
あ、ごめんなさい。
基礎研究を意味するんやけど、まあどっちでもええわ。
ほな、人間レベルのAIについて、そこにどう到達するか、そしてどうやったら到達できへんかについて話させてもらいます。
まず、なんで人間レベルのAIが必要なんかというと、将来的にほとんどの人がスマートグラスとか他のデバイスを身につけて、それらと会話することになるからです。そのシステムには、一つやなくて複数のアシスタントが搭載されるかもしれません。
つまり、みんなが賢い仮想の人々のスタッフを持つことになるんです。全員がボスになるみたいなもんですわ。ただ、本物の人間のボスやなくてな。
これを作る必要があるのは、人間の知能を増幅させて、より創造的で生産的にするためです。でも、そのためには世界を理解し、物事を覚え、直感を持ち、常識を使い、人間と同じレベルで推論や計画を立てられる機械が必要です。
熱心な人たちから聞いたかもしれませんが、現在のAIシステムはこれらのどれもできません。だから、世界がどう動くかのメンタルモデルを持つシステムが必要なんです。
あなたのネコでさえ、今までに作られたどんなAIシステムよりも洗練されたモデルを持っています。持続的な記憶を持ち、複雑な行動シーケンスを計画でき、制御可能で安全なシステムが必要なんです。
これから、「目的志向AIアーキテクチャ」と呼んでいるものを提案させてもらいます。約2年前にこのビジョンペーパーを書いて公開しました。フェアの多くの人がこの計画の実装に取り組んでいます。
フェアは以前、長期的な基礎研究と応用プロジェクトを組み合わせていました。でも、メタは1年半前にAI製品に特化した「ジェニ」という製品部門を作りました。彼らは応用研究開発をしています。そのため、フェアは次世代AIシステムのより長期的な研究にシフトしました。基本的にLLMはやっていません。
AIの成功は、LLMを含む多くのシステムが、ここ5、6年で「自己教師あり学習」と呼ばれる一連の技術に基づいています。自己教師あり学習を使う一つの方法は、再構成による学習です。例えば、テキストを取って、単語を削除したり変更したりして破損させます。これはテキストだけやなく、DNAシーケンスやタンパク質、ある程度は画像にも適用できます。
そして、巨大なニューラルネットを訓練して、元の入力、つまり破損していないバージョンを再構成させるんです。これは生成モデルです。元の信号を再構成しようとするからです。
赤い箱はコスト関数です。入力Yと再構成されたY'の距離を計算します。学習はシステムのパラメータに関してこれを最小化します。
この過程で、システムは入力の内部表現を学習します。これはその後のさまざまなタスクに使えます。もちろん、テキスト中の単語を予測するのにも使えます。これが自己回帰的予測で起こることです。
LLMはこの特殊なケースで、アーキテクチャが特定の方法で設計されています。トークンや単語を予測するとき、左側のトークンしか見られません。未来は見られへんのです。
システムをこのように訓練すると、次の単語を予測し、それを入力にシフトして2番目の単語を予測し、また入力にシフトして3番目の単語を予測する、というように使えます。これが自己回帰的予測で、LLMがやっていることです。
新しい概念やないですよ。クロード・シャノンの時代からあるので、1950年代までさかのぼります。長い歴史があるんです。変わったのは、今では巨大なニューラルネットアーキテクチャを莫大なデータで訓練できるようになったことです。そこから何かが生まれてくるように見えます。
でも、この自己回帰的予測には大きな限界があります。通常の意味での推論はありません。もう一つの限界は、これが離散的なオブジェクト、シンボル、トークン、単語の形で来るデータにしか機能しないことです。
人間レベルの知能に到達するには、まだ大きな何かが欠けています。必ずしも人間レベルの知能を言っているわけやありません。あなたのネコや犬でも、現在のAIシステムではまだ完全に手の届かない驚くべき能力を持っています。
10歳の子供がどうやって夕食の食卓を片付けて食洗機に食器を入れることを一発で学べるんでしょうか？練習する必要もありません。17歳の子供は約20時間の練習で車の運転を学べます。でも、まだレベル5の完全自動運転車はありません。食卓を片付けて食洗機に食器を入れる家庭用ロボットもありません。
つまり、本当に大きな何かが欠けているんです。そうでなければ、AIシステムでこれらのことができているはずです。
「モラベックのパラドックス」にぶつかり続けています。私たちには些細に見えて、知的とさえ考えないことが、機械にとっては本当に難しいように見えます。でも、言語を操作するような高度で複雑な抽象的思考は、機械には簡単に見えます。チェスやゴーを指すのも同じです。
これには理由があるかもしれません。典型的なLLMは20兆のトークンで訓練されています。トークンは平均して約4分の3の単語です。つまり、1.5×10の13乗の単語です。各トークンは約3バイトなので、6×10の13乗バイトになります。
これを読むのに数十万年かかるでしょう。これは基本的に、インターネット上で公開されているすべてのテキストの総量です。
でも、4歳の人間の子供を考えてみてください。4歳の子供は合計16,000時間起きています。ちなみに、これはYouTubeのアップロード30分分です。私たちには約200万の視神経線維があり、各線維は約1ビット/秒のデータを運びます。半分の1ビット/秒という説もありますし、3ビット/秒という推定もありますが、桁の大きさは同じです。
そのデータ量は約10の14乗バイトです。つまり、LLMとほぼ同じオーダーです。4年間で、子供はインターネット上で公開されているすべてのテキストで訓練された最大のLLMと同じくらいの視覚データを見ていることになります。
これは多くのことを示しています。まず、テキストだけを訓練しても、人間レベルの知能に近づくことはできないということです。絶対に起こりません。
反論として、視覚情報は冗長だという意見があります。まず、視神経線維1本あたり1ビット/秒というのは、網膜の光センサーと比べると既に100対1の圧縮率です。網膜には6000万から1億の光センサーがあり、それが網膜の前にある神経によって100万の神経線維に圧縮されます。
つまり、既に100対1の圧縮があり、それが脳に到達して50倍くらいに拡大されます。私が測定しているのは圧縮された情報ですが、それでもかなり冗長です。冗長性は自己教師あり学習に必要です。
自己教師あり学習は冗長なデータからしか有用なものを学習できません。データが高度に圧縮されていて完全にランダムならば、何も学べません。何かを学ぶには冗長性が必要です。データの根底にある構造を学ぶ必要があります。
だから、動画を見たり実世界で生活したりすることで、常識と物理的直感を学習するシステムを訓練する必要があります。
少し順番が前後しますが、この目的志向AIアーキテクチャについて少し説明させてもらいます。これはLLMやフィードフォワードニューラルネットとはかなり異なります。
推論プロセスがニューラルネットの層を通過するだけやなく、最適化アルゴリズムを実行するという点で違います。
概念的にはこんな感じです。フィードフォワードプロセスは、観察を入力として受け取り、知覚システム（例えばニューラルネットの層）を通して出力を生成します。単一の入力に対して一つの出力しか得られません。
でも、一つの知覚に対して複数の可能な出力や解釈がある状況がたくさんあります。単なる関数ではなく、単一の入力に対して複数の出力を持つマッピングを計算するプロセスが欲しいんです。
これを実現する唯一の方法は、暗黙の関数を通してです。右側の赤い箱にある目的関数のようなものです。これは基本的に、入力と提案された出力の互換性を測定します。
そして、入力と最も互換性のある出力値を見つけることで出力を計算します。これは、この目的関数をある種のエネルギー関数と想像し、出力に関してこのエネルギーを最小化することで実現できます。
複数の解が得られるかもしれません。それらの複数の解を探索する方法があるかもしれません。人間の知覚システムはこれを行います。特定の知覚に対して複数の解釈がある場合、脳は自然にそれらの解釈を巡回します。
このタイプのことが起こり得るという証拠があります。
この最適化による推論の原理を使って、人間の思考方法の仮説を立てると、こんな感じになります。
世界で観察を行い、知覚システムが世界の現在の状態についてのアイデアを与えます。もちろん、現在知覚できる世界の状態についてのアイデアしか与えません。記憶から世界の残りの状態についてのアイデアがあるかもしれません。
これが世界モデルに入力されます。世界モデルとは、世界がどのように振る舞うかについてのあなたの心的モデルです。
一連の行動を想像し、世界モデルを使ってその行動の結果を予測できます。
緑の箱、世界モデルに仮説的な一連の行動を入力すると、世界の最終状態がどうなるか、あるいは世界で何が起こるかの全軌跡を予測します。
これを目的関数のセットに入力します。一つの目的関数は、目標がどの程度達成されたか、タスクがどの程度遂行されたかを測定します。
他の目的関数は、ガードレールのようなものです。これらは基本的に、取られた行動や軌跡が周囲の人々やロボットにとって危険でない程度を測定します。
ここでの推論プロセス（まだ学習の話ではありません）は、これらの目的関数を最小化する行動シーケンスを見つけることです。つまり、これらの目的関数を最小化する一連の行動を見つけることです。
これは単なるフィードフォワードではありません。離散的な選択肢を探索することでもできますが、それは非効率的です。
もっと良い方法は、これらのすべてのボックスを微分可能にし、勾配を逆伝播させ、勾配降下法で行動シーケンスを更新することです。
このアイデアは決して新しいものではありません。60年以上前、もしかしたらそれ以上前からあるものです。
世界モデルを使用した推論を行うことの利点について話させてもらいます。利点は、学習を必要とせずに新しいタスクを達成できることです。
私たちはいつもこれをしています。新しい状況に直面したとき、考えて、自分の行動の結果を想像し、目的を達成するための行動シーケンスを取ります。そのタスクを達成するために学習する必要はありません。計画を立てられるんです。
このプロセス、つまり最適化による推論は、基本的に計画立てです。ほとんどの形式の推論も最適化に還元できます。だから、この最適化による推論プロセスは、ニューラルネットの層を通過するだけのものよりも本質的に強力です。
この最適化による推論のアイデアは、60年以上前から最適制御理論の分野にありました。モデル予測制御と呼ばれています。制御しようとしているシステムのモデルを持っています。ロケットや飛行機、ロボットなどです。
世界モデルを使って、一連の制御コマンドの効果を計算できます。そして、動作が望むようになるようにシーケンスを最適化します。古典的なロボット工学のモーションプランニングはこのように行われています。新しいものやありません。
新しいのは、世界モデルを学習し、状況や世界の適切な抽象表現を抽出する知覚システムを学習することです。
これを実行する例を示す前に、これらのすべてのコンポーネントを持つ全体的なAIシステムを構築できます。世界モデル、タスクに応じて設定できるコスト関数、世界モデルを考慮して最適な行動シーケンスを見つけるアクター、短期記憶、知覚システムなどです。
これはどのように機能するのでしょうか。行動が単一の行動ではなく行動シーケンスで、世界モデルが時刻Tでの世界の状態と取り得る行動を与えられたときに時刻T+1での世界の状態を予測するシステムだとします。
2つの行動のシーケンスが何を生み出すかを予測したい場合、世界モデルを複数回実行できます。ここでは時間経過とともに展開されているように表されています。
初期の世界状態表現を取得し、行動0の仮説を入力し、世界モデルを使って次の世界状態を予測します。次に行動1、次の世界状態、コストを計算し、逆伝播と勾配ベースの最適化手法を通じて、コストを最小化する2つの行動を見つけます。これがモデル予測制御です。
世界は一般的に完全に決定論的ではないので、世界モデルに潜在変数を入力する必要があるかもしれません。潜在変数は基本的に、セットを走査したり分布から抽出されたりする変数で、観察と互換性のある複数の予測を世界モデルに走査させます。
世界は完全に予測可能ではないので、予測を行う際にこの種の不確実性に対処する必要があるかもしれません。
もっと興味深いのは、人間が行えるように見えること、そして確実に多くの動物ができることである階層的計画です。
例えば、ニューヨークからパリへの旅行を計画する場合、自分の体のモデルとニューヨークからパリまでの世界全体の構成についてのアイデアを使って、低レベルの筋肉制御の観点から旅全体を計画することもできます。
でも、もちろん誰もそんなことはしません。できません。そんな情報を持っていないし、正気の沙汰ではありません。パリに行くまでの10ミリ秒ごとの筋肉制御のステップ数は膨大すぎます。
代わりに、階層的に計画を立てます。非常に高いレベルで考え、「パリに行くには、まず空港に行って飛行機に乗る必要がある」と言います。「空港にはどうやって行く？ニューヨーク市にいるから、通りに出てタクシーを拾う必要がある」。「通りに出るにはどうする？椅子から立ち上がって、ドアに移動し、ドアを開け、エレベーターに行って、ボタンを押す」などです。
「椅子からどうやって立ち上がる？」というように。ある時点で、低レベルの筋肉制御行動で表現できるものがありますが、全体を低レベルで計画しているわけではありません。階層的に計画しているんです。
AIシステムでこれを行う方法は完全に未解決です。まったくアイデアがありません。これは知的行動にとってかなり大きな要件のように見えます。
じゃあ、どうやって階層的に機能し、いくつかの異なる抽象レベルで動作する世界モデルを学習するんでしょうか。この種の階層的計画を可能にする世界モデルを。誰もこれに近いものを実証していません。これは大きな課題です。
はい、これは私が言った例の図解表現です。
では、この世界モデルをどうやって訓練するのでしょうか。これが本当に大きな課題です。
赤ちゃんを見てみましょう。これは動物にも当てはまりますが、心理学者や認知科学者は、赤ちゃんがどの年齢で世界についての基本的な概念を学ぶのかを理解しようとしてきました。
直感的な物理学や物理的直感をどのように学ぶのか。これは言語や相互作用について学ぶずっと前に起こります。
例えば、顔の追跡は本当に早い段階で起こります。生物学的運動、つまり生物と無生物の違いについても早い段階で起こります。対象の永続性も非常に早く起こります。一つの物体が別の物体に隠されても、まだ存在するという概念です。
それから、赤ちゃんは自然な種類のカテゴリーを学びます。物の名前を教える必要はありません。椅子とテーブルと猫が違うことを知るでしょう。
安定性とサポート、重力、慣性、運動量の保存といったものは、実は9ヶ月くらいまで現れません。時間がかかるんです。
左側のシナリオを6ヶ月の赤ちゃんに見せると、小さな車が台の上にあって、台から押し出されて空中に浮いているように見える場合、6ヶ月の赤ちゃんはほとんど注目しません。でも、10ヶ月の赤ちゃんは小さな女の子のように反応します。
彼女は、それが起こるべきではないこと、物体は落ちるべきだということを理解しています。驚くべきことが起こったとき、それはあなたの世界モデルが間違っていることを意味します。だから注目するんです。それがあなたを殺す可能性があるからです。
ここで必要な学習のタイプは、先ほど話した学習のタイプと非常に似ています。入力を取り、何らかの方法で破損させ、大きなニューラルネットを訓練して、欠けているものを予測させます。
ビデオで何が起こるかを予測するようにシステムを訓練すれば、テキストで何が起こるかを予測するようにニューラルネットを訓練したのと同じように、これらのシステムが常識を学べるかもしれません。
悪いニュースは、これを10年間試みてきましたが、完全な失敗に終わっていることです。ビデオのピクセルを予測しようとするだけで、世界についての一般的な知識を本当に学習するシステムには全く近づけませんでした。
見た目の良いビデオを予測するシステムを訓練することはできます。ビデオ生成システムの例はいくつかありますが、内部的には物理的世界の良いモデルではありません。それらを物理世界のモデルとして使うことはできません。
ビデオで何が起こるかを予測する生成モデルを使えば、システムが魔法のように世界の構造を理解するだろうという考えは完全な失敗です。10年以上にわたって多くのことを試みました。
この失敗の理由は、多くの可能な未来があるからです。テキストのような離散的な空間では、一連の単語の後にどの単語が続くかを予測することはできませんが、辞書内のすべての可能な単語の確率分布を生成することはできます。
しかし、ビデオフレームの場合、ビデオフレームに対する確率分布を表現する良い方法がありません。実際、このタスクは完全に不可能です。
例えば、この部屋のビデオを撮り、カメラでその部分を撮影して、ビデオを停止し、次に何が来るかをシステムに予測させたとします。システムは、部屋の残りの部分が来て、ある時点で壁があり、人々が座っていて、密度は左側と似ているだろうと予測するかもしれません。
しかし、ピクセルレベルであなたたち全員がどのように見えるか、壁のテクスチャがどのようなものか、部屋の正確なサイズなどを予測することは不可能です。これらの詳細を正確に予測する方法はありません。
この解決策は、私が「共同埋め込み予測アーキテクチャ」と呼ぶものです。アイデアは、ピクセルの予測を諦めることです。ピクセルを予測する代わりに、世界で起こっていることの抽象表現を学習し、その表現空間で予測するのです。
これがアーキテクチャです。共同埋め込み予測アーキテクチャ。これら2つの埋め込みは、Xの破損バージョンをエンコーダに通し、Yをエンコーダに通し、そしてXの表現からYの表現を予測するようにシステムを訓練します。
問題は、これをどのように行うかです。なぜなら、単にこのようなシステムを訓練して、勾配降下法と逆伝播を使って予測誤差を最小化しようとすると、崩壊してしまいます。一定の表現を学習し、予測が超簡単になりますが、情報量がありません。
これが、生成アーキテクチャ（予測子を再構築しようとするもの、オートエンコーダ、生成アーキテクチャ、MAOエンコーダなど）と、表現空間で予測を行う共同埋め込みアーキテクチャとの違いです。
私が考える将来は、これらの共同埋め込みアーキテクチャにあります。画像の良い表現を学習するには、これらの共同埋め込みアーキテクチャを使うのが最良の方法だという大量の経験的証拠があります。
再構築を使って画像の表現を学習しようとするすべての試みは悪いです。うまく機能しません。これについての大規模なプロジェクトと機能するという主張がありましたが、本当にはうまくいきません。最高のパフォーマンスは右側のアーキテクチャで得られます。
考えてみると、これは本当に私たちが知能でやっていることです。何かや現象の良い表現を見つけて予測できるようにすることです。これは本当に科学の本質です。
例えば、惑星の軌道を予測したい場合を考えてみましょう。惑星は非常に複雑な物体です。巨大で、天気や温度、密度など、惑星について測定できる非常に複雑な要素がたくさんあります。
しかし、惑星の軌道を予測するのに必要なのは6つの数字だけです。3つの位置と3つの速度です。それ以外は何も必要ありません。
これは、予測能力の本質が、観察したものの良い表現を見つけることであることを示す本当に重要な例です。
では、これらをどのように訓練するのでしょうか。
これはOKです。これらをどのように訓練するのでしょうか。システムが崩壊するのを防ぎたいです。一つの方法は、エンコーダから出てくる表現の情報量を測定するような種類のコスト関数を持ち、情報量を最大化しようとすることです。
つまり、負の情報を最小化することです。ここに書かれているものです。
システムを訓練して、入力からできるだけ多くの情報を抽出すると同時に、その表現空間での予測誤差を最小化します。システムは、できるだけ多くの情報を抽出することと、予測不可能な情報を抽出しないこととのトレードオフを見つけることになります。
予測可能な表現空間を得ることになります。
では、情報をどのように測定するのでしょうか。ここで少し変な話になります。これはスキップします。
まあ、エネルギーベースモデルとエネルギー関数の訓練という観点から数学的に理解する方法があります。でも、これに立ち入る時間はありません。
基本的に、ここでいくつかの異なることを言っています。生成モデルを放棄して、これらのjepaアーキテクチャを採用すること。確率モデルを放棄して、これらのエネルギーベースモデルを採用すること。対照的手法を放棄すること（これについては触れませんでしたが、すぐに触れます）。そして強化学習も放棄すること。
これらのことを10年間言い続けてきました。これらは現在の機械学習の最も人気のある4つの柱です。だから今のところ、あまり人気がありません。
さて、これを行う一つの方法は、エンコーダから出てくる情報量を何らかの方法で推定することです。現在、これを行うための方法が半ダースほどあります。
実際、ここに一つ抜けているのがあります。NYUとフラットアイアンの同僚たちによるMMCRと呼ばれるものです。
一つのアイデアは、システムが単に崩壊して定数を生成するのを防ぐことです。エンコーダから出てくる変数を取り、それらの変数が非ゼロの標準偏差を持つようにします。
これをサンプルのバッチにわたるコスト関数に入れることができます。重みが変数を定数に崩壊させないようにします。これは簡単です。
問題は、システムが不正をして、すべての変数を等しくしたり、非常に依存性が高くしたり、相関させたりする可能性があることです。
だから、もう一つの項を追加する必要があります。これらの変数の共分散行列のオフ対角項を最小化したいと言います。これは、相関がないことを確認するためです。
もちろん、これだけでは十分ではありません。変数はまだ依存している可能性があります。相関はしていないけれど、依存しているかもしれません。
そこで、もう一つのトリックを使います。SXの次元をより高次元の空間VXに拡張し、その空間で分散共分散正則化を適用します。これで十分のようです。
でも、ここにトリックがあります。私はあなたがたの一部を騙しました。ここで最大化しているのは、情報量の上限です。上限を最大化すれば、実際の情報量もそれに従って増加することを願っているのです。
本当に必要なのは下限です。下限を押し上げれば、情報量が上がるはずです。残念ながら、情報量の下限がないか、少なくともそれを計算する方法を知りません。
もう一つの方法のセットがあります。これは蒸留スタイルの方法と呼ばれています。この方法は神秘的な方法で機能します。
本当に明確な説明が欲しければ、ここに座っているS・グリに聞くべきです。彼はこれについての論文を書いています。個人的には理解できませんが、非常によく機能します。
このアーキテクチャの半分だけを更新し、他の半分には勾配を逆伝播させず、面白い方法で重みを共有することからなります。
これについていくつかの論文があります。非常によく機能します。画像の良い表現を完全に教師なしで学習するシステムを訓練したい場合、これは他のどの方法と同じくらい良いです。
画像の破損がマスキングによるものの場合です。
最近、ビデオに対してこれを行う研究もあります。ビデオの良い表現を抽出するシステムを訓練できます。これを下流のタスク、例えば行動認識などに使用できます。
ビデオを取り、その一部をマスクし、これを通して実行し、表現空間で予測を行い、この蒸留トリックを使って崩壊を防ぎます。これは非常によく機能します。
将来、もしこのプログラムが成功し、最終的に推論でき、計画を立てられ、物理的世界を理解できるシステムに到達できれば - これには何年もかかるでしょう、もしかしたら10年かかるかもしれません - マーク・ザッカーバーグはいつも私に「どれくらいかかるの？」と聞いてきます。
もし成功すれば、私たちとデジタル世界とのすべてのやり取りを仲介するシステムを持つことになります。すべての質問に答え、常に私たちと一緒にいて、人類のすべての知識の保管庫となるでしょう。
これはインターネットのようなインフラストラクチャのようなものに感じます。製品というよりはインフラです。
このAIプラットフォームはオープンソースでなければなりません。IBMの皆さんには説得する必要はないでしょう。IBMとメタはAIアライアンスと呼ばれるものの一部で、オープンソースAIを推進しています。
ダリオがこれを先導してくれたことに本当に感謝しています。IBMの皆さんにも。
これらのプラットフォームをオープンソースにする必要があります。なぜなら、これらのAIアシスタントは多様である必要があるからです。世界のすべての言語、すべての文化、すべての価値体系を理解する必要があります。
アメリカの西海岸や東海岸の一企業が生み出した単一のアシスタントからは、それは得られません。世界中からの貢献が必要になるでしょう。
もちろん、最終モデルを訓練するのは非常に高価なので、一部の企業しかできません。だから、メタのような企業がこれらのベースモデルをオープンソースで提供できれば、世界中の人々が自分の目的のためにそれらを微調整できるのです。
これがメタが採用している哲学で、IBMも同様です。
オープンソースAIは単に良いアイデアではありません。文化の多様性のため、そして民主主義の保護のためにも必要なのです。
訓練と微調整はクラウドソーシングされるか、スタートアップやその他の企業のエコシステムによって行われるでしょう。これが本当にAIスタートアップのエコシステムを活性化させたのです。これらのオープンソースAIモデルが利用可能になったことです。
人間レベルのAIに到達するのにどれくらい時間がかかるでしょうか。わかりません。何年もかかるかもしれないし、数十年かかるかもしれません。大きな不確実性があります。
解決すべき問題がたくさんあり、おそらく私たちが考えている以上に難しいでしょう。一日で起こることではありません。段階的な進化のようなものになるでしょう。
AIの秘密を発見して機械の電源を入れたら、すぐに超知能が生まれて私たち全員が超知能システムに殺されるなんてことはありません。そんなふうには起こりません。
機械は人間の知能を超えるでしょうが、制御下にあります。目的志向だからです。私たちが目標を与え、それらの目標を達成するのです。
ここにいる多くの人たちと同じように、私も産業界やアカデミアのリーダーです。私より賢い人々と一緒に仕事をしています。私と一緒に働いている人の多くは私より賢いです。でも、だからといって彼らが支配したり乗っ取ろうとしたりはしません。
これが全体の話です。リスクはありますが、それは質疑応答セッションに残しておきます。どうもありがとうございました。

基調講演：ヤン・ルカン「人間レベルのAI」

いいなと思ったら応援しよう！