人工知能って一体何なの? | ヤン・ルカン × ニキル・カマス | People by WTF エピソード #4

2024年11月29日 20:37

21,591 文字

おはようございます、ヤンさん。お時間いただきありがとうございます。まず最初に、あなたのことをもう少し詳しく教えていただきたいんです。生まれてから今日に至るまでの経緯を少しお話しいただけますか?
はい、私はパリ郊外で育ちました。父はエンジニアで、ほとんど全てのことを父から学びました。子供の頃から科学技術に興味があり、将来はエンジニアになりたいと思っていました。科学者になる方法は分かりませんでしたが、後になって興味を持つようになりました。
エンジニアと科学者の違いは何でしょうか?
それを定義するのは非常に難しく、実際には両方の側面を持つ必要があります。科学者は世界を理解しようとし、エンジニアは新しいものを作ろうとします。しかし、世界を理解するためには新しいものを作る必要があることが多いんです。科学の進歩は、データを収集できる技術の進歩と密接に結びついています。
例えば、望遠鏡の発明によって惑星の発見や、惑星が太陽の周りを回っているという発見につながりました。顕微鏡もまた様々な発見の扉を開きました。このように、技術が科学を可能にするんです。
私が長年取り組んできた課題は、知能の神秘を解き明かすことです。エンジニアとして、それを実現する唯一の方法は知的な機械を作ることだと考えています。これには知能とは何かを理論レベルで理解するという科学的な側面と、より実践的な側面の両方があります。そして当然、知的な機械を作ることは人類にとって重要な意味を持つ可能性があります。
パリの学校では何を学んでいたんですか?
電気工学を学びました。しかし、学年が上がるにつれて、数学や物理学、そしてAIといったより基礎的な問題に興味を持つようになっていきました。コンピュータサイエンスは学んでいません。もちろん、1980年代、そして70年代後半に電気工学を学び始めた頃から、コンピュータは常に関係していましたが。
数学の教授と一緒にAIに関する独自のプロジェクトをいくつか手がける機会があり、研究にのめり込んでいきました。私の最も好きな活動は、新しいものを作り、発明し、そして物事を新しい方法で理解することです。
「AIの教父」という呼び名についてどう感じますか?
その呼び名は特に好きではありません。私はニュージャージーに住んでいますが、そこでは「教父」というとマフィアのことを指します。科学は決して個人的な追求ではありません。複数の人々のアイデアが衝突することで進歩が生まれるんです。
仮説を立て、その仮説が正しいことを、あなたのアイデアや世界の精神モデルが機能することを実証することで示そうとします。これは孤立した活動ではありません。常に多くの人々が進歩に貢献しているのです。
しかし、世界の仕組み上、私たちは少数の人々しか覚えていません。もっと多くの人々に功績を認めるべきですが、多くの人々に功績を帰属させる良い記憶の方法を持っていないんです。
現在、NYUで教鞭を執られていますが、そこでは有名人扱いですか?
ここ数年は、授業の後に学生たちが近づいてきて、セルフィーを撮りたがることがあります。そういった面は少しありますね。同じ部屋にいる誰かと一緒にいる時は、そのセッションをインタラクティブにすることが重要だと思います。そうでなければ、ただビデオを見るだけになってしまいますから。だから、学生たちと積極的に関わろうとしています。
研究や学術分野でヒーローになることは、スポーツや起業家精神でヒーローになることと似ていますか? それとも、より難しいですか?
科学の分野にもヒーローがいることは嬉しいことです。ニュートンやアインシュタインなどがいました。ニュートンは公的な人物というわけではありませんでしたが、ケンブリッジにいました。しかしアインシュタインは確かにそうでしたね。
ある程度、他の科学者たちもマイナーな有名人でした。科学的な成果からそういった評価を得る面もありますが、正直なところ、科学的な貢献をしながらも全く無名の人々が大勢いて、それは少し残念なことだと思います。
科学技術の分野で著名になった人々の多くは、単に科学的成果だけでなく、公の場での立場表明によるところも大きいです。私が他の科学者たちと少し違うのは、ソーシャルネットワークでの発信や公開講演を積極的に行い、技術的な問題だけでなく、ある程度政策的な問題についても強い意見を持っているということでしょう。それが人気や、場合によっては不人気を増幅させているのだと思います。一部の人々からは完全な馬鹿だとみなされていますよ。
ヤンの視点から見て、世界の3つの問題は何でしょうか?
科学者として、世界の因果モデルを確立しようとします。私たちが目にする結果があり、その原因は何かという問いがあります。私たちが抱える問題のほとんど全ての原因は、人間の知識や知能の欠如にあります。
私たちは賢くないために間違いを犯し、賢くないために問題があることに気付けず、解決策を見つけられません。解決策を見つけるために自分たちを組織化するのに十分な賢さがないんです。
例えば、気候変動は大きな問題です。政治的な問題や、世界や政府をどう組織化するかという問題もありますが、気候変動に対する技術的な解決策の可能性もあります。もっと賢ければ、より早く解決策を見つけられるのにと思います。
人間は自分たちが何をしているのか分かっていないということですか?
いいえ、私たちが間違いを犯すのは、もう少し賢ければ、世界の仕組みについてより良い精神モデルを持っていれば、問題をより良く解決できるからだと思います。これはAIでも中心的な問題です。より合理的な決定を下すことができるでしょう。
今日の世界で私が見る大きな問題は、事実を見つけることに興味がなく、自己教育に興味がない人々です。あるいは興味はあっても、そのための手段がない、情報や知識にアクセスできない人々がいます。
私たちができる最善のことは、そして私が教授になった理由かもしれませんが、人々をより賢くすることです。AIに取り組む最も良い理由の一つでもあります。AIは人間の知能を増幅させ、人類全体の知能を高めるからです。
これが私たちが抱える多くの問題を解決する鍵だと思います。
私はAIやテクノロジーに関しては全くの素人で、知識もあまりありません。最近になって学ぼうとしていて、非常に興味はあるのですが、十分な知識がありません。私たちを含め、今日見ている人々の多くは、主にインドを拠点とする起業家志望の人々です。私たちはAIについての推測を耳にし、ポジティブな面でもネガティブな面でも極端なケースについて聞いています。
今日は、私たち全員のために、AIとは何か、どのようにしてここまで来たのか、そしてこれからどうなるのかを理解したいと思います。今日を3つのパートに分けるとしたら、AIとは何かから始めましょうか?
はい、それは良い質問です。そもそも知能とは何かということですね。AIの歴史の中で、AIとは何かという問題は、象と盲人の話のようなものです。知能には非常に異なる側面があり、AIの歴史の中で、人々は知能の一つの見方に取り組み、他の全ての側面を基本的に無視してきました。
1950年代にAIで取り組まれた知能の初期の側面の一つは、推論についてでした。私たちはどのように推論するのか、論理的にどのように推論するのか、新しい問題の解決策をどのように探すのかということです。
50年代に人々は、今ではAIやコンピュータサイエンスのスタートアップの問題となっているような問題に気付きました。例えば、いくつかの都市が与えられ、全ての都市を通過して、最短の経路、つまり都市を一周する最短の回路を見つけなければならないという「巡回セールスマン問題」があります。
彼らは、あらゆる推論を問題解決の探索として定式化できると言いました。可能な解決策の空間があり、良い解決策を見つけたかどうかを示すもの、あるいは経路の長さを示す数値があり、最短の経路を探すだけです。
ある程度、あらゆる推論問題をこの種の問題に還元できます。数学ではこれを最適化と呼びます。問題があり、解決策を評価できる数値があります。経路の長さが短ければその値は低く、長ければ高くなります。その値を最小化する解決策を探すのです。
私に知能とは何かと聞かれたら、一文で定義するのは途方に暮れるでしょう。
それは象の比喩に戻りますね。象の比喩を説明していただけますか?
象と盲人の話では、最初の盲人が象の横に触れて、壁のように見えると言い、次の人が足に触れて木のようだと言い、別の人が鼻に触れてパイプのようだと言います。誰も象の全体像を把握できていないんです。
様々な角度から見ているわけです。特定の問題の解決策を探すという知能のこの側面は、象の小さな一部分に過ぎません。知能の一つの側面ですが、全体ではありません。
しかし50年代には、AIの一つの分野がこの側面にのみ注目していました。その分野は1990年代まで支配的でした。AIは解決策や計画を探すことから成り立っていると考えられていました。
例えば、いくつかの物体を積み重ねる時、物体の大きさが異なる場合、積み重ねる順序を考える必要があります。目標に到達するための行動の順序を探すことを計画と呼びます。
あるいは、ロボットアームがあって物体を掴む必要があるけれど、前に障害物がある場合、物体を掴むためのアームの軌道を計画する必要があります。これら全てが計画であり、問題の解決策を探すことの一部です。
50年代に始まり90年代まで支配的だったAIのこの部分は、知覚のような側面を完全に無視していました。私たちはどのように世界を理解するのか、物体をどのように認識するのか、物体をその背景からどのように分離して識別するのかといった側面です。
また、論理や探索という観点ではなく、より抽象的な観点でどのように考えるのかということも基本的に無視されていました。
しかし、50年代に始まったAIの別の分野がありました。動物や人間に見られる知能のメカニズムを再現しようとしたのです。動物や人間には脳があり、脳は基本的に自己組織化します。脳は学習します。脳は自然に賢いわけではなく、知能は互いに接続された非常に単純な要素の大規模なネットワークから創発する現象なのです。
40年代から50年代にかけて、人々は知能や記憶が、簡略化された形で、ニューロン間の結合の強さから生まれることを発見し始めました。脳が学習する方法は、ニューロン間の結合の強さを修正することによってです。
そこで、人々はこれを理論モデル化し、実際に電子回路を作ってこれを再現しました。
つまり、知能を構築することは、主に特定の問題を解決する能力だったということですね。
はい、それが最初の見方です。特定の与えられた問題を解決する能力です。二つ目は学習能力です。
そしてこれがAIの二つの分野を生み出したんですね。
はい、学習能力から始まった方は、50年代後半から60年代初頭にいくつかの成功を収めましたが、60年代後半に衰退しました。60年代に考案された神経回路網の学習手順が極めて限定的であることが判明し、真に知的な機械を作るための方法がなかったからです。しかし、これはエンジニアリングの様々な分野、特にパターン認識と呼ばれる分野に大きな影響を与えました。
つまり、現在あなたは知能とはシステムが学習する能力でもあると言っているんですね。
はい、学習する能力であり、機械が学習を必要とする最も単純な状況は、知覚のため、つまり画像や音声を解釈するためです。
コンピュータはそれをどのように行っていたのでしょうか?
それが、いわゆる古典的なコンピュータサイエンスの出現につながったんです。プログラムを書き、そのプログラムが内部的に解決策を探索し、提案する解決策が良いかどうかをチェックする方法を持っています。
60年代にはこれをヒューリスティックプログラミングと呼んでいました。なぜなら、良い解決策を見つけるために全ての解決策を網羅的に探索することはできないからです。解決策の数が途方もなく大きいんです。
例えばチェスの場合、一定の数の手を指すことができますが、一手指すごとに相手も一定の数の手を指すことができ、それらの手に対してまた一定の数の手を指すことができます。そうすると、可能な軌道や手順の数が指数関数的に爆発してしまい、ゲームの最後まで全ての可能性を探索して最初にどの手を指すべきか決めることはできません。
そのため、ヒューリスティクスと呼ばれるものを使用して、可能性のグラフや木全体を探索しないようにする必要があります。
グラフで説明しますが、あなたが言っているのは、ヒューリスティックAIでは、ユーザーが入力を行い、一連のルールがあり、もしこれならこう、そうでなければこうといった関数を実行するツリー検索やエキスパートAIを使用して、最終状態に到達しようとするということですね。
はい、そうです。最終状態が定義され、プログラムは完全に人間によって書かれます。良いシステムと悪いシステムの違いは、システムが網羅的な探索を行わずに良い解決策を見つけることがどれだけ賢くできるかにあります。
それがヒューリスティックな部分です。少し異なるアプローチとして、論理に基づくものがあります。ルールと事実があり、既存の事実とルールからどのような事実を導き出せるかを考えます。これは論理式などを使用し、1980年代にはかなり支配的でした。
これはエキスパートシステムやルールベースシステムと呼ばれるAIの分野につながりました。ある程度、この探索のアイデアと非常に関連しています。
これと並行して、ボトムアップのアプローチがありました。生物学における知能の基本的なメカニズムを再現し、ある程度のインスピレーションを得て、機械に学習させ、基本的に自己組織化させようというアイデアです。
それはどのように行うのでしょうか?
神経科学者が脳で起こっていることを解明したのと同じアイデアに基づいています。脳の学習メカニズムは、ニューロン間の結合の強さを修正することで進行します。
人々は、この種の学習を機械で再現できるのではないかと考えました。まず、ニューロンが単純な計算要素であるという考えがありました。1940年代にマッキャロックとピッツのような数学者によってそのような提案がなされました。
そして50年代から60年代初頭にかけて、人々はニューロン間の結合の強さを変更するための非常に単純なアルゴリズムを提案し、タスクを学習できるようにしました。
この種の最初の機械は1957年に提案されたパーセプトロンと呼ばれるもので、非常に単純なものでした。理解するのも簡単です。
例えば、単純な形を認識するようにシステムを訓練したいとします。コンピュータや人工システムにとって画像とは何でしょうか?それは数値の配列です。今日ではデジタルカメラやピクセルに慣れているので分かりますね。
白黒カメラの場合、ピクセルが黒なら0、白なら1です。二値しか取りません。1950年代の技術でこれを構築する場合、レンズの前にフォトセンサーやフォトセルの配列を置きます。非常に低解像度で、おそらく20×20ピクセルかそれ以下です。
これにより、コンピュータに入力できる数値の配列が得られますが、1950年代にはコンピュータは非常に高価だったため、実際には電子回路を構築しました。ピクセルはフォトセンサーから出力される電圧でした。
そして単純な形を認識するようにシステムを訓練したい、例えばこの配列に描かれたCの形とDの形を区別したいとします。Cの例を示すと、システムは出力を生成します。この出力も電圧で、入力される値、つまり1か0のピクセルの重み付き和として計算されます。
重みは、値を変更できる抵抗器のような、シミュレートされたニューロンへの接続です。ニューロンは1か0を計算する電子回路に過ぎません。そして全てのピクセルがその重みと共に合計され、重み付き和がしきい値より大きければCで、小さければDとなります。
これは何年頃の話ですか?
1957年です。
では、どのように訓練するのでしょうか?
訓練は、これらの重みの値を変更することから成り立ちます。正または負の重みを持つことができます。Cを示すと、システムは重み付き和を計算します。Cの場合は重み付き和を大きく、例えば0より大きくしたいとします。
しかし、重み付き和が0より小さかったとしましょう。そうするとシステムは間違えたことになります。「いいえ、もっと大きくすべきだ」と伝えます。基本的にボタンを押して、出力をもっと大きくしたいと伝えるんです。
すると、システムは1を受け取る全ての重みを少し増やします。1を受け取る全ての重みを増やすと、重み付き和は増加します。これを続けて重みを少しずつ変更していくと、最終的に重み付き和は0を超え、システムはこれをCとして認識するようになります。
50年代、60年代にはこれを何に使用していたのでしょうか?
実際には、単純な形を認識する以外には、あまり実用的なことには使用されていませんでした。Cと Dを繰り返し示し、Cの場合は重み付き和を増やし、Dの場合は重み付き和を減らします。1を持つ重みを増やし、0を持つ重みを減らします。
最終的にシステムは、Cを示すとしきい値を超え、Dを示すとしきい値を下回るような重みの構成に落ち着きます。システムは、Cにのみ現れるピクセルに正の重みを、Dにのみ現れるピクセルに負の重みを与え、それによって二つを区別します。
50年代と60年代には、ヒューリスティックAI、エキスパートAI、生物学を模倣しようとする試みが全てあったということですね。
はい、50年代から始まり、基本的に二つの異なる分野が競合していました。AIの草創期の著名な人物の一人に、MITの教授だったマーヴィン・ミンスキーがいます。
ミンスキーの名前は、何かの条項や討論で読んだ記憶があります。
彼は物事について非常に強い意見を持っていたので、多くの議論がありました。興味深いことに、彼は50年代に神経回路網を構築しようとしてPh.D.を始めましたが、その後完全に考えを変え、より論理ベースで探索のアプローチを支持するようになりました。
60年代後半か中頃に、MITの数学者のセイモア・パパートと共著で本を書きました。タイトルは「パーセプトロン」で、本全体がパーセプトロンについての理論を展開し、パーセプトロンの能力が限定的であることを示すものでした。
当時、神経回路網に取り組んでいた人々は研究を続けましたが、研究の名称を変更しました。統計的パターン認識という、より真面目に聞こえる名前や、適応フィルター理論という、これも真面目に聞こえる名前を使用しました。これらは世界に大きな応用をもたらしました。
私の世界では、常にファイナンスやヘッジファンド、ファンドマネージャーが、パターンを認識するために神経回路網に大量のデータを入力しようとしてきました。これは50年代からの進化と同じものなのでしょうか?
その通りです。私が説明した係数を上下に変更して望む出力を得るプロセスは、ファイナンスをやっている方なら多分ご存知の線形回帰に非常によく似た反復的なプロセスと考えることができます。
しかし、ヤンさん、私が気付いたのは、今日でも、過去に収集したデータを操作して意味があるように見せることは非常に簡単ですが、金融活動は非常にランダムで、それに基づいてモデルを構築できるかどうか分かりません。
ええ、これはシステムをこのように訓練する際のより大きな問題に関係しています。一般的な原理は教師あり学習と呼ばれ、システムに入力を与え、出力を生成させ、望む出力でない場合は係数を調整して出力を望むものに近づけます。
出力を望むものに近づけるためにパラメータをどう調整するかを見つける効率的な方法があり、これを何百、何千、何百万、何十億もの例で続けると、システムが十分に強力であれば、最終的にそれを理解するようになります。
しかし、パーセプトロンの問題は、パーセプトロンがアクセスできる入出力関数の種類が非常に限定的だったことです。自然画像、つまり写真を入力して、そこに犬や猫、テーブルがあるかどうかを判定するようにシステムを訓練することは不可能でした。システムはそれほど複雑な関数を計算できるほど強力ではありませんでした。
これは1980年代のニューラルネットワークとディープラーニングが変えたことです。ちょっと待ってください、全体像を描こうとしているんですが、人工知能の上に機械学習があり、その下にニューラルネットワークがあると言えますか?
はい。パターン認識はその一部で、ディープマインドのような強化学習や、今最も人気のあるチャットGPTを例に挙げると自己教師あり生成的なものがあります。
実際には自己回帰型LLM（大規模言語モデル）と呼ぶべきものですね。
はい、適切な組織としては、上位にAIがあり、その下に機械学習があります。機械学習はAIの問題にアプローチする特定の方法です。その下にディープラーニングがあり、これは今日のAIのほぼ全ての基礎となっています。
基本的に、複数の層を持つニューラルネットワークですね。このアイデアは1980年代に遡り、バックプロパゲーションは今でも私たちが行う全ての基礎となっています。
いくつかのアーキテクチャファミリーがあります。畳み込みニューラルネットワーク、トランスフォーマー、そしてそれらの組み合わせです。トランスフォーマーの下にはいくつかの種類があり、画像認識や音声に適用できるもの、自然言語を表現できるが生成はできないものなどがあります。
そして、大規模言語モデルという下位カテゴリーがあり、これは自己回帰型トランスフォーマーです。トランスフォーマーには次の単語を予測できる特定のアーキテクチャがあり、これを使って単語を生成できます。
テキストが与えられると次の単語を生成するように訓練されているので、テキストを与えて次の単語を生成し、入力を1つずずらして、生成した単語を入力の一部にして2番目の単語を生成し、それをずらして3番目の単語、4番目の単語というように続けます。これが自己回帰的予測です。これは金融や計量経済学のARモデルと同じ概念です。
これはテキストには最適ですが、画像や動画などには適していないということですね。
その通りです。テキストで機能し、他のものでは機能しない理由は、テキストが離散的だからです。起こり得ることの数が有限なんです。辞書の中の単語の数は有限です。信号を離散化できれば、これらの自己回帰的予測システムを使用できます。
主な問題は、正確な予測は決してできないということです。そのため、システムは確率分布のようなものを学習するか、少なくとも異なる潜在的な出力に対して異なるスコアを生成する必要があります。
言語の場合のように可能性の数が有限であれば、確率のリストを出力できます。しかし、動画で何が起こるかを予測したい場合、可能なビデオフレームの数は本質的に無限です。
例えば、100万ピクセル、つまり1000×1000ピクセルの画像があり、ピクセルはカラーで3つの値があるとすると、生成しなければならない値が300万個あります。私たちは、300万個のピクセルを持つ全ての可能な画像の集合に対する確率分布を表現する方法を知りません。
しかし、これは多くの人が非常に興奮していることで、多くの人がAIの次の課題だと考えています。
基本的に、動画を見ることで世界の仕組みを学習できるシステムを持つことですね。動画や画像から学習することが次の段階だとすると、それは今のLLMが位置する場所にはないということですか?
いいえ、それは全く異なります。だからこそ、私はLLMが人間レベルの知能への道ではないと声高に主張してきました。LLMは離散的な世界では機能しますが、動画の場合のような連続的な多次元の世界では機能しません。
これが、LLMが物理的な世界を理解しない理由であり、現在の形では物理的な世界を本当に理解するために使用できない理由です。LLMは言語を操作する能力において驚くべきものですが、世界の仕組みを本当に理解していないことを示す非常に愚かな間違いを犯すことがあります。
これが、司法試験に合格したり、エッセイを書いたりできるシステムはあっても、家庭用ロボットや完全に自律的なレベル5の自動運転車がない理由です。あなたの猫が理解できるような非常に基本的なことを理解できるシステムがありません。
私は、最も賢いLLMでもあなたの家猫ほど賢くないと主張してきました。これは本当です。
そのため、今後数年間の課題は、LLMの限界を克服するAIシステムを構築することです。物理的な世界を理解し、永続的なメモリを持つシステムです。LLMは現在、本当の意味での永続的なメモリを持っていません。
永続的なメモリとは何ですか?
永続的なメモリとは、物事を覚えることができ、必要な時に事実を取り出せることです。
LLMは物事を覚えることはできないのでしょうか?
LLMが持つメモリには2種類あります。第一の種類は、訓練中に調整されるパラメータや係数の中にあります。何かを学習すると、それは実際の情報の断片を保存するというよりも、その小説の単語の統計について何かを覚えます。
小説についての一般的な質問に答えることはできるかもしれませんが、全ての単語を再現することはできません。人間と同じようなものです。小説を読んでも、特別な努力をしない限り全ての単語を覚えることはできません。
これが第一の種類のメモリです。第二のメモリは、入力するプロンプトのコンテキストです。システムは単語を生成でき、それらの単語やトークンが入力に注入されるので、これを一種のワーキングメモリとして使用できますが、非常に限定的な形式のメモリです。
私たちの脳が持つようなメモリが必要です。脳の中心部、大脳皮質の内側にある海馬と呼ばれる脳構造があります。海馬がないと、約90秒以上物事を覚えていることができません。
私たちが先ほど説明した知能から、自己教師あり学習までの道筋を描くとすると、動画や画像から学習し、より人間らしい知能を獲得するまでの道筋はどのように見えるでしょうか?
私が描こうとしている道筋は、LLMで使用される自己回帰アーキテクチャとは異なる、動画に適用可能な新しいアーキテクチャを発見することです。これにより、自己教師あり学習をそれらのシステムの訓練に使用できるようになります。
この種の自己教師あり学習は、基本的に「これが動画の一部です、次に何が起こるか予測してください」というものです。システムが動画で次に何が起こるかを予測する良い仕事ができるなら、おそらく世界の基礎的な構造についてかなり理解しているということです。
大規模言語モデルが次の単語を予測することによって、言語について多くを学習するのと同じようにです。
しかし、その仕組みを一言で説明するとどうなりますか?
問題は、先ほどお話ししたように、自己回帰アーキテクチャはテキストが離散的であるため機能するということです。次に何が来るかを予測することはできませんが、次に来るものの確率分布を生成できます。
画像や動画に対してこれを行うことはできません。数学的に複雑すぎるからです。それが扱えないことを示すことができ、等々です。基本的に、特定の動画セグメントに続く全てのピクセルを予測することは、私たちが興味を持っている問題に役立つ程度には不可能です。
私たちが望むのは、世界で何が起こるかを予測する能力を持つシステムです。なぜなら、それはシステムが計画を立てる良い方法だからです。
もし私がこのグラスに手を伸ばし、手を閉じて持ち上げれば、グラスを掴んで飲むことができます。特定の結果に到達するための一連の行動を計画できます。
世界の良いモデルがあれば、時刻Tの世界の状態は「グラスがテーブルの上にある」、取ろうとする行動は「グラスの周りに手を閉じる」、そして手を閉じて腕を上げた3秒後の時刻T+3の世界の状態は「グラスを手に持っている」となります。
このような世界モデル、つまり世界の状態、行動、次の世界の状態があれば、一連の行動の結果を予測できます。一連の行動を取ることを想像し、その結果を心の中で予測できます。
この結果が、水を飲む、一口飲むといった達成したい目標を満たすかどうかを予測できます。そして、古いAIの探索と結びつきますが、この目標を実際に満たす一連の行動を探索することができます。
これは、心理学者が「システム2」と呼ぶ種類の推論と計画です。ノーベル賞を受賞した心理学者のダニエル・カーネマンは、システム1とシステム2を区別しています。
システム1は考えずに取れる行動、無意識的で、単なる反応的なものです。システム2は、行動や一連の行動を生成できるように、意図的に計画し、考える必要があるものです。
ヤンさん、最終的にはメモリが答えになるのでしょうか?生物学的に見て、人間はメモリを通じて学習するからです。
それはどのタイプのメモリかによります。私たちにも複数のタイプのメモリがあります。先ほど言及した海馬は、子供の頃に起こったことなどの長期記憶や、世界についての基本的な事実、例えば母親がいつ生まれたかといったことを保存するために使用されます。
また、ここにどうやって入ってきたかなど、どこにドアがあるかといった、より最近の短期記憶、エピソード記憶、ワーキングメモリもあります。何かについて考えているとき、頭の中で物事を操作していると、一時的にデータを保存する必要があります。これが海馬です。
大脳皮質が計算を行い、基本的にこのメモリから読み取って更新します。コンピュータに少し似ていて、大脳皮質がCPUで、海馬は読み書きするメモリです。
しかし、現在のAIシステムの設計はそのようになっていません。LLMは、生成できるトークンを含むプロンプト以外の別個のメモリを持っていません。また、どの回答が正しいかを探索する能力も持っていません。
ただし、その能力を持ち始めています。OpenAIのClaude-1についてお聞きになったかもしれませんし、Metaやほかのところでも同様の研究が行われています。LLMに多くの異なる単語の列を生成させ、その単語のリストの中からどれが最適かを探索する方法という、非常に基本的な形式の推論が行われています。
しかし、これは非常に非効率的で、最終的にはこれが望むものではありません。
質問に戻りますが、私たちが世界を観察することから機械に学習させる方法について、動画から学習する方法として、動画の全てのピクセルを生成する生成的なアーキテクチャは使用できません。それは完全に非現実的です。私は15年近くこれを試みてきました。
5年前に、私たちは異なる方法を考え出しました。JEPAと呼ばれるものです。これは「Joint Embedding Predictive Architecture（結合埋め込み予測アーキテクチャ）」の略です。
レックス・フリードマンとのインタビューでJEPAについて長時間話すのを見ましたが、まだ理解できていません。
基本的なアイデアを説明します。理解できない部分があれば、別の方法で説明できます。
動画の一部を取り、その動画の続きの全てのピクセルを予測するために大きなニューラルネットワークを訓練する代わりに、動画を取ってエンコーダーに通します。エンコーダーは大きなニューラルネットワークで、動画の抽象的な表現を生成します。
そして動画の残りの部分、つまり将来の部分を同じエンコーダーに通します。
それはLLMで部分的なデータを削除してモデルを訓練するのと似ていますね。
そうです。LLMではテキストの一部を取り、残りのテキストを予測するように訓練します。これを単語ごとに行いますが、複数の単語を予測することもできます。
ここでも同じことをします。動画を取り、その続きを予測するようにシステムを訓練しますが、動画の全てのピクセルを予測する代わりに、それらの動画をエンコーダーに通して抽象的な表現を計算し、その表現空間で予測を行います。
つまり、ピクセルを予測する代わりに、それらのピクセルの抽象的な表現を予測します。基本的に予測不可能なものは全て表現から除外されています。
それは、今までの人生を動画に撮って、エンコーダーに通せば、明日についての何らかの表現が得られるという意味で、明日を予測するようなものですか?
はい、しかし抽象的なレベルでです。例えば、あなたはバンガロールにいて、いずれバンガロールに戻ると聞きました。バンガロールに戻るのにどのくらい時間がかかるかは予測できますが、バンガロールへの旅の間に起こる全ての詳細、交通状況を考慮して正確にどのくらい時間がかかるかは予測できません。
過去10年間の人生の動画データがあれば、3ヶ月先のことをどのくらい予測できますか?
これが興味深い質問です。非常に長期的な予測が可能ですが、予測できる期間が長くなればなるほど、予測できる表現レベルはより抽象的になります。
質問させてください。このアーキテクチャを構築して実装し、機能するようになり、私たちの人生の今までの動画がプログラムされていて、50年先を予測しようとした場合、何が見えると思いますか?気候変動や世界大戦でしょうか?
今後数年間で、動画から世界を理解できるシステムを構築する計画があります。おそらく、これらの世界モデルは行動条件付きになるでしょう。つまり、行動や一連の行動の結果を想像できるようになります。
おそらく、これらの世界モデルが階層的になるため、複雑な一連の行動を階層的に計画することができるようになります。非常に短期的で正確な予測ができる世界モデル、例えば、この特定の方法で筋肉を動かすと、100ミリ秒後には腕がこの特定の位置にあるという、非常に短期的だが正確な予測ができます。
そして、より長期的な予測、例えば空港に行って飛行機に乗れば明朝パリにいる、あるいは勉強して大学で良い成績を取れば良い人生を送れるといったことです。
このように長期的な予測ができ、持っている特定の基準を満たすための計画を立てることができます。
AIが未来を予測できるようになった場合、それはユートピアになるでしょうか、それともディストピアになるでしょうか?
それはユートピアになるでしょう。なぜなら、それは私たちの脳とは異なる方法で未来を予測し、特定の条件を満たす目標を達成するための行動の順序を計画する別の方法だからです。
おそらく、脳の限界のために人間には持てない能力を持つことができます。コンピュータは計算などができますからね。
つまり、この計画が成功した場合の未来は、今後5年から10年以内に、時間の経過とともに人間と同じくらい知的になるシステムを構築できるということです。10年以内に人間レベルの知能に到達する可能性があります。これは楽観的かもしれません。
5〜10年というのは、全てが順調に進み、私たちが立てた計画が全て成功し、予期せぬ障害に遭遇しない場合ですが、それはほぼ確実に起こらないでしょう。
AGIや人間レベルの知能は遠い将来のことだと、あるいは起こりそうにないと思っているのではありませんか?
いいえ、そんなに遠くないと思います。それがどのくらい先かについての私の意見は、サム・アルトマンやデマイスなどから聞くものとそれほど違いません。
10年以内に実現する可能性は十分ありますが、来年や2年後には起こりません。もっと時間がかかるでしょう。
LLMの能力を外挿して、より大きなコンピュータでより多くのデータを使って訓練すれば人間レベルの知能が現れるだろうと考えるべきではありません。そのようには機能しません。
これらの新しいアーキテクチャ、実世界から学習するJEPAシステム、階層的に計画を立てることができるシステム、一つの単語を次々に生成するだけでなく、考えながら行動の順序を計画できるシステムが必要になります。
つまり、システム1の代わりにシステム2ですね。LLMはシステム1で、私が説明しているアーキテクチャは目標駆動型AIと呼ばれ、これはシステム2です。
あなたの大学で授業を受けたいと思います。学生として受け入れていただけるかどうか分かりませんが、高校に戻って卒業しなければならないかもしれませんが、ぜひ受講したいと思います。
LLMについてまとめると、ニュースで取り上げられ、誰もが話題にしているLLMについて、問題を定義し、大規模なデータセットを見つけ、ほとんどの時間はデータのクリーニングに費やされ、モデルを選択し、モデルを訓練し、その前にモデルを微調整し、そしてモデルを実行するということですが、ここで何が変わるのでしょうか?
データの収集とフィルタリングの必要性、つまり高品質なデータを保持し、ジャンクを基本的に排除する必要性は依然としてあります。これは実際、全体の中でもかなり費用のかかる部分です。
しかし、その点で必要なことは、現在LLMは公開されているデータとライセンスデータの組み合わせで訓練されていますが、主に公開されているデータ、つまりインターネット上で公開されているテキストを使用しているということです。
これには多くの偏りがあります。その多くは英語で書かれています。ヒンディー語のような一般的に話される言語でもかなりのデータ量がありますが、インドの22の公用語全てではなく、ましてや700の方言全て、あるいはその数がいくつであれ、特に方言の多くは書き言葉ではなく話し言葉だけなので、十分なデータがありません。
将来必要なのは、より包括的なデータセットです。これにより、それで訓練されるシステムが、世界の全ての言語、全ての文化、全ての価値体系、全てを理解することができます。
これは単一の組織では不可能だと思います。だからこそ、私はAIの未来は、人類の全ての知識の保管場所として人々が使用する一種の共通インフラになると考えています。
これは単一の組織では構築できず、協力的なプロジェクトでなければなりません。世界中のデータで訓練できるモデルを持つために、データをどこかにコピーする必要がないよう、訓練が世界中に分散される必要があります。
余談になりますが、データセンタービジネスに投資するために検討していたのですが、多くの人々はコンピューティングは商品としてデータセンターの外で販売されるようになると言っています。インドからデータセンターを構築することにエネルギーと時間を費やすことは良いことでしょうか?各国が現在よりもデータを保持しようとする主権AIモデルを採用すると考えています。
私が言及した分散モデル訓練を含むそのような未来では、ローカルなコンピューティングインフラを持つことは非常に重要だと思います。はい、それは非常に重要です。
二つの理由があります。一つは、モデルを訓練するローカルな能力を持つことです。二つ目は、AIシステムの推論に非常に低コストでアクセスできることです。
なぜなら、例えば8億人のインド人にAIシステムを使用してもらいたい場合、それは非常に大きなコンピューティングインフラが必要になります。実際、訓練のためのインフラよりもはるかに大きなものが必要です。
訓練は現在NVIDIAが支配していますが、他のプレーヤーも出てくるでしょう。しかし、ソフトウェアスタックのために競争が難しいです。ハードウェアは本当に良いかもしれませんが、ソフトウェアスタックが課題です。
しかし、推論においては、より多くのイノベーションがあり、そのイノベーションがコストを下げています。LLMの推論コストは2年間で100分の1に下がったと思います。驚くべきことです。ムーアの法則よりもはるかに速いです。
まだ改善の余地は大いにあると思います。それが必要です。なぜなら、基本的に100万トークンの推論が数ルピーで済むようにする必要があるからです。インドでAIアシスタントを広く展開したい場合、これは大きな未来です。
時間が限られていることに気付きました、ヤンさん。インドの文脈に話を戻したいと思います。この番組を見ている人々は、先ほど言ったように、起業家や起業家志望の人々です。インドの20歳の若者で、AIでビジネスを立ち上げたい、AIでキャリアを築きたいと思っている人が、今日、今この瞬間に何をすべきでしょうか?
私なら、22歳で卒業する時にインドに良い博士課程のプログラムがあることを願うでしょう。
アカデミックな観点以外では?
いいえ、それが必要なんです。新しいものを発明する訓練をするために。
25歳の起業家の場合はどうでしょうか?
それでも博士号を、あるいは少なくとも修士号を取得することをお勧めします。なぜなら、本当に深く学びたいからです。
自分でそれを行うこともできますが、何が存在し、何が可能で、何が不可能かについてより多くを学び、才能ある人々を雇用する際の正当性を得るなど、多くの利点があります。AIのような複雑で深い技術分野では特にそうです。
博士号がなくても成功することはできます。それが問題ではありません。しかし、それは異なる視点を与えてくれます。
あなたは博士課程で研究をし、スタートアップを立ち上げています。新しいものを発明し、これが本当に違いを生む可能性のある新しい技術だと言える論文をいくつか発表していれば、資金を調達しやすくなるかもしれません。
さらに一歩進んで、知能について、AGIの側面は置いておいて、狭い知能、自動運転車、ロボットなど全てについて、私が資本主義的な側面を持つ狭い知能を使用できるサブセットを選ぶとすれば、何を構築すべきでしょうか?
今日、まさに今この瞬間では、AIに関する最も可能性の高いビジネスモデルは、LaMAのようなオープンソースの基盤モデルを取ることです。これは今やどこでも使用されているオープンソースシステムで、ほとんど全てのスタートアップが使用しています。大企業でさえも使用しています。
LLMや画像特徴抽出システム、セグメンテーションシステムなど、オープンソースのプラットフォームを取り、特定の垂直分野のアプリケーションに微調整し、その垂直分野の専門家になることです。
どの垂直分野を選ぶべきでしょうか? 先ほどお話ししましたが、上位3つを教えていただけますか?
最近、ビル・ゲイツにインタビューしましたが、彼は法律の周りのレイヤーの構築に焦点を当てることを勧めていました。法的プロセスは混乱の準備ができているからだと。
それは良い例です。他に1つか2つ選ぶとすれば?
B2Bには、法律、会計、ビジネス情報などがあります。例えば、特定の市場セグメントの競合状況についてのレポートが欲しい場合などです。フィンテック、ファイナンスは明らかな分野です。
企業内の全ての私的情報を提供するLLM、情報システムがあり、従業員が管理上のことなど何についても質問でき、答えを得ることができます。複数の内部ウェブサイトや情報システムを探す必要がありません。
これは確かに良いことです。特定の垂直分野向けにモデルを微調整できる企業には多くの仕事があると思います。
そして、より消費者向けの市場があります。様々なことのためのアシスタント、教育のためのものがあります。政府から契約を得られない限り、そこには大きなお金はありませんが、教育は確実に大きな応用分野です。
おそらく、もう一つの大きな分野は健康です。特に発展途上国では、LLMを使用して医療支援を提供する企業が多く設立されています。
LLMを使用して「このような症状があるのですが、病院に行くべきでしょうか」とか「このような問題があります」といった相談ができます。医師の予約を取るよりもずっと簡単です。
世界の特定の地域では、実際の医師に会うことが基本的に不可能です。都市まで移動しなければならないかもしれません。そのため、これは有用だと思います。
特に、地方部での応用、AIアシスタントが現地の言語で話し、読み書きにあまり慣れていない人々にサービスを提供できるような応用があります。
あなたの言語で音声を通じてAIアシスタントと対話することで、農業など、あらゆる種類の応用が開かれます。
起業家からの視点を投資家の視点に変えた場合、投資家はAIへの投資からどのような利益を得られるでしょうか? NVIDIA、LaMA、Meta、ChatGPT、OpenAIなどでしょうか?
5年後の未来を想像することが重要です。基本的にそれはオープンソースのプラットフォームが支配することになります。
組み込みデバイスやオペレーティングシステムの世界がLinuxに支配されているのと同じ理由です。世界全体がLinuxで動いていますが、20年前、25年前はそうではありませんでした。
オープンソースのプラットフォームの方が移植性が高く、より柔軟で、より安全で、より安価であるため、そうなったのです。
これについて私が功を主張すべきではありませんが、カシュという私たちのCTOがいて、彼はこの大きな支持者で、私たちが行うことは全てオープンソースで、オープンソース企業に資金を提供するファンドも持っています。
世界はオープンソースになり、数年以内にオープンソースのAIプラットフォームを持つことになるでしょう。おそらく分散型で訓練され、単一の企業によって完全に管理されることはないでしょう。
専有エンジンは、今日ほど重要ではなくなると思います。なぜなら、オープンソースプラットフォームがパフォーマンスの面で追いついてきているからです。
また、微調整されたオープンソースエンジン、例えばLaMAは、微調整されていない一般的なトップパフォーマンスモデルよりも常に良く機能することが分かっています。
しかし、全てがオープンソースになれば、投資家が投資するための差別化要因は何になるのでしょうか?
それはエコシステムを可能にします。スタートアップならば、APIを使用するよりも、オープンソースエンジンを使用して顧客向けに調整された製品を構築する方がはるかに良いでしょう。
これが第一のポイントです。第二に、この技術を本当に民主化し、最終的にはスマートグラスなどを使って誰もが使用できるようにしたいのですが、まずはスマートフォンから始めます。
テクノロジーとの対話形式は、スマートフォンから別の種類のデバイスにすぐに移行すると思いますか?
はい、スマートグラスですね。それについてはほぼ疑問の余地がありません。
あなたは使用されているんですね。
今は持っていませんが、鞄の中にあります。常に使用しています。AIを使用しなくても、写真を撮ったり音楽を聴いたりするだけでも本当に便利です。
そしてAIアシスタントがあれば、外国の文字や言語のメニューがあるレストランで、それを翻訳してもらうことができます。
このように全てが変化する中で、知能と社会はどうなるのでしょうか?コンピュータとAIは一旦置いておいて、人間にとって、その世界での知能とは何でしょうか?
人々の知能は、今日私たちが取り組もうとしているタスクとは異なるタスクに移行するでしょう。今日私たちが取り組もうとしている多くのことはAIシステムによって行われるようになるため、私たちは他のタスクに焦点を当てることになります。
物事を行うのではなく、何を行うかを決定したり、何を行うべきかを考えたりすることです。これらは二つの異なることです。
会社の低レベルの従業員と上級管理職の違いを考えてみてください。低レベルの従業員は何をすべきか指示され、それを行うだけです。一方、上級管理職は戦略を考え、何をすべきかを考え、部下に何をすべきか指示します。
私たち全員がボスのようになり、上級管理職のようになります。AIシステムに何をすべきか指示しますが、必ずしも自分でそれを行う必要はありません。
しかし、タスクを実際に行う今日よりも、何かをより効率的に行うよう指示する人は少なくて済みますね。他の人々はどうなるのでしょうか?
私は、誰もがそのような状況にあり、AIアシスタントにアクセスでき、多くのタスクを委任できるようになると思います。主に仮想世界でですが、最終的には実世界でも、家庭用ロボットや自動運転車などができるようになるでしょう。
システムが動画から実世界の仕組みを学習する方法を解明できれば、ですが。そうすれば、私たちが集中できるタスクの種類はより抽象的になります。
誰も超高速な暗算をする必要がなくなったのと同じように、電卓があるからです。あるいは微分方程式の積分を解くにしても、基本的な方法は学ぶ必要がありますが、コンピュータツールを使用できます。
これにより、私たちが身を置くことができる抽象化のレベルが上がり、基本的により創造的に、より生産的になることができます。
あなたと私が学んできた多くのことを、私たちの子孫は学ぶ必要がなくなります。機械が面倒を見てくれるからです。
学校に行くことはどうですか?
いいえ、まだ学校に行きます。自己教育は必要で、他の人々よりも何かをより良く、あるいは異なる方法で、より創造的に行うための人間同士の競争は常にあるでしょう。
本質的に、私たちは競争したいと思うんですね。
はい。経済学者が私に言うには、問題がなくなることはないので、仕事がなくなることはありません。AIの助けを借りて問題により良い解決策を見つけることができるでしょう。
今日の最後に、知能とは本当に何かを定義しようと思います。私は、知能とは情報の集合と新しいスキルを吸収する能力だと書き留めていました。
それは、スキルの集合と新しいスキルを非常に速く学習する能力、あるいは学習せずに問題を解決する能力です。AIの世界ではこれをゼロショットと呼びます。
新しい問題に直面したとき、しばらく考えて、同様の問題に直面したことがなくても、ただ思考し、状況の精神モデルを使用することで解決できます。これがゼロショットです。新しいスキルを学習するのではなく、一から問題を解決するのです。
これら三つの組み合わせ、つまり、すでに持っているスキルの数、問題解決やタスクの達成の経験、新しいタスクを数回の試行で非常に速く学習する能力、そして次のステップとして、新しいことを学習せずに新しい問題をゼロショットで解決する能力、これらの組み合わせが本当の意味での知能です。
ヤンさん、お時間を取っていただき、ありがとうございました。あなたが教鞭を執られているところで講座を受講する方法を考えてみます。大学に私の席を用意するよう推薦していただければと思います。いくつかの講義を受講できればと思います。
もっと良い方法があります。2021年版の私のディープラーニング講座が、全てインターネットで無料で公開されています。全てYouTubeにあり、全ての問題、宿題、全てが含まれています。
昔の学校に戻るような気がします。直接あなたの前で学ぶことには独自の価値があると感じます。
試してみます。本当にありがとうございました、ヤンさん。
ありがとうございます。楽しかったです。
はい、楽しかったです。退屈しませんでしたか?教授に話をしてもらうのは...それが仕事ですが、あなたよりもはるかに知識の少ない人々と話をするのは、常に楽しいわけではないでしょう。
それは一つの技術です。私は特に上手だとは主張しませんが、一生懸命努力しています。概念を単純化しようとするなどです。
インドでは多くの人々がAIについて話していますが、私たちの現在の状況に至った背景を実際に理解している人は非常に少ないと思います。
それは世界中で同じです。インドだけではありません。実際、インドでは逆で、特に若い人々の間で、自己教育をしようとする人々が多くいます。
今日は、そこに焦点を当てたいと思いました。私たちの番組は、多くの若い、優秀な人々が視聴しています。今日の状況に至った経緯を理解してもらうことを重視しました。
それは重要だと思います。なぜなら、人々に、自分にもできるという確信を持たせるのに役立つからです。
私はフランスで工学を学びましたが、エリート校や同等の学校に行ったわけではありません。普通の学校に通いました。また、有名な人の下で博士課程を行ったわけでもありません。
フランスにいて、誰も読まないような、ひどいフランス語の論文を書いていましたが、何かを成し遂げることができました。時々、人々は私に「ハーバードやMIT、スタンフォードに行かなくても、インパクトのあることができると確信させてくれた」と言ってくれます。
ありがとうございました。

人工知能って一体何なの? | ヤン・ルカン × ニキル・カマス | People by WTF エピソード #4

いいなと思ったら応援しよう！