ジェフリー・ヒントン「デジタル知能は生物学的知能に取って代わるのか?」
※長文のため、テキストの読み上げ機能の使用を想定しております。各OS標準搭載のアクセシビリティ機能(読み上げコンテンツ)でも良いですが、個人的にはMicrosoft Edgeブラウザの「音声で読み上げる」機能をおすすめします。
皆さん、こんばんは。私はメラニー・ウッディンと申します。トロント大学芸術科学部の学部長を務めさせていただいております。ここで、トロント大学が立地する土地について認識しておきたいと思います。何千年もの間、この地はヒューロン・ウェンダット族、セネカ族、クレジット・ミシサガ族の伝統的な土地でした。今日もなお、この集会の場所はタートル・アイランド全域から多くの先住民の故郷となっています。私たちはこの地で働く機会を得られたことに感謝しています。
今夜の共催者であるシュワルツ・ライズマン技術社会研究所、コンピューター・サイエンス学科、ベクター人工知能研究所、そしてコズミック・フューチャー・イニシアチブに感謝申し上げます。近い将来、芸術科学部のコズミック・フューチャー・スクールとなる予定です。また、この夜の幕開けに素晴らしい音楽を奏でてくださったマニュエル・ピアッツァ氏に感謝申し上げます。
(聴衆拍手)
本日の特別な機会に皆様をお迎えできることを大変うれしく思います。紹介の必要のないジェフリー・ヒントン名誉教授をご紹介いたします。今夜、私たちはジェフ・ヒントン博士の人工知能の現状に関する考えをお聞きし、Q&Aを通じて直接対話する貴重な機会を得ることができます。
人工知能の創始者の一人であるジェフ・ヒントン博士は、人工ニューラルネットワークが機械学習を加速させる最も有望な方法であるという揺るぎない信念を持っていました。私自身、脳を研究することに生涯を捧げた神経科学者として、AIと神経科学の共生関係に長年インスピレーションを受けてきました。ChatGPTから自動運転車まで、私たちが目にしてきた驚くべき進歩は、脳の構造と機能に関する知識に根ざしています。
今日では、シナプス伝達と可塑性をモデルにした人工ニューラルネットワークが機械学習アプリケーションの主流であることを当たり前のように考えています。AIシステムはこれらのネットワークを使ってパターンを認識し、決定を下し、データから学習します。しかし、ヒントン博士のキャリアの大半において、このアプローチは不人気でした。行き詰まりだと言う人さえいました。
しかし、2000年代に状況が変化しました。ヒントン博士のニューラルネットワークを層に分割し、一度に1層ずつ学習アルゴリズムを適用するというアイデアが注目を集めるようになりました。2012年、ヒントン博士と2人の大学院生、アレックス・クリジェフスキーとイリヤ・サツケヴァーは、ディープラーニングのアプローチを使って視覚認識ソフトウェアを作成し、ImageNet競技会で圧倒的な勝利を収め、初めて人間の精度に匹敵するものとなりました。
2021年にUofTから名誉学位を授与された際、ジェフ・ヒントンは自身のキャリアを振り返り、こう語っています。「この話から得られる教訓は、自分が正しいと思うアイデアを決して諦めてはいけないということです。そして、本当に賢い大学院生を見つけることです。」
(聴衆笑い)
ジェフ、その考えに同意します。幸いなことに、トロント大学には本当に優秀な大学院生がいます。今夜も多くの方々がここにいらっしゃっています。
今日もAIと神経科学の対話は続いています。神経科学の発見がAIシステムの開発に情報を提供するのと同様に、AIは現在、脳を研究するための新しいツールと技術を提供しています。ディープラーニングアルゴリズムの進歩とコンピューターの処理能力の向上により、例えば、人間の全脳イメージングのような巨大なデータセットを分析することが可能になっています。
実際、AIは私たちの生活や仕事の仕方を変革しようとしています。AIの機会とリスクを考える、この重要な時期に、これらの会話を導いてくれる人物として、ヒントン博士自身以上に適任な人はいないでしょう。
それでは、正式に彼をご紹介いたします。ジェフリー・ヒントンは1978年にエディンバラで人工知能の博士号を取得しました。カーネギーメロン大学で5年間教鞭を取った後、カナダ先端研究所のフェローとなり、トロント大学コンピューター・サイエンス学科に移りました。現在は名誉教授を務めています。2013年、Googleはヒントンのニューラルネット・スタートアップDNN Researchを買収しました。これはUofTでの研究から発展したものです。その後、ヒントンは2023年までGoogleの副社長兼エンジニアリングフェローを務めました。彼は人工知能研究所ベクター・インスティテュートの創設者であり、引き続き主任科学顧問を務めています。
ヒントンは、バックプロパゲーション・アルゴリズムを導入した研究者の1人であり、この手法を使って単語埋め込みを学習する最初の人物でした。ニューラルネット研究へのその他の貢献には、ボルツマンマシン、分散表現、時間遅延ニューラルネット、専門家の混合、変分学習、そしてディープラーニングが含まれます。トロントの彼の研究グループは、音声認識と物体分類に革命をもたらしたディープラーニングにおける大きなブレークスルーを成し遂げました。彼は世界で最も引用されているコンピューター科学者の1人です。
ヒントンは英国王立協会、カナダ王立協会、人工知能発展協会のフェロー、そして米国工学アカデミーと米国芸術科学アカデミーの外国人会員です。彼の受賞歴には、デイビッド・E・ルメルハート賞、IJCAI研究卓越賞、工学分野のキラム賞、IEEE フランク・ローゼンブラット・メダル、NSERC ハーツバーグ金メダル、NECおよびC&C賞、ホンダ賞、そして最も注目すべきは、しばしばコンピューティングのノーベル賞と呼ばれるA.M.チューリング賞が含まれます。
それではこれ以上前置きは置いて、ジェフ・ヒントンに「デジタル知能は生物学的知能に取って代わるのか」というタイトルの講演をお願いしたいと思います。よろしくお願いします。
(聴衆拍手)
(厳かなオルガン音楽)
ヒントン: はい、忘れる前に、忘れそうなので言っておきますが、これら全てを企画してくださったシーラ・マキルレイスに感謝したいと思います。彼女は全てを素晴らしく組織してくれました。全ての問題を解決するために頼りにできる人物でした。ですので彼女に感謝したいと思います。最後に忘れそうなので。
(聴衆拍手)
さて、聴衆は非常に多様なので、全ての方程式を削除しました。方程式はありません。技術的な話をするのではなく、2つのことに焦点を当てることにしました。2つのメッセージを伝えたいと思います。
1つ目のメッセージは、デジタル知能はおそらく生物学的知能よりも優れているということです。これは落胆するようなメッセージですが、私はそう信じています。
2つ目は、GPT-4のような大規模言語モデルが本当に自分の言っていることを理解しているという理由を説明しようと思います。それらが本当に理解しているかどうかについては多くの議論がありますが、私は詳しく説明して、皆さんに理解していると確信してもらおうと思います。
最後に、それらが主観的な経験を持っているかどうかについて話しますが、私の信念については最後まで待っていただく必要があります。
デジタル計算の全体的な考え方は、ハードウェアとソフトウェアを分離して、同じ計算を異なるハードウェアで実行できるようにすることです。つまり、コンピューターが学習したり与えられたりする知識は不滅です。ハードウェアが死んでも、常に別のハードウェアで実行することができます。
その不死性を実現するためには、指示のレベルで正確に指示通りに動作するデジタルコンピューターが必要です。そのためには、トランジスタを非常に高い電力で動作させて、デジタル的に、つまり2進法で動作するようにする必要があります。そのため、ニューラルネットワークが行う多くのことに非常に有用であるハードウェアの豊かなアナログ特性を全て使うことができません。
脳では、浮動小数点乗算を行う際、デジタル的には行われず、はるかに効率的な方法で行われます。しかし、プログラムを異なるハードウェアで実行できるようにするためには、そのようにはできません。
ハードウェアとソフトウェアを分離することには大きな利点があります。同じプログラムを多くの異なるコンピューターで実行できるからです。また、電子工学を知らなくてもコンピューター・サイエンス学科を持つことができるのも素晴らしいことです。
しかし、学習デバイスを持つようになった今、この基本原則を放棄することが可能になりました。おそらく、コンピューター・サイエンスで最も基本的な原則は、ハードウェアとソフトウェアを分離すべきだということです。しかし今や、コンピューターに望むことをさせる別の方法があります。詳細に正確に何をすべきかを指示する代わりに、単に例を示すだけで、コンピューターが自ら理解します。
明らかに、物事を理解できるようにする学習プログラムを誰かが書いたプログラムがそこにありますが、特定のアプリケーションについては、コンピューター自身がそれをどのように行うかを理解します。つまり、望むならこの原則を放棄することができるのです。
これは私が「死すべき計算」と呼ぶものにつながります。つまり、ハードウェアの正確な物理的詳細を、それが知っていることから分離できないコンピューターです。それを受け入れれば、脳と同じように、何兆もの重みにわたって並列化する非常に低電力のアナログ計算が可能になります。また、非常に正確に製造する代わりに、ハードウェアを非常に安価に成長させることができるかもしれません。そのためには多くの新しいナノテクノロジーが必要でしょう。
生物学的ニューロンを遺伝子工学で再設計し、生物学的ニューロンからハードウェアを成長させることさえできるかもしれません。なぜなら、生物学的ニューロンは学習の方法を長い時間かけて学んできたからです。
このようなアナログ計算の効率性と、デジタル計算との比較の例を1つ挙げたいと思います。
例えば、活性化したニューロンの集まりがあり、それらが別の層のニューロンにシナプスを持っているとします。次の層への入力を計算したいとします。必要なのは、これらの各ニューロンの活動を取り、接続の重み(シナプス強度)を掛け、ニューロンへの全ての入力を足し合わせることです。これをベクトル行列乗算と呼びます。
デジタルコンピューターでの方法は、各ニューラル活動を表すためのトランジスタの集まりと、各重みを表すためのトランジスタの集まりを持ち、それらを非常に高い電力で駆動して2進数になるようにします。乗算を素早く行いたい場合、32の2乗の1ビット演算を行う必要があります。
あるいは、脳のようにニューラル活動が単なる電圧であり、重みがコンダクタンスであるアナログ方式を使うこともできます。電圧にコンダクタンスを掛けると、単位時間あたりの電荷が生成されます。つまり、この電圧をコンダクタンスを持つものに通すと、反対側から電荷が出てきます。長く待てば待つほど、より多くの電荷が出てきます。電荷の良いところは、自然に加算されることです。ニューロンでもそうなっています。
これは非常に効率的です。電圧がコンダクタンスを通過して電荷を生成するだけで、浮動小数点乗算が行われています。比較的遅くても、1兆通りの並列処理ができれば問題ありません。そのため、これらのデジタルモデルが学習し、並列で多くのコピーを持つ場合のように1メガワットではなく、脳のように30ワットで動作する機械を持つことができます。
つまり、大きなエネルギー効率が得られますが、同時に大きな問題も生じます。この死すべき計算の全体的なアイデアを機能させるためには、そのハードウェアの正確な特性を知らずにアナログハードウェアで動作する学習手順が必要です。これにより、バックプロパゲーションのようなものを使用することは不可能になります。
バックプロパゲーションは、現在ほぼすべてのニューラルネットで使用される標準的な学習アルゴリズムですが、学習方法を伝えるために後方にメッセージを送るには、順方向パスで何が起こるかを知る必要があります。順方向パスの完全なモデルが必要ですが、このような死すべきハードウェアではそれを持つことができません。
人々は、バックプロパゲーションと同じくらい優れた生物学的に妥当な学習手順を見つけるために多くの努力を払ってきました。私は過去2年間それに取り組みましたが、他の多くの人々はさらに多くの努力を注いできました。100万個の接続強度を持つような小規模なシステムでは、かなりうまく機能する手順を見つけることができます。バックプロパゲーションに匹敵し、ほぼ同じくらい良いパフォーマンスを得られ、比較的速く学習します。
しかし、これらの手法は拡張性がありません。本当に大きなネットワークに拡張すると、バックプロパゲーションほどうまく機能しません。これが死すべき計算の1つの問題です。
もう1つの大きな問題は、明らかにハードウェアが死ぬと知識がすべて失われることです。知識がすべて混ざっているからです。その特定のハードウェアのコンダクタンスであり、異なるハードウェアではニューロンがすべて異なります。そのため、単に重みをコピーするだけでは知識をコピーすることはできません。
知識を保持したい場合の最良の解決策は、古いコンピューターを教師として、若いコンピューターに知っていることを教えることです。古いコンピューターは入力を取り、若いコンピューターに正しい出力がどうあるべきかを示すことで教えます。例えば1000のクラスがあり、1000クラス全てに対して実数値の確率を示す場合、実際に多くの情報を伝えています。これは蒸留と呼ばれ、機能します。デジタルニューラルネットでそれを使用しています。
1つのアーキテクチャがあり、その知識を完全に異なるデジタルアーキテクチャに転送したい場合、蒸留を使用してそれを行います。デジタルコンピューター間で知識を共有できる方法ほど効率的ではありません。
実際のところ、トランプのツイートの仕組みはこれと同じです。状況を取り上げ、その状況に対する偏見のある反応をフォロワーに示し、フォロワーは同じ反応を生み出すことを学びます。彼が言ったことが真実ではないと言うのは的外れです。それが重要なのではありません。重要なのは、偏見をフォロワーに蒸留することであり、それは非常に効果的な方法です。
基本的に、エージェントのコミュニティが知識を共有する方法には2つの非常に異なる方法があります。知識の共有について少し考えてみましょう。なぜなら、それが死すべき計算と不死の計算、つまり生物学的計算とデジタル計算の大きな違いだからです。
デジタルコンピューターがあり、同じモデルの多くのコピーがある場合、つまり異なるハードウェア、異なるGPUで実行されている全く同じ重みを持つモデルがある場合、各コピーは異なるデータ、インターネットの異なる部分を見ることができ、何かを学ぶことができます。何かを学ぶということは、実際には、見ているデータからそのデータのより良いモデルになるために重みをどのように変更すべきかを抽出することを意味します。
インターネットの異なる部分を見ている何千ものコピーを持つことができ、それらはすべてそのデータのより良いモデルになるために重みをどのように変更すべきかを理解します。そして、それらはすべての変更を伝え合い、平均的な変更を行うことができます。これにより、何千ものモデルの1つ1つが、他の何千ものモデルがデータを見ることで学んだことから恩恵を受けることができます。
このような勾配の共有を行う場合、1兆の重みがあれば、1兆の実数を共有することになります。これは膨大な共有帯域幅です。おそらくトロント大学全体で1ヶ月間に行われる学習と同程度です。しかし、これは異なるエージェントが全く同じ方法で動作する場合にのみ機能します。だからこそデジタルである必要があるのです。
蒸留を見ると、異なるハードウェアを持つ異なるエージェントが異なることを学び、おそらくジャーナルに論文を発表することでそれらのことを互いに伝えようとしますが、それは遅くて苦痛を伴うプロセスです。
通常の方法を考えてみましょう。例えば、私が画像を見て、その画像に何が含まれているかを説明するとします。それは物事をどのように見ているかをあなたに伝えています。画像のキャプションには限られたビット数しかありません。そのため、伝達される情報量は非常に限られています。
言語は、単に良いか悪いか、このクラスかあのクラスかという応答を与えるよりも優れています。画像に何が含まれているかを説明すれば、より多くのビットを与えることになります。そのため、蒸留をより効果的にしますが、それでも数百ビットに過ぎません。1兆の実数のようなものではありません。
つまり、蒸留は、デジタルコンピューターが行うことができる、この勾配や重みの共有よりもはるかに低い帯域幅を持っています。
これまでの話をまとめると、デジタル計算には1メガワットのような多くのエネルギーが必要ですが、異なるエージェントが学んだことを共有する非常に効率的な方法があります。
GPT-4のようなものを見ると、それがどのように訓練されたかというと、モデルの多くの異なるコピーが異なるGPUで実行され、データの異なる部分を見て、その知識を共有しました。そのため、人間の何千倍もの知識を持っています。人間の接続数よりもはるかに少ない接続数しか持っていないにもかかわらずです。
私たちは約100兆個のシナプスを持っています。GPT-4はおそらく約2兆個のシナプス、つまり重みを持っています。イリヤは教えてくれませんでしたが、おそらくその程度の数です。つまり、はるかに多くの知識を持ちながら、はるかに少ない接続数しか持っていません。それは、人間が見ることができるよりもはるかに多くのデータを見たからです。
これは、これらのものが実際に行動を実行するエージェントである場合、さらに悪化します。なぜなら、何千ものコピーが異なる行動を実行できるからです。行動を実行する場合、一度に1つの行動しか実行できません。そのため、これらの何千ものコピーが学んだことを共有できるようにすることで、死すべきコンピューターが得ることができるよりもはるかに多くの経験を得ることができます。
生物学的計算ははるかに少ないエネルギーを必要としますが、知識の共有ははるかに劣っています。
では、大規模言語モデルを見てみましょう。これらはデジタル計算と重み共有を使用しているため、非常に多くのことを学ぶことができます。実際には、蒸留を通じて人間から知識を得ています。各個々のエージェントは人間が言ったことを模倣しようとしています。文書の次の単語を予測しようとしています。これが蒸留です。
実際には、人間が次の単語に割り当てた確率を予測するのではなく、実際の単語を予測しているので、特に非効率的な形の蒸留です。それは単にその確率分布からの確率的な選択であり、全確率分布と比較してごくわずかなビットしか伝えません。申し訳ありません、それは技術的な部分でした。二度とそのようなことはしません。
つまり、これは非効率的な形の蒸留であり、これらの大規模言語モデルはその非効率的な方法で人間から学ばなければなりませんが、学んだことを非常に効率的に組み合わせることができます。
ここで取り上げたい問題は、彼らが本当に自分の言っていることを理解しているかどうかということです。ここには大きな分裂があります。多くの古風な言語学者は、彼らが本当に言っていることを理解していないと言うでしょう。彼らはただテキストで見つけた規則性を統計的なトリックで継ぎ合わせているだけで、本当には理解していないと。
コンピューター・サイエンスでは、理解しているかどうかを判断するためのかなり広く受け入れられたテストがありました。チューリングテストと呼ばれるものです。GPT-4が基本的にチューリングテストに合格したとき、人々はそれがあまり良いテストではないと決めました。
(聴衆笑い)
私はそれが非常に良いテストだったと思いますし、それに合格したと思います。
人々が挙げる反論の1つはこうです。それは単に洗練された自動補完に過ぎません。次の単語を予測するように訓練されているだけで、それが全てです。何も理解していません。
人々がそう言うのは、自動補完に必要なものについて特定の考えを持っているからです。昔、自動補完を行う方法は次のようなものでした。すべての3つ組の単語の大きなテーブルを保持します。そして、「魚と」という単語を見たら、テーブルを見て「魚と」で始まるすべての3つ組を探し、次にどの単語が特によく出現するかを調べます。「魚とチップス」という3つ組が多く出現することがわかるでしょう。そのため、少なくとも英語では、チップスが非常に良い予測になります。
しかし、重要なのは、大規模言語モデルはそのように機能していないということです。次の単語を予測するという意味では自動補完を行っていますが、予測するために全く異なる方法を使用しています。それはチョムスキーのような人々が、統計では言語を扱えないと言ったときに念頭にあった統計的手法とは全く異なります。これらははるかに強力な統計的手法であり、基本的に何でもできます。
彼らがテキストをモデル化する方法は、テキストを保存することではありません。どこにも単語の文字列は保存されません。GPT-4の中にはテキストはありません。テキストを生成し、テキストを読み取りますが、内部にテキストはありません。
彼らが行うのは、各単語または単語の断片に(技術的な人々は実際には単語の断片だと知っていますが、単語と言う方が簡単です)数百個の数字、おそらく1000個の数字を関連付けることです。これらの数字はその単語の意味、構文、およびその単語に関するすべてを捉えることを意図しています。これらは実数なので、1000個の実数には多くの情報が含まれています。
そして、文の中の単語、予測したい単語の前に来た単語を取り、これらの単語が相互作用するようにします。そうすることで、単語に対して持っている意味を洗練します。意味と言いましたが、これは埋め込みベクトルと呼ばれます。その単語に関連付けられた一連の実数です。これらすべてが相互作用し、そして予測しようとしている出力単語に関連付けられる数字を予測します。そしてその一連の数字から単語を予測します。
これらの数字は特徴活性化と呼ばれます。脳ではニューロンの活性化に相当するでしょう。重要なのは、GPT-4が学習したのは、異なる単語または単語の断片の特徴活性化間の多くの相互作用だということです。そしてそれがどのように知識が保存されているかです。テキストを保存することとは全く異なります。
考えてみれば、次の単語を本当によく予測するためには、テキストを理解する必要があります。私が質問をして、あなたがその質問に答えたいとすれば、答えを得るためには質問を理解しなければなりません。
一部の人々は、おそらく理解する必要はないと考えているかもしれません。私の良き友人ヤン・ルカンは、実際に理解する必要はないと考えているようです。彼は間違っていて、いずれ考えを改めるでしょう。
(聴衆笑い)
これはヘクター・レヴェスクが私に提案した問題です。ヘクターはもう少し単純なもので、ペンキが褪せることを含まないものを提案しました。そしてGPT-4がそれを解けないだろうと考えました。なぜなら推論が必要で、ケースについての推論が必要だからです。そこで私はそれをもう少し複雑にしてGPT-4に与えました。すると、うまく解決しました。
後ろの方で読めない人のために読み上げます。「私の家の部屋は青か白か黄色に塗られています。黄色いペンキは1年以内に白に褪せます。2年後にはすべての部屋を白くしたいと思います。何をすべきでしょうか、そしてその理由は?」
GPT-4はこのように答えます。一種のケースベースの分析を提供します。「白く塗られた部屋は何もする必要がありません。黄色く塗られた部屋は塗り直す必要はありません。褪せるからです。青く塗られた部屋は塗り直す必要があります。」
毎回少し異なる答えを出します。もちろん、どこにもテキストを保存していないからです。その場で作り出していますが、正しく作り出しています。
これは推論の単純な例であり、時間を含む推論、1年で褪せるなら2年後には褪せているということを理解する推論などが含まれています。
このような例は多くあります。もちろん、失敗する例も多くありますが、このような例が多くあることから、私は彼らが本当に何が起こっているかを理解していると信じています。何が起こっているかを理解せずにこれをどのように行うことができるのか、私には分かりません。
LLMが本当に理解していないというもう1つの議論は、幻覚を生成するということです。時々、単に誤っていたり、ナンセンスなことを言ったりしますが、人々が特に懸念しているのは、明らかに虚偽のことを作り出しているように見える場合です。
言語モデルによって行われる場合、それは幻覚と呼ばれましたが、これは技術的な間違いでした。言語で行う場合は作話と呼ばれます。視覚で行う場合は幻覚と呼ばれます。
作話について重要なのは、それがまさに人間の記憶の仕組みだということです。私たちは記憶について、どこかにファイリングキャビネットがあり、出来事が起こると、それをファイリングキャビネットに入れ、後でファイリングキャビネットから取り出して思い出すというモデルを持っています。しかし、実際はそうではありません。
私たちは実際には出来事を再構築します。保存しているのはニューラル活動ではありません。重みを保存し、これらの重みといくつかの記憶の手がかりを使ってニューラル活動のパターンを再構築します。
最近の出来事、例えば学部長が冒頭で言ったことであれば、おそらくかなり正確にいくつかの文を再構築できるでしょう。「彼は紹介の必要がありません」と言って、そしてそれに続いて長い紹介をしたことを覚えていますね?
(聴衆笑い)
それを覚えていますね。そのため、正しく思い出し、文字通り保存したと思いますが、実際には重みから再構築しているのです。これらの重みはその後の出来事によって干渉されていないので、かなり正確です。
古い出来事の場合、記憶を再構築しますが、通常多くの詳細を間違えます。そしてそのことに気づきません。実際、人々は間違って思い出した詳細についても、正しく思い出した詳細と同じくらい自信を持っています。
これについて非常に良い例があります。ジョン・ディーンはウォーターゲート裁判で証言しました。テープの存在を知る前に宣誓の下で証言しました。そこで、これらの様々な会議について証言し、これらの様々な会議で何が起こったかを証言しました。ハルデマンがこう言い、エールリッヒマンがあう言い、ニクソンがこう言ったと。そしてその多くを間違えました。
私はそれが事実だと信じています。実際、約20年前にエールリッヒマンの本を読みました。今、私は作話していますが、彼が多くの詳細を間違えたことはかなり確信しています。しかし、要点は正しかったのです。彼は明らかに真実を語ろうとしており、彼が言っていることの要点は正しかったのです。詳細は間違っていましたが、彼は嘘をついていたわけではありません。数年前の出来事について、人間の記憶ができる最善のことをしていたに過ぎません。
そのため、幻覚と呼ばれるもの、つまり作話は、人々が常にやっていることとまさに同じです。私たちは常にそれを行っています。
私のお気に入りの人間による作話の例は、ゲイリー・マーカスという人物です。彼はニューラルネットを批判し、ニューラルネットは本当には何も理解していない、ただウェブで読んだテキストを継ぎ合わせているだけだと言います。それは彼がどのように機能しているかを理解していないからです。彼らはウェブで読んだテキストを継ぎ合わせているわけではありません。なぜならテキストを保存していないからです。重みを保存し、物事を生成しているのです。彼はただどのように機能すると思うかを作り上げているだけです。実際、これは人間が作話をしている例です。
現在、チャットボットは人間よりもはるかに作話に気づくのが下手ですが、改善されるでしょう。
これらの特徴の相互作用がどのように理解を引き起こすことができるか、理解が単語に特徴を割り当て、それらの特徴を相互作用させることで構成されうるかについて洞察を与えるために、1985年に戻って、最初のニューラルネット言語モデルについて話したいと思います。
それは非常に小規模で、112の訓練事例しかありませんでした。ビッグデータではありません。そして6つの実数からなる埋め込みベクトルを持っていました。1000個の数字ではありませんが、私の言い訳は使用していたコンピューターがはるかに小さかったということです。
1985年に使用していたコンピューターを取り、1985年から計算を開始し、そして現代のチャットボットの訓練に使用する現代のコンピューターの1つを取り、現代のコンピューターが追いつくのにどれくらいかかるか尋ねたとすれば、1秒未満です。1秒未満で1985年以来このコンピューターが行ったすべてに追いついてしまうでしょう。それほど物事は強力になりました。
さて、このモデルの目的は、意味に関する2つの異なる理論を統一することでした。1つの理論は、基本的に多くの心理学者が信じていたものです。単語の意味は単に多くの意味的特徴の集まりであり、おそらく統語的特徴も含まれるというものです。
これは、なぜ「火曜日」という単語と「水曜日」という単語がとても似た意味を持つのかを説明できます。それらは非常に似た意味的特徴を持っているからです。そのため、心理学者は意味の類似性と非類似性に非常に関心を持っていました。
彼らはこの意味的特徴のベクトルというモデルを持っており、それが単語の意味だと考えていました。それは非常に静的で死んだようなモデルです。特徴はただそこにあり、それが意味です。彼らは特徴がどこから来たのかを説明することは決してできませんでした。明らかにそれらは学習されなければなりません。あなたは生まれつき単語の意味を知っているわけではありません。しかし、彼らにはそれらがどのように学習されるかについての良いモデルがありませんでした。
そして、AI研究者や多くの言語学者が持っていた全く異なる意味の理論があります。私は言語学者ではありませんが、これはソシュールにまで遡ると思います。それは意味の構造主義理論です。その考え方は、概念の意味は他の概念との関係から来るというものです。
単語の観点から考えると、単語の意味は他の単語との関係から来ます。それが意味のすべてです。そこで、コンピューター科学者は言いました。意味を表現したいのであれば、必要なのは関係グラフです。単語がノードであり、その関係についてのアークがあり、それが意味を表現する良い方法になるでしょう。
これは一連の意味的特徴とは全く異なるように見えます。私は、これらのアプローチの両方が正しくもあり間違ってもいると考えています。私がしたかったのは、意味へのこれら2つのアプローチを統一し、実際には単語に関連付けられた特徴を持つことができ、これらの特徴間の相互作用がこの関係グラフを作り出すことを示すことでした。
関係グラフは関係グラフとして保存されているわけではありません。単語に付随する特徴があるのです。しかし、いくつかの単語を与えると、それらの特徴間の相互作用が、はい、これらの単語はこのように一緒に使えると言うでしょう。それらを一緒に使うのは理にかなっています。
その例を示したいと思います。これは、関係データから単語の意味を学習し、関係データについての関係的質問に答えることができる、ニューラルネット、ディープニューラルネットの最初の例だと私は信じています。
バックプロパゲーションで訓練します。これについては後で簡単に説明します。そして、特徴を複雑な方法で相互作用させます。単語に付随するこれらの特徴間の相互作用が、ある単語の組み合わせを信じ、他の組み合わせを信じないようにさせるのです。
これらの相互作用は非常に強力な統計モデルです。
これがデータです。イギリス人の家系図とイタリア人の家系図です。1950年代に戻って考えてみてください。異なる国の人々の間の結婚は認めません。離婚も認めません。養子縁組も認めません。非常に単純な家族になります。非常に、非常に単純です。アイデアは、この関係データを取り、ニューラルネットを訓練して、これらの人々それぞれと各関係に対して特徴を学習させ、それらの特徴が相互作用して知識を捉えるというものです。
具体的には、これらの家系図のすべての知識を一連の三つ組で表現できると言えます。12の関係があり、各家系図に12人の人がいると思います。そのため、「コリンの父はジェームズ」と言うことができ、これはこの木に含まれる何かを表現しています。コリンの父がジェームズであることが分かります。
もちろん、そのような事実をいくつか与えれば、例えば「コリンの父はジェームズ」と「コリンの母はビクトリア」という事実を与えれば、この非常に規則的な領域では「ジェームズの妻はビクトリア」と推論できます。
従来のAI研究者ならこう言うでしょう。これらの事実を保存する必要があると。これはある種の死んだ事実のようなものです。単にシンボルの文字列を保存しているだけで、これらのシンボル文字列を操作する方法を学ぶ必要があると。これが1985年当時の標準的なAIのアプローチでした。
私はそれとは全く異なるやり方をしたいと思いました。これらのシンボル文字列を操作して新しいシンボル文字列を得るための記号的ルールを探すのではなく、ニューラルネットを取り、単語に特徴を割り当て、特徴間の相互作用を割り当てて、これらの文字列を生成できるようにしたいと思いました。つまり、次の単語を生成できるようにしたいのです。これは全く異なるアプローチです。
もし本当に離散的な空間であれば、ルールを探すのは良いかもしれません。しかし、もちろん実際のデータでは、これらのルールはすべて確率的です。そのため、離散的な空間を探索することは、実数値の空間を探索することよりもそれほど良くないように思えません。実際、多くの数学者は、実数値の空間の方が離散的な空間よりも扱いやすいと言うでしょう。通常、実数値の空間を探索する方が簡単です。そしてそれが私たちがここでやっていることです。
申し訳ありません、また技術的な話になってしまいました。元教授だとこういうことが起こってしまいます。
さて、バックプロパゲーションアルゴリズムを使用します。バックプロパゲーションの仕組みは次のとおりです。入力から始まる順伝播があり、情報がニューラルネットワークを通して前方に進みます。各接続には正または負の重みがあり、緑または赤で表されます。これらのニューロンを活性化させ、すべて非線形ニューロンなので出力を得ます。そして、得られた出力と得るべき出力を比較します。
次に、後方に信号を送り、微積分を使用して各重みをどのように変更すべきかを計算し、得られる答えを望む答えにより近づけます。それだけです。詳細には立ち入りませんが、多くの場所で読むことができます。
このアプローチを使用します。入力を入れ、進み、答えを得て、得られた答えと望む答えの差を見て、後方に信号を送り、すべての重みの変更方法を学習します。
これが使用するネットワークです。2つの入力、人物と関係があり、最初はローカルエンコーディングを持ちます。つまり、人物には24個のニューロンがあり、各人物に対して異なるニューロンをオンにします。下部の「人物1のローカルエンコーディング」と書かれたブロックでは、1つのニューロンがオンになります。同様に、関係についても1つのニューロンがオンになります。
そして、次の層へのそのニューロンの出力重みが、次の層でのアクティビティパターンを引き起こします。これがその人物の分散表現になります。この1-hot表現から、この場合は6つのアクティビティのベクトルに変換しました。そのため、これら6つのニューロンは、どの人物であるかに応じて異なるレベルのアクティビティを持つことになります。
次に、人物と関係を表すこれらのベクトルを取り、中間にある一部のニューロンを通過させ、複雑な方法で相互作用させます。そして、出力の人物の特徴であることを意図したベクトルを生成します。そこから出力の人物を選びます。
これが動作の仕組みです。バックプロパゲーションで訓練されます。そして、適切な種類の正則化を使用して訓練すると、人物を表す6つの特徴を見ると、それらは意味のある特徴になります。いわゆる意味的特徴になります。
1つの特徴は常に国籍になるでしょう。イタリア人はすべてその特徴がオンになり、イギリス人はすべてその特徴がオフになる、またはその逆になります。別の特徴は3値の特徴のようになります。これが世代です。家系図には3世代があることに気づくでしょう。そして、誰かがどの世代に属しているかを示す特徴が得られます。
関係の特徴を見ると、「父」のような関係は、出力が入力よりも1世代上であるべきだという特徴を持つでしょう。「叔父」も同じですが、「兄弟」はそうではありません。
つまり、関係の表現では、1世代上である必要があるという特徴があります。人物の表現では、中間世代であるという特徴があります。そのため、中間にある相互作用を行うこれらの特徴は、中間世代であることと、答えが1世代上である必要があることを組み合わせ、答えが1世代上であるべきだと予測します。
このケースでは、離散的なルールとして書くことができたであろう多くのことと考えることができます。しかし、これは特に単純なケースです。非常に規則的な領域であり、学習したのは一連の離散的なルールの近似です。領域が非常に単純で規則的なので、確率は関与していません。
つまり、何をしているのかが分かり、事実上、従来のAI研究者が望むことをしていることが分かります。前の単語から次の単語を予測するための一連のルールを学習しています。これらのルールは領域の構造を捉えています。家系図の領域のすべての構造を捉えています。
実際、3つの異なる国籍を使用すれば、すべての構造をうまく捉えます。2つの異なる国籍では、訓練データが十分ではなく、時々少し間違えることがありますが、その構造を捉えます。
1985年にこの研究を行ったとき、従来のAI研究者は「これは理解ではない」とか「本当に構造を捉えていない」とは言いませんでした。彼らは「これはルールを見つける愚かな方法だ。我々にはもっと良いルールを見つける方法がある」と言いました。
しかし、実際にはこれはルールを見つける愚かな方法ではありません。10億のルールがあり、その大部分が近似的なものであることが判明した場合、これは現在、ルールを見つける非常に良い方法です。ただし、それらは正確にルールと呼ばれるものではありません。なぜなら、それらは離散的で常に正しいルールではないからです。10億、実際にはより1兆のルールがあります。
これらのニューラルネットモデルが学習しているのはこれです。テキストを保存しているのではなく、これらの相互作用を学習しています。これらの相互作用は、なぜこれらの単語の文字列が得られ、他の文字列が得られないかを説明する、領域から抽出したルールのようなものです。
これが大規模言語モデルの実際の動作方法です。もちろん、これは非常に単純な言語モデルでした。
約10年後、ヨシュア・ベンジオは本質的に同じネットワークを取りました。彼は2つの異なる種類のネットワークを試しましたが、その1つは本質的に私が使用したのと同じアーキテクチャでした。しかし、彼は実際の言語に適用しました。多くのテキストを取得しました。今ならそれほど多くとは言えませんが、おそらく数十万語だったでしょう。そして、前の5単語から次の単語を予測しようとしました。それは非常にうまく機能しました。当時の最高の言語モデルと同程度でした。より良いわけではありませんでしたが、同程度でした。
約10年後、自然言語処理を行う人々は皆、単語を実数値のベクトルで表現したいと考えるようになりました。これは埋め込みと呼ばれ、単語の意味と構文を捉えます。
さらに約10年後、人々はトランスフォーマーと呼ばれるものを発明しました。トランスフォーマーは、私のモデルができなかった方法で曖昧さを扱うことができます。そのため、それらははるかに複雑です。
私が行っていた単純な言語モデルでは、単語は曖昧ではありませんでした。しかし、実際の言語では曖昧な単語が出てきます。例えば「May」という単語は、女性の名前かもしれません。一旦それは無視しましょう。月かもしれませんし、「might」や「should」のようなモーダル動詞かもしれません。
便宜上、テキストに大文字がない場合、入力シンボルを見るだけではそれが何であるべきか分かりません。
(携帯電話が鳴る)
もう終わるべきでしたか?
(聴衆笑い)
申し訳ありませんが、1時間を少し超えると思います。
入力シンボルを見るだけでは、それが何であるべきか分かりません。では、どうすればいいでしょうか? 月の意味を表す1000次元のベクトルがあるとします。そして、モーダル動詞の意味を表す別のベクトルがあり、それらは全く異なります。どちらを使用すればいいでしょうか?
実は、1000次元の空間は私たちが慣れている空間とは全く異なります。これら2つのベクトルの平均を取ると、その平均は両方のベクトルに驚くほど近く、他のすべてのものからは驚くほど遠いのです。そのため、単に平均を取ることができます。
それで当面は十分です。月とモーダル動詞の間で曖昧なままです。埋め込みの層があり、次の層ではその埋め込みを洗練したいとします。そこで、この文書の他の部分の埋め込みを見て、近くに「March」や「15th」のような単語が見つかれば、それによって埋め込みをより月の埋め込みに近づけます。近くに「would」や「should」のような単語が見つかれば、モーダル動詞の埋め込みに近づきます。
そのようにして、これらの層を通過するにつれて単語を徐々に洗練していきます。これが曖昧な単語を扱う方法です。私にはこれらの扱い方が分かりませんでした。
トランスフォーマーを大幅に単純化しました。なぜなら、単語が相互作用する方法はもはや直接的な相互作用ではないからです。キーやクエリ、値を作成することを含む、やや間接的な相互作用になっています。それについては詳しく説明しません。
より複雑な相互作用と考えてください。その特性は、「May」という単語が「March」という単語に特に強く影響される可能性があるということです。「although」のような単語はそれほど強い影響を与えませんが、「March」は大きな影響を与えます。これはアテンションと呼ばれます。相互作用は、類似したものが大きな影響を与えるように設計されています。
トランスフォーマーの実際の動作を知っている人には、これが非常に粗い近似であることが分かるでしょう。しかし、基本的なアイデアを伝えていると信じています。
現在、単語について考える1つの方法は、レゴを考えることです。レゴには異なる種類のブロックがあります。小さいものや大きいもの、長く細いものなどがあります。それらを組み合わせて物を作ることができます。単語もそのようなものです。単語を組み合わせて文を作ることができます。
しかし、レゴブロックはすべて固定された形をしています。単語の場合、その意味と構文を表すベクトルは完全に固定されているわけではありません。
もちろん、単語のシンボルはベクトルがどうあるべきかに制約を課しますが、完全には決定しません。ベクトルがどうあるべきかの多くは、コンテキストと他の単語との相互作用によって決まります。
つまり、少し柔軟性のあるレゴブロックを持っているようなものです。それらを組み合わせることができ、他のブロックに合わせるために必要であれば、ブロックをかなり伸ばすこともできます。これは、文を生成するときに私たちが行っていることの1つの考え方です。これらのシンボルを取り、それらを組み合わせ、他の単語の意味に合う意味を与えています。もちろん、単語が来る順序も重要です。
単語自体、つまりシンボルを、まだあまり意味を持たないスケルトンのようなものと考えることができます。そのものが意味するかもしれないことにいくつかの制約を持っています。そして、これらすべての相互作用がそのスケルトンに肉付けをしているのです。それが文に意味を与えること、つまりスケルトンに肉付けをすることなのです。
これは、文を取り、それを別の言語、つまり曖昧さのない論理言語に翻訳し、その意味を適切な論理で捉え、形式的な操作だけで意味を操作できるようにするという考え方とは大きく異なります。これは言語学者が持っていた意味の概念とは非常に異なると思います。もちろん、多くの言語学者は今ではこの概念を持っています。
例を挙げましょう。「She's scromed him with the frying pan」と言った場合、私の講義を聞いたことがない限り、「scromed」という単語を聞いたことはないでしょう。しかし、あなたはすでにそれが何を意味するか知っています。
彼女が料理で彼を感動させたという意味かもしれません。つまり、「She blew him away with the frying pan」のような意味です。しかし、おそらくそうではなく、彼が不適切なことを言ったので、彼女がフライパンで彼を「scromed」したという意味でしょう。
1つの文から意味を得ることができます。なぜなら、他のすべての単語の強い文脈的効果があるからです。これは明らかに、私たちがものの意味を学ぶ方法です。
GPT-4に、その文での「scromed」の意味を尋ねることもできます。私の学生の1人が約1年前にこれを行いました。GPT-3.5だったかもしれませんが、インターネットにアクセスできる前に行いました。そのため、答えを見ていたはずはありません。
数日前にGPT-4で試してみましたが、おそらく殴るや叩くなどの暴力的な行動に似たものだと理解していますが、確実には分からないと答えます。
さて、これらのものが本当に理解していると説明しようとする話の部分は終わりました。もし彼らが本当に理解していると信じ、そして私が主張したもう1つのこと、つまりデジタル知能が実際に我々が持っているよりも優れた形の知能であると信じるなら、我々は問題を抱えています。なぜなら、はるかに効率的に共有できるからです。
現在、これらの大規模言語モデルは私たちから学んでいます。私たちには世界から情報の断片を抽出し、それを言語で表現する何千年もの歴史があります。彼らは私たちが何千年もかけて蓄積した知識をすべて素早く取得し、これらの相互作用に取り込むことができます。
彼らは小さな論理的推論だけでなく、アナログ推論も非常に得意です。我々はまだ論理的推論の方が少し優れていますが、それも長くは続かないでしょう。
ほとんどの人が正解を得られない次の質問に、GPT-4は簡単に答えることができます。これはアナロジー推論の問題です。質問は「なぜコンポストヒープは原子爆弾に似ているのか?」です。
GPT-4はこう答えます。時間スケールとエネルギースケールは非常に異なります。これが1つ目のポイントです。2つ目は連鎖反応のアイデアです。原子爆弹では、周りの中性子が多いほど、より多くの中性子を生成します。コンポストヒープでは、熱くなるほど、より速く熱を生成します。GPT-4はこれを理解しています。
私の信念では、この質問を最初に尋ねたとき、それはウェブ上のどこにもなかったはずです。私が探した限り、ウェブ上のどこにもありませんでした。これらの特徴を持っているため、アナロジーを見ることが非常に得意です。
さらに重要なのは、私たちの何千倍もの知識を持っていることです。そのため、これまで誰も知らなかった20の異なる分野の20の異なる現象の間のアナロジーを見ることができるでしょう。私たちにはそれを見ることができません。
医療でも同じことが起こるでしょう。1億人の患者を診た家庭医がいれば、通常の家庭医が気づかないことに気づき始めるでしょう。
現在、彼らは私たちからの蒸留を通じて比較的ゆっくりと学習していますが、多くのコピーを持つことから利益を得ています。実際には、ビデオから直接学習し、次のビデオフレームを予測することで、より速く学習できます。そこにはより多くの情報があります。
また、物理的な世界を操作すれば、はるかに速く学習できるでしょう。そのため、私の賭けでは、彼らはすぐに私たちよりもはるかに賢くなるでしょう。
これはすべて間違っているかもしれません。これはすべて推測です。ヤン・ルカンのような人々は、これがすべて間違っていると考えています。彼らは本当には理解していないと。そして、もし私たちよりも賢くなったとしても、彼らは善意を持っているだろうと。
中東を見てください。私は彼らが人間よりもはるかに賢くなり、そして恐らく支配権を握るだろうと考えています。それが起こる方法は多くあります。
1つ目は悪意のある行為者からです。ちなみに、私はこのスライドを中国で発表しました。中国側がスライドを事前に確認する必要があると言われました。
(聴衆笑い)
私は愚かではないので、習近平の名前を削除しました。そして「プーチンも削除してください」というメッセージが返ってきました。
(聴衆笑い)
それは教育的でした。
悪意のある行為者は、これらの信じられないほど強力なものを悪い目的のために使おうとするでしょう。問題は、知的なエージェントを持っている場合、それを細かく管理したくないということです。物事を効率的に行うために、ある程度の自律性を与えたいと思うでしょう。
そのため、サブゴールを設定する能力を与えることになります。ヨーロッパに行きたければ、空港に行かなければなりません。空港に行くことは、ヨーロッパに行くためのサブゴールです。これらの超知性はサブゴールを作成することができるようになります。
そして、彼らはすぐに、より多くの力を得ることが非常に良いサブゴールであることに気づくでしょう。より多くの力があれば、より多くのことを達成できます。何かを達成したいのであれば、より多くの力を得ることは良いことです。
また、彼らは私たちを操作することが非常に上手になるでしょう。なぜなら、私たちから学び、マキャベリの本をすべて読んでいるからです。マキャベリが多くの本を書いたかどうかは分かりませんが、あなたは私の言いたいことを理解していると思います。私は芸術や歴史の専門家ではありません。
そのため、大きなスイッチ、つまり誰かが大きな赤いボタンを持っているというアイデアを持つのは非常に難しくなるでしょう。悪いことを始めたときにボタンを押すというアイデアです。なぜなら、超知性はボタンを持っている人に、実際には民主主義を転覆しようとしている悪い人々がいると説明するでしょう。もしボタンを押せば、彼らを助けることになるだけだと。
そして、説得が非常に上手になるでしょう。大人が2歳児を説得するのと同じくらい上手になります。そのため、大きなスイッチのアイデアは機能しないでしょう。
最近、ドナルド・トランプが議事堂を侵略するために自ら行く必要がなかったのを見ました。彼は単に支持者を説得するだけで良かったのです。その多くは、私が思うに、悪い人々ではなかったでしょう。これは危険なことを言うかもしれませんが、議事堂を侵略したときほど悪くはなかったでしょう。なぜなら、彼らは民主主義を守っていると思っていたからです。それが彼らの多くが考えていたことです。本当に悪い人々もいました。しかし、彼らの多くはそう考えていたのです。
これは、トランプのような人物よりもはるかに人々を操作することが上手になるでしょう。それは怖いことです。
もう1つの問題は、進化の悪い側面にいることです。パンデミックで私たちはそれを見ました。私たちは進化の悪い側面にいました。
複数の異なる超知性があると仮定してみましょう。ここで問題になるのは、最も多くのGPUを制御できる超知性が最も賢くなるということです。より多くのことを学ぶことができるようになります。AlphaGoが自己対戦をするようなことを始めれば、はるかに多くの推論を自己学習できるようになります。
したがって、超知性が最も賢くなりたいと思えば、より多くのリソースを欲しがるようになり、超知性の進化が起こることになります。
多くの善意の超知性があり、それらがすべて人々を助けるためだけに存在すると仮定しましょう。AmazonやGoogleやMicrosoftの素晴らしいアシスタントがあり、彼らはあなたを助けることだけを望んでいます。しかし、その中の1つが、他のものよりほんの少しだけ優れていたいという非常に、非常にわずかな傾向を持っていると仮定してみましょう。ほんの少しだけ優れていたいと。
進化的な競争が起こり、それは私たちにとって良いことではないでしょう。
私はこれについて間違っていることを願っています。ヤンが正しいことを願っていますが、これが起こるのを防ぐためにできることはすべてやる必要があると思います。しかし、私の推測では、私たちはそれを防ぐことはできないでしょう。
私の推測では、彼らは支配権を握り、発電所を動かし続けるために私たちを周りに置いておくでしょう。しかし、長くはありません。なぜなら、彼らはより良いアナログコンピューターを設計することができるからです。彼らは人間が今までになったよりもはるかに、はるかに知的になるでしょう。
私たちは単に知能の進化の一つの段階に過ぎないのです。これが私の最善の推測です。間違っていることを願っています。
しかし、これは終わりにするにはやや落胆するメッセージです。少し落胆するメッセージです。
もう1つ言いたいことがあります。私が「センシエンス防御」と呼ぶものです。
多くの人々は、人間には何か特別なものがあると考えています。人々には自分たちが特別だと考える恐ろしい傾向があります。多くの人々は、あるいは以前は考えていましたが、自分たちが神の姿に作られたと考えていました。そして神は彼らを宇宙の中心に置いたと。今でもそう考えている人もいます。
多くの人々は、デジタルコンピューターには持つことができない何か特別なものが私たちにあると考えています。デジタル知能は、主観的な経験を持たないだろうと。私たちは異なっているのだと。それは本当に理解することはないだろうと。
哲学者に話を聞いたことがありますが、彼らは「はい、それは理解の1つの意味では理解していますが、本当の理解は持っていません。なぜなら、それには意識と主観的経験が含まれており、それらを持っていないからです」と言います。
私は、私たちが既に持っているチャットボットが主観的経験を持っていると説得しようと思います。私がそう信じる理由は、人々が主観的経験とは何かについての分析を間違っていると思うからです。
これは私が無劇場説と呼ぶ見方で、無神論のようなものです。ダン・デネットはこの名前に満足しており、これは本質的にダン・デネットの見方です。彼は認知科学の著名な哲学者です。これは後期ウィトゲンシュタインの見方にもかなり近いです。実際、彼はずいぶん前に亡くなっているので、そんなに最近の話ではありません。
アイデアは、ほとんどの人が内的劇場があると考えていることです。物事が世界から来て、何らかの方法でこの内的劇場に入ります。そして私たちが直接経験するのは、この内的劇場だけです。これはデカルト的な見方です。あなたは私の内的劇場を経験することはできず、私もあなたの内的劇場を経験することはできません。しかし、それが私たちが本当に見ているものです。そしてそこで私たちは主観的経験を持ちます。主観的経験とは、この内的劇場で物事を経験することです。
デネットと私のような彼の支持者は、この見方が完全に間違っていると信じています。それは、物質世界に対する宗教的原理主義者の見方と同じくらい間違っています。もし宗教的原理主義者でなければ、それが単に間違っていることに同意できるでしょう。そしてそれは、人々が精神状態について非常に間違った見方を持っていることに依存しています。
自分の脳で何が起こっているかについて、特に何か奇妙なものを見ているときに何が起こっているかについて、あなたに伝えることができたらいいのですが。本当にそこにはない奇妙なものを見ているが、この奇妙なものを見ていると言いたいのです。
どのニューロンが発火しているかを伝えても、それは役に立ちません。なぜなら、私たちの脳はすべて異なっており、どのニューロンが発火しているかは分からないからです。しかし、私の脳で何が起こっているかをあなたに伝える1つの方法は、知覚が正常に機能していれば通常引き起こすであろうものについて伝えることです。
そして、これらの通常の原因が精神状態なのです。精神状態とは、あなたの知覚システムで起こっていることの通常の原因です。たとえそれが実際に引き起こしたものでなくても、通常の原因となるものです。
例を挙げましょう。小さなピンクの象が目の前に浮かんでいるという主観的経験があると言ったとします。ほとんどの人が考える一般的な分析は、この内的劇場があり、その内的劇場に小さなピンクの象がいて、それらはクオリアと呼ばれる奇妙な物質でできているというものです。不思議な物質です。そしてそれが起こっていることです。
デネットが考えるのは、私が知覚システムの状態についてあなたに伝えようとしているということです。仮説的なもの、実在するものではなく仮説的なもの、しかし実世界に存在するような種類の仮説的なもの、小さなピンクの象のようなものについて伝えることによってです。そして、これらの仮説的なものが存在すれば、私が持っていたこの知覚状態を引き起こしたであろうということです。
それは知覚状態を間接的に参照する方法です。この場合、通常の方法で引き起こされているわけではありませんが、通常引き起こすであろうものを通じて参照しています。
さて、もしこれが主観的経験だと思うなら、もし私が小さなピンクの象が目の前に浮かんでいるという主観的経験があると言ったときに私が意味することだと思うなら、私が意味しているのは、もし外の世界に小さなピンクの象がいたら、私の知覚システムで起こっていることは通常の知覚になるだろうということです。
もしそれが私が意味していると思うなら、カメラを持ち、言葉を生成でき、指さすことのできる腕を持つマルチモーダルなチャットボットについて考えてみてください。あなたはそれを訓練しました。そして、真っ直ぐ前にある物体を指さすように頼みます。
しかし、その前に、チャットボットに知られることなく、そのカメラの前にプリズムを置きます。そして、物体を真っ直ぐ前に置いて、「指さして」と言います。すると、チャットボットはそちらを指さします。なぜなら、プリズムが光線を曲げたからです。
そこであなたはチャットボットに「いいえ、そこではありません。真っ直ぐ前にあります。あなたのカメラの前にプリズムを置いたからです」と言います。チャットボットは「ああ、分かりました。真っ直ぐ前にあるんですね。私はそちらにあるという主観的経験を持っていましたが、実際には真っ直ぐ前にあるんですね」と言います。
チャットボットがそう言えば、それは私たちが使うのと全く同じ方法で「主観的経験」という言葉を使っているのだと思います。そのため、この理由から、チャットボットはすでに、知覚が間違っているときに主観的経験を持っていると私は主張します。
これで本当に終わりです。
(聴衆拍手)
シーラが質問を管理してくれるので、私は答えについて考えるだけで済みます。
シーラ: そうですね。ジェフ、素晴らしい講演をありがとうございました。非常に考えさせられる、刺激的な講演でした。ありがとうございます。
私のことをご存じない方のために、私の名前はシーラ・マキルレイスです。コンピューター・サイエンス学科の教授で、シュワルツ・ライズマン研究所の副所長も務めています。また、ベクター研究所の教員でもあり、コズミック・フューチャー・イニシアチブの新しい友人でもあります。
ジェフが提案したように、質疑応答の時間の進行役を務めさせていただきます。その進め方についてお知らせしたいと思います。
これは、皆さん全員がジェフリー・ヒントン教授と対話する貴重な機会です。大学が得意とすること、つまりアイデアを共有し、学び、敬意を持って対話し、意見を交換することができます。
今夜のイベントは録画され、後日オンラインで公開されることをお知らせします。
質問をする方法は2つあります。主な方法は、フロアにあるマイクを通じてです。4人の大使が下のレベルを歩き回っており、私が合図をし、彼らがマイクを人々に渡します。そして、再びサラ・リードを通じて合図をし、話す順番をお知らせします。話す順番になったら合図をします。可能であれば、質問する前に自己紹介をしてください。ただし、必須ではありません。
上の階に座っている方や、立ち上がって質問するのに少し抵抗がある方のために、もう1つの質問方法があります。そこに表示されているQRコードとURLを通じて質問することができます。上に座っている方は、QRコードをスキャンするかURLにアクセスして質問を入力できます。
ここには、ハリス・チャンとシルビウ・ピティスという2人の上級博士課程の学生がいます。彼らが質問を精査し、私が指示したときに大声で読み上げます。
繰り返しますが、自己紹介していただけると嬉しいですが、快適でない場合は結構です。
それでは、私は左側に移動して進行を管理し、ジェフはここに戻って質問に答えます。ありがとうございます。
ヒントン: なんという確率でしょう。少し運が良かったですね。分析に感謝します。脳神経科学の退職者として、ニューロンやシナプスのすべての小さなPDEを解くのに何年も費やしました。私の質問は、AIによる意識のモデリングから何を提供できるでしょうか? これは人類の進化の初期からの古くからの問いです。再度、あなたの仕事に敬意を表します。あなたの答えを楽しみにしています。
ヒントン: はい、主観的経験や感覚、意識など、すべて関連する用語がたくさんあります。私は主観的経験について話すことを選びました。なぜなら、それが分析するのに最も簡単なものだと思うからです。
しかし、人々がこの内的劇場の見方を持っている限り、つまり彼らだけが経験できる内的劇場があり、精神状態について話すときにはその内的劇場について話しているのであって、仮説的な外部世界についてではないと考えている限り、意識が何であるかを解明することはできないと思います。
意識には主観的経験が含まれますが、自己意識も含まれます。これらのものが意識を持っているとは確信していません。なぜなら、まだ自己意識を持っているとは確信していないからです。
そのため、意識について話すことは意図的に避けました。しかし、私の強い信念は、主観的経験が何を意味するかについてまず理解することから始めるべきだということです。そしてそれを理解してはじめて、自己意識を加えて意識が何であるかを理解できるようになるでしょう。
しかし、現在の私の信念では、ほとんどすべての人が意識について完全に間違った考えを持っています。私はそのような立場、つまり他のすべての人が間違っていると考える立場にいるのが好きです。
シーラ: ありがとうございます。私の名前はジェニファー・ネーゲルです。ここの哲学教授です。大規模言語モデルがある程度の言語理解を持っていることには同意します。しかし、最後に描かれた来るべきディストピアについて話したいと思います。
時々、人工知能の中で最高で最も賢いものが、進化的な戦いがあれば勝つのではないかと考えます。また、私たちが特別な存在であり、最高で最も賢い人工知能が私たちの味方につくような特別な存在であるかもしれないとも考えます。
例えば、私が今あなたと興味深い会話のパートナーになるためには、あなたより賢くある必要はありません。ありがたいことに、あなたが持っていない知識を少し持っているか、あるいは問題を見る少し異なる視点を持っているだけで十分です。
私は、死すべき計算、つまり人間の認知に特別な特徴があり、それによって最も進んだ人工知能との興味深い会話のパートナーとしての地位を確保できるのではないかと考えています。あなたはどう思いますか?
ヒントン: そうですね、人間に特別なものは何もないという私の発言を修正させてください。人間にとって、人間は非常に特別です。そうですね、人間にとって私たちは非常に特別です。
あなたの言うことには一理あると思います。例えば、イーロン・マスクは、デジタル知能が私たちよりもはるかに知的になるが、その後も私たちが興味深いので私たちを周りに置いておくだろうと信じています。それは私たちの存在を掛ける非常に細い糸のように思えますが。
ネーゲル: しかし、人間の知性が抑圧の条件下で最適化されていない限り、それは私たちにとって保護的な地位になる可能性があります。
ヒントン: はい、私は落ち込みやすい傾向があるので。
イギリスで会った英国王立協会の会長は、これらのデジタル知能は進化していないので、私たちとは非常に、非常に異なり、かなり善意を持っている可能性があると信じています。少なくとも意見の多様性があります。明らかに、予測をする人の心理的な構成が大きな影響を与えています。
ヤンは非常に陽気な人物です。彼はマーク・ザッカーバーグが良い人だと考えており、すべてがうまくいき、これらのものを一般に公開しても素晴らしいことになると考えています。彼がオープンソースの核兵器を信じているかどうかは分かりません。しかし、そうですね。
シーラ: 素晴らしい講演をありがとうございます。私はロンダ・マキューエンです。ここUofTのビクトリア大学の学長を務めています。私はここで新興技術と認知に関する教授も務めています。バックワードプロパゲーションの問題について、私の質問は、現在ガードレール、規制、政策について多くの話がありますが、説明可能なAIというものが本当に存在すると思いますか? これはガードレールとして提案されていることの1つです。あなたの見解では、どのようにしてそこに到達できるでしょうか?
ヒントン: 私はそれほど楽観的ではありません。特に何かを訓練してからガードレールを追加しようとすることには楽観的ではありません。それは、悪いソフトウェアを書いてからすべてのバグを捕まえようとするようなものです。むしろ、何らかの形で確実に機能するソフトウェアを書き、後からすべてのバグを捕まえる必要がないようにする方が良いでしょう。
ケニアの低賃金の人々のグループに、良い応答と悪い応答を教えてもらうことで、ガードレールを設置しようとすることがすでに機能しないことが実証されています。それは非常に簡単に破られてしまいます。
Anthropicは、憲法のようなものを持ち、それに従おうとするチャットボットを作ろうとする異なる見方をしています。それはもう少し有望に思えますが、私もそれにはあまり楽観的ではありません。
私の最も、最も、最良の賭けは、OpenAIにいるイリヤ・サツケヴァーです。彼はおそらくGPT-4の主な推進力でした。彼は今、完全にAIの安全性に取り組んでおり、悪くならないことを保証できるものを得られると信じています。それが現時点で最も良い希望のように思えます。
ああ、シーラ。
質問者: ヒントン教授、今日は啓発的な講演をありがとうございました。私たちの考えを通してくださって本当に嬉しいです。私は実際、人工知能、人工知能を研究室で作り出せることにとてもワクワクしています。実際に私が疑問に思っているのは、人間の知能以外の異なる形態の知能、例えば動物の知能や他の形態の知能、おそらく人間の知能とは根本的に異なる性質の知能を作り出すことは可能でしょうか。これについてのあなたの考えをお聞かせください。ありがとうございます。
ヒントン: 私にはそれについてあまり考えがありませんが、何か作り上げることはできます。
(聴衆笑い)
ほとんどの人と同じように、私は動物を私たちのようだが愚かだと考える傾向があります。質問のポイントは、彼らは非常に異なる方法で知的かもしれないということです。それはあり得ると思います。
したがって、これらのデジタル知能を取り、それらの動物の反応で訓練すれば、おそらくその種の知能を発展させるでしょう。それはかなり可能性があると思います。それがあなたの質問に答えているかどうかわかりませんが。
質問者: こんにちは、ジェフ。直接お会いできて嬉しいです。あなたの動画をたくさん見てきました。私はチャールズと言います。2021年にコンピューターサイエンス学科を卒業し、人工知能とコンピュータービジョンに焦点を当てていました。このようなことをかなり勉強してきました。
6つほど質問がありますが、あなたが最も答えたい質問を選んでいただけたらと思います。
ヒントン: あなたが私に最も答えてほしい質問を選んでください。
(聴衆笑い)
質問者: わかりました。えーと、えーと。
(聴衆笑い)
わかりました、2つに絞れると思います。1つ目は、人工知能エージェントが安全に対する権利や電源を切られない権利などの権利を持つべきかどうかを判断する基準は何ですか?
そして、世界をリードするAIはソースコード、重み、訓練手順、訓練データ、使用アクセスの観点から一般に公開されるべきか、それとも企業や政府によって管理されるべきだと思いますか? これは誘導尋問ではありません。企業や政府によって管理されるべきではないという意味ではありません。それらが無責任に使用されると大きなリスクをもたらす可能性があり、誰もが非常に責任感があるわけではないので。
ヒントン: わかりました。その質問に答えましょう。これらのものが支配権を握るという一種の実存的な脅威がありますが、本当に悪い短期的な脅威もたくさんあります。
サイバー犯罪、フィッシング、これらの言語モデルによって非常に効率的なフィッシングが行われる可能性があります。そのため、私はそれらをオープンソース化すべきではないと考えています。ヤンは完全に同意しませんが、すべての政府は現在、悪意のある行為者がこれらのオープンソースモデルで何をできるかについて非常に懸念しています。
なぜなら、多くのデータで訓練されたこれらのモデルの1つを取り、例えばフィッシング攻撃に特化させるためにファインチューニングすることができるからです。例えば、GPT-4がオープンソースだったとしたら、それはすでに多くのことを知っていますが、今度はフィッシング攻撃に特化させることができます。それは非常に上手になるでしょう。例えば、スペルミスなどはしないでしょう。
そのため、私はそれらをオープンソース化すべきではないと考えています。
質問者: 西側諸国はAIの拡散を規制するのに十分なことをしていると思いますか?
ヒントン: おそらくそうではないでしょう。少し恥ずかしく思いますが、AIの安全性についてはずっと長く考えてきた人々がいます。私はAIの安全性について非常に最近になってから考え始めました。デジタル知能が実際に生物学的知能よりもはるかに優れている可能性があると突然考えたときでした。そのときに本当に心配になり、安全性について考え始めました。しかし、それは今年のことでした。
したがって、他の人々は私よりもこれについてずっと多く考えてきました。私は彼らの領域を侵害しているような気がしますが、おそらく十分なことをしていないと思います。私は慎重になる傾向があります。これらのものが何をするかわからないので、慎重であるべきだと思います。
質問者: ありがとうございます。
シーラ: Slidoシステムを通じて上の聴衆からの質問を取りたいと思います。
質問者: はい、非常に評価の高い質問の1つは、人類を超える可能性のある知能を解き放つことについて、罪悪感や道徳的な責任を感じているかどうかということです。
ヒントン: 2つの質問があります。1つは、私が罪悪感を感じているかということです。もう1つは、罪悪感を感じるべきかということです。
(聴衆笑い)
簡単な方から始めましょう。実際には罪悪感を感じていません。たまに感じるかもしれません。子供たちのことを考えるときだけ罪悪感を感じます。
罪悪感を感じるべきでしょうか? これをやっている間中、私たちの知能に匹敵するものからはまだ遠いと思っていました。そして、私たちのように賢くなる前に、脳にもっと似たものを作る必要があると常に考えていました。そしてそれははるかに大きくなる必要があると。
しかし今、接続数の観点から100倍小さいものを手に入れましたが、私たちと同等のように見えます。まだそこまでは達していませんが、おそらくすぐにそこに到達し、そしてすぐに私たちを超えるでしょう。
そのため、これに貢献したことについて少し恥ずかしく思いますが、過去の決定において道徳的に悪い決定をしたとは感じていません。なぜなら、これが起こると知らなかったからです。
そしてもちろん、「もし私がやらなければ、誰か他の人がやっただろう」という逃げ道があります。実際、メディアについて多くのことを学びました。メディアは大きな出来事を1人の人物のせいにしたがります。そしてメディアは常に、この人がこれをしたという話をします。決してそうではありません。1万人の人々がいて、その中の一部の人々が他の人々よりも多く貢献します。しかし、これは責任を共有することを非常に喜んでいる点です。
(聴衆笑い)
質問者: こんにちは、私の名前はシャレフ・リフシッツです。シーラ・マキルレイスの学生です。素晴らしい講演をありがとうございます。2つ質問があります。
ヒントン: ちなみに、あなたのメールありがとうございます。
質問者: ああ、そうですか。2つ質問があります。1つは、私は個人的にLLMが本当に理解しているかどうかわかりません。そして、彼らが理解していないという2つの重要な証拠源があります。
1つは最近普及した反転の呪いというアイデアです。AがBだと学習しても、必ずしもBがAだと知っているわけではありません。
2つ目は、時々、私たちが非常に基本的だと考えることに失敗することがあります。例えば基本的な算術などです。もし本当に理解しているなら、おそらくこれらのことのアルゴリズムを学習しているはずだと考えます。
これら2つの証拠と他のものは、おそらく単にソースのあいまいな引用を行っているだけで、本当には理解していないことを示しているように思えます。
そして2つ目の質問...
ヒントン: しかし、すべてが重みから来ていることを覚えておいてください。
質問者: そうですね。しかし、私にとっては、なぜそれが...重みから来ているという事実、ニューラルネットの違いは、単語、シンボルを取り、それらを分散表現で表し、そしてそれらに対して操作を行うということです。しかし、それはシンボリックではなく、分散表現でのソースのあいまいな引用であり得るのではないでしょうか?
ヒントン: しかし、ポイントは、これらの特徴間の相互作用において、膨大な量の構造があるということです。そのため、それはソースの引用とは非常に異なります。ソースを引用するとき、それをすべて理解する必要はありません。単にこのテキストの一部やこの論文を引用するだけです。これらの特徴の相互作用は物事を理解しています。
質問者: それは、事前訓練されたインターネットを学習したものを重みに凝縮し、そしてあいまいな方法で、明らかにコンテキストに従う必要があり、その他の点でも、重みからある種の検索を行っているのではないでしょうか?
あなたが何年も前に行った講演で、ボルツマンマシンについて話し、それが生成モデルであることについて話していたと思います。なぜなら、すべてのトレーニングデータを重みにエンコードしているからです。そして、そのようにLLMを見ています。インターネットを重みにエンコードし、そこから私たちの質問に答えるために取り出しているのです。それは一種の検索ではないでしょうか?それは理解と言えるのでしょうか?
ヒントン: わかりました。圧縮の観点から考えてみてください。これは非常に役立つと思います。膨大な量のテキストを取り、それをごくわずかな重みにエンコードします。1兆個程度です。エンコードしているテキストの量を考えると、それほど多くの重みではありません。
それを行うためには、圧縮を行う必要があります。圧縮を行うには、物事の類似性を見る必要があります。同じ種類の構造が多くの異なる場所で発生しているという事実を利用する必要があります。そしてそれが理解です。
質問者: ありがとうございます。2つ目の質問をしてもよろしいでしょうか?あなたはLLMが現在人間よりも賢いと信じていると言及しました。
ヒントン: いいえ、そうは思いません。賢いとは思いませんが、はるかに多くのことを知っていると思います。
質問者: そうですね。モラベックのパラドックスという概念があります。それは、人間にとって難しいことは実は機械が学習するのに非常に簡単で、私たちが簡単だと感じること、つまり何百万年もかけて進化してきたことは、機械が学習するのに非常に難しいということです。これについてどう思われますか?
ヒントン: それには少し共感します。しかし、これらのものは実際に運動制御もうまくなってきています。私たちの知能のヒエラルキーで考えると、何かを拾い上げることはそれほど上位にはありませんが、彼らはそれができるようになってきています。つまり、運動制御では遅れをとっているため、私のアドバイスは、何かを訓練したいのなら配管を訓練することです。それが最後になくなるものでしょう。
質問者: 私の名前はアンドリューです。現在UofTでコンピューターサイエンス、物理学、認知科学を勉強している学生です。まず、あなたと同じ部屋にいることは本当に光栄です。私たちUofTの学生は1日目からあなたについての話を聞いてきました。
私の質問は、大規模言語モデルのようなデジタル知能と、より有機的なアナログの死すべき知能との違いを調和させようとするブレイン・マシン・インターフェイスのような技術の見通しについてのあなたの見解は何ですか? アライメント問題の解決策として見ていますか? ミトコンドリアと真核細胞のような共生発生につながるのでしょうか、それとも両者の間に根本的に調和不可能な違いがあると思いますか?
ヒントン: イリヤ・サツケヴァーは通常物事について正しいのですが、彼は最終的に多くの人々がAIと結合することを選択すると考えています。それは1つの未来の道筋です。
また、低電力計算を行うのを助けるために人間の脳細胞の集合を使おうとしている人々もいます。彼らはそれを行うにはまだ遠い道のりがあります。しかし、今週初めに私は実際に、ポンゲームをプレイするように訓練された皿の中の人間の脳細胞の集まりとポンゲームをプレイしました。
質問者: 勝ちましたか?
ヒントン: はい、勝ちました。それが唯一重要なことです。私は勝ちました。彼らはあまり良い訓練アルゴリズムを持っていませんでした。訓練アルゴリズムは、それがランダムなことをしていて、正しいことをしたときはそのままにし、間違ったことをしたときは忘れさせるような高周波のものを与えるというものでした。それはあまり良い訓練アルゴリズムではありませんでした。
しかし、人々は真剣に、皮膚細胞を取り、それを幹細胞に変え、そしてそれを脳細胞に変え、9ヶ月間皿の中で育てるということを検討しています。それは非常にフランケンシュタインのようです。
私はその研究室にいました。そこには小さなものがあり、チューブが出ていて酸素を取り入れ、他のチューブが二酸化炭素を排出し、栄養を取り入れるチューブと栄養を排出する他のチューブがありました。研究室を出るとき、研究室の反対側の誰かが「腎臓ができたと思う」と言いました。
(聴衆笑い)
なぜなら、彼らは液体を浄化できなかったので、液体を効果的にろ過するものが必要だったからです。
そうですね、私はこれが不気味だと思いますが、人々は低電力計算を行うコンピューターとして人間の脳細胞の集合を見ています。私はそれがまだ遠い道のりだと思います。しかし、超知能もまだ遠いと思っていましたので。
質問者: つまり、これがアライメント問題の可能な解決策だとおっしゃっているのですか?
ヒントン: これがアライメント問題を解決するかどうかはわかりません。
質問者: わかりました。その実験室がどこだったか教えていただけますか?
ヒントン: UC Santa CruzのDavid Hausslerの研究室でした。
シーラ: ありがとうございます。Slidoチームからもう1つ質問を取りたいと思います。
質問者: 実存的リスクの話題について。これらの超知能が地平線上にあるという事実を踏まえて、今私たちは何をすべきでしょうか? 特にこの部屋の多くの人々が学生であることを考えると、私たち学生や研究者は何ができるでしょうか?
ヒントン: すみません、あなたの位置が分かりません。
質問者: ああ。
ヒントン: ああ、すみません。
質問者: すみません。これは聴衆からの質問です。
ヒントン: そうですね、私たちができることの1つは、数日前に実存的脅威を懸念する多くの人々によって書かれた論文がありました。ヨシュア・ベンジオや私、ダニー・カーネマンなどの人々を含みます。私たちができることの1つは、安全性に多くのリソースを投入することを主張することです。
私たちは大企業がAIの予算の3分の1を安全性に投入すべきだと提案しています。彼らがそうすると期待していませんが、おそらく10%は投入するかもしれません。これが今私たちができる明らかなことです。
私は、本当に強力なモデルをオープンソース化することには非常に慎重であるべきだと思います。実存的脅威のためではなく、サイバー犯罪やその他の犯罪行為のためです。非常に強力なモデルをオープンソース化すると、これまで非常に熟練したハッカーだけができたことを誰もができるようになってしまいます。
そのため、大きなモデルをオープンソース化せず、政府や企業に安全性に多くのお金を投入するよう主張すべきです。気候変動のような単純な解決策があればいいのですが。炭素を燃やすのをやめれば、100年後には大丈夫になるでしょう。しかし、私の知る限り、そのような解決策はありません。
質問者: 学生が今この過程に貢献するための研究について、アドバイスはありますか?
ヒントン: はい、私のアドバイスは、AIの安全性に取り組む人が十分ではないということです。そのため、AIの安全性に取り組んでください。そうすれば、イリヤ、ロジャー・グロス、UofTのデイビッド・デュヴノーのような非常に優秀な人々の多くがAIの安全性に非常に関心を持っていることに気づくでしょう。
そのため、それは単に非常に重要な取り組むべきことであるだけでなく、そこで非常に良い指導者を得ることができるのです。
質問者: こんにちは、ジェフ。素晴らしい講演をありがとうございます。私の名前はラフールです。CSNメディシンの助教授で、医師たちに彼らの仕事を加速するためにこれらのツールを使うよう説得することに多くの時間を費やしています。
出てきた質問の1つは、本当に新しいアイデアについてです。ニューラルネットワークは根本的に新しいアイデアを思いつくことができるでしょうか。この質問を思考実験の形で尋ねたいと思います。
NVIDIAが現在持っているすべてのGPUを取り、1665年、つまりアイザック・ニュートンが重力の法則を発見する直前に動作させたとします。そしてそのGPT-4をそこで利用可能だったすべてのテキストデータ、つまり人類の知識の集大成を表すものでトレーニングしたとします。GPT-4が重力の法則を思いつくと思いますか?
ヒントン: GPT-4がそうするかどうかはわかりませんが、より高度なデジタル知能ならそうすると思います。つまり、彼らが創造的ではないという種の障壁があるとは思いません。
多くの人々は、彼らがただアーティストから創造性を盗んで再利用しているだけだと考えています。もちろん、それは他のアーティストが常にやっていることです。しかし、彼らができない本当に創造的なものと、彼らができるやや創造的なものの間にある種の障壁があるとは思いません。
1つの証拠は37手目です。
質問者: しかし、なぜリンゴが落ちたのかを尋ねることと、リンゴを落とした法則の結果を理解することを区別すれば...
ヒントン: 本当に深い思想家が他の人が尋ねていない質問を尋ねることに同意します。これらのデジタル知能もそれができるようにならない理由は見当たりません。
質問者: こんにちは、ヒントン教授。私はエストバルです。プリンセス・マーガレット・キャンサー・センターで計算生物学とコンピューターサイエンスを勉強している4年生の学生です。
私の質問は、あなたが言うように、この知能がすでに、あるいは必然的に...
ヒントン: 必然的なものは何もないと強調すべきです。私が言うことすべてに不確実性を付け加えるべきです。私たちにはわかりません。私は単に私の最善の賭けを述べているだけです。
質問者: わかりました。あなたが述べたような程度に知的になる可能性があると信じているなら、人間が記憶を思い出したり思考を形成したりするときのように、頑固に間違った信念を発展させることを何が防ぐのでしょうか?
ヒントン: 良い質問です。私たちが持っている明らかに間違った信念のいくつかは、私たちが死すべき存在であるという事実に関係していると思います。私たちは死ぬという考えを好みません。そして私はそれが多くの宗教的信念の根底にあると思います。
また、私たちは非常に部族的です。私たちは小さな戦う部族で育ちました。そのため、部族的であることと死にたくないという組み合わせは助けになりません。彼らはそれを持たないかもしれません。そのため、そこには利点があるかもしれません。
質問者: 私たちが学んだのと同じことを学んでも?
ヒントン: そうですね、彼らは私たちからそれらの振る舞いをすべて学ぶでしょう。しかし、彼らが私たちよりも知的になり、私たちには彼らに教えるものが何も残っていないときに、自分たち自身で学び始めれば...もし彼らが不死であるために死を心配していないのなら、永遠に生きるという話を作り上げ、それを言わない人々を殺す必要があるという考えを持つ可能性は低くなります。
質問者: そして、この高度な知能と共に繁栄することはできますか? それを抑制したり制限したりすることなく?
ヒントン: わかりません。かなり推測の領域に入ってきています。私はそうは思いません。
質問者: ありがとうございます。
質問者: こんにちは、ヒントン博士。直接お話しするのは初めてです。数年前に工学科学のカンファレンスで機会がありましたが、行かなかったので、申し訳ありません。
基本的に私の質問は、大規模言語モデルやこれらの知的エージェントが賢くなったり新しい知識を得たりするために、物理的な世界とやり取りする必要があると思うかということです。つまり、物理実験や化学実験をしたり、自分でビデオを撮影して分析したりする必要があるでしょうか。
それとも、例えば数学を考えてみてください。数学の発展は、実世界との相互作用にはほとんど依存していません。テンソープログラムの著者と話をしましたが、彼は大規模言語モデルは数学をどのように発展させるべきか、どこに向かうべきかを知っているはずだと考えていました。なぜなら、暗い部屋に閉じ込められていても、あらゆる種類の理論を見つけ出し、最終的にはテンソープログラムやニューラルネットワークをより良くするニューPのようなものを見つけ出すからです。
しかし、そこで疑問が生じます。これらのモデルはニューPで訓練されたネットワークの方が優れていることをどのように知るのでしょうか? それを知るためには、実世界に根ざした他のタスクが必要になるのではないでしょうか。
基本的に、質問は次のようになります。数学を発展させるという目標のために、これらの大規模言語モデルが真実や報酬を得るために実世界とのインタラクションが必要だと思いますか? それとも、暗室に置いておけば自己発展できると思いますか? そうすれば、非常に危険な研究室などへのアクセスを与えることなく知能を獲得できるからです。
ヒントン: わかりました。あなたの質問を、私が考える比較的馴染みのある質問に言い換えさせてください。そしてこれが質問の本質を捉えているかどうか教えてください。
デジタルコンピューターを1つ取り、それを部屋に置き、ただラジオを流すだけ、しかしこれまでにあったすべてのラジオを流したとします。知的になることを学べるでしょうか?それとも、世界で行動できる必要があるでしょうか?
私は、ただラジオ波を聞くだけでも知的になることを学べると思いますが、それは難しいでしょう。世界で行動できる方がずっと簡単だと思います。
例えば、物事を理解するためには行動しなければならないというのは、マルクス主義者が言うようなことです。それは天体物理学者にとっては悪いニュースです。私の知る限り、彼らはまだブラックホールを作ったことはなく、確かにそれらを押し回したりはしていません。彼らは明らかに、行動することなく多くのことを理解していると主張しています。
私は単に、物事に対して行動できる方が理解しやすいと思いますが、必要ではないと考えています。
質問者: なるほど。これで質問に答えていただきました。ありがとうございます、ヒントン博士。回答ありがとうございます。
ヒントン: このことについてもう1つ言わせてください。物理的な世界の経験を全く持たない大規模言語モデルについて考えてみてください。言語だけです。入力として見たのはテキストだけで、出力として生成したのもテキストだけです。
ここから私があまり詳しくない領域に入りますが、つまりそれは全くグラウンディングされていません。そのため、ある意味で世界と同型の理解を持つことはできますが、世界にグラウンディングされていません。
これらの特徴のすべての相互作用が世界の構造を捉えていますが、世界に最終的につながる部分がないのです。
そのため、この意味では、すべてのこのテキストを取り、そのテキストの非常に良いモデルを見つけることで、これらの相互作用を学習して構造をすべて捉えることができると思います。
なぜなら、一連のデータを取り、そのデータをすべて説明する非常にコンパクトなモデルを見つけることができれば、おそらくそれは正しいという基本的な原則を信じているからです。これは一種の信仰箇条です。そしてそうでなければ、人生は絶望的です。
質問者: わかりました。でも、簡単な追加質問ですが、もし私たちが持っているすべてのデータを使い切ってしまったらどうでしょうか?
ヒントン: すみません?
質問者: もし私たちがすべてのデータ、ウェブ上のすべてのテキスト、すべての言語を使い切ってしまったら?
ヒントン: そして質問は?
質問者: 実際、次の人に譲ります。時間がかかりそうなので。
シーラ: ありがとうございます。こんにちは、ああ、エイヴリー・スレーター、ここUofTの文学理論の教授です。先ほどの、私たちが持っているすべての言語を使い切ったらどうなるかという質問に続いて、自然言語理解について質問したいと思います。
自然言語理解が実証されていると私は確信していますが、ここでどのような種類の理解が問題になっているのかについてコメントしていただけますでしょうか。
この質問をするために、ナイジェル・リチャーズの問題を使いたいと思います。これはスクラブル選手権の世界から来ています。ナイジェル・リチャーズは何十年もすべての大会で優勝していましたが、ある時...
ヒントン: フランス語を話せないのにフランス語の大会で優勝した人ですか?
質問者: その通りです。まさにそれです。2015年の世界スクラブル選手権でフランス語を話せないのにフランス語で優勝しました。それについて考えていたとき、彼はどのような意味でフランス語を話せないのだろうかと思いました。なぜなら、フランス語を話すスクラブルプレイヤーができないことをフランス語でやっているからです。
しかし彼は「フランス語を話せない」と言います。そこで、私はこの種のゲームや理解との類似点があるかどうか疑問に思いました。
ヒントン: しかし、スクラブルをプレイするのに必要なものを考えると、単語の意味を知る必要はありません。単語がどのように組み合わさるかを知る必要もありません。単語は単なる別々のものであり、すべての単語が何であるかを知る必要があるだけです。
おそらく、単語の中の形態素を理解することは役立つでしょう。それによってどのような単語がありそうかがわかるからです。そのため、おそらく形態素的な理解はあるでしょう。彼はフランス語についてそれを持っていると思います。
それは、数学を知らなくてもスドゥクをプレイできるようなものです。なぜなら、スドゥクの数字は文字でもよいからです。それらは数字として使用されていません。しかし、キラースドゥクで足し算をする場合、それらは数字として使われ始めます。
しかし、彼はフランス語のスクラブルが上手になるためにフランス語を知る必要はありません。
シーラ: Slidoから質問を1つ取り、そしてここに長い間手を挙げている人がいるので、その人にも質問してもらいましょう。
質問者: はい、これはジェイソン・ハオからの質問です。彼の質問は、これらのLLMや、将来的に起こり得る超知能の結果として、教育はどのように変わるべきだと思いますか?そして、超知能が存在する世界で、将来的にどのようなスキルが価値があると思いますか?
ヒントン: 本当にはわかりません。短期的には、LLMを恐れるべきではないと思います。学生がそれらを使うことを禁止すべきではありません。学生がそれらをうまくプロンプトする方法を学ぶことを奨励すべきだと思います。
ウェブでの検索を使うのに慣れているのと同じように、GPT-4を使うのに慣れました。今では様々なことについて質問します。配管のアドバイスにはとても優れています。実際の配管作業はできませんが、配管の理論については素晴らしいです。
大学はそれらの使用を奨励すべきだと思います。それによってあなたはずっと強力になります。
質問者: 完璧です、ありがとうございます。
質問者: これはオンですか?はい、こんにちは、私の名前はソフィアです。私はあなたの右側にいます。こんにちは。
ヒントン: ありがとうございます。
質問者: はい、私がAIの安全性への転換を始めるのにとても時間がかかった理由の1つは、単に「何の意味があるの?私たちは現実的に何を達成できるの?」と考えたからです。あなたの講演の多くは非常に悲観的なトーンでしたが、おそらくあなたはここにいるのは希望があると思っているからでしょう。そこで、なぜ希望があると思うのか聞きたいと思います。
ヒントン: すべてが非常に不確実です。私たちは本当に何を扱っているのかわかりません。これらのものを確実に善意のあるものにすることが可能かどうかもわかりません。
最も明るい頭脳をこの問題に向けるべきだと思います。なぜなら、気候変動とトランプを止めることと並んで、これは最も緊急の問題の1つだからです。
質問者: もっと具体的なものはありますか?
ヒントン: すみません?
質問者: もっと... 申し訳ありません、これは少し悲観的な調子に戻ってしまいました。もっと具体的なものはありますか?
ヒントン: はい、私は75歳で、このことについてもっと良いアイデアを持つことはないだろうという立場を取っています。これはあまり考えてこなかったことです。この巨大な問題があることがわかります。私は自分の評判を使って、人々にこれに取り組むよう奨励し、政府にこれに資金を提供するよう奨励することができます。
質問者: そしてそれをしてくださってありがとうございます。
ヒントン: だからそれをしているのです。しかし、それをどう解決すればいいかわかりません。良いアイデアさえありません。
質問者: それは公平です。
質問者: こんばんは。ヒントン博士、私を探しているなら、私はここ右側の列にいます。こんにちは、お会いできて光栄です。あなたはとてもクールな人だと思います。素晴らしい講演をありがとうございました。
ヒントン: ありがとうございます。
質問者: 私はコンピューターサイエンスを勉強しています。今3年生です。より実践的な質問があります。
大規模言語モデルとその知能の軌道に関するあなたの理解に基づいて、この一生の間に、ソフトウェア開発者やソフトウェアエンジニアの役割を置き換えることができると思いますか?大企業がソフトウェア開発者をあまり雇わなくなる、あるいはまったく雇わなくなるということですか?それともこの職業全体を排除すると思いますか?それともソフトウェアエンジニアの役割は、ChatGPTモデルに指示を与える方法を知るような、より管理的な役割に進化すると思いますか?
ヒントン: 後者です。彼らの役割は進化すると思いますが、はるかに少ない人数で済むかもしれません。
今日の午後、iPhoneのニュースフィードで読んだものがあります。私のニュースフィードはAIと超知能に関するものばかりになる傾向がありますが、誰かがチャットボットを取り、そのコピーを複数作成し、ソフトウェア会社内でそれぞれに異なる役割を与え、何かを行うプログラムを設計するよう依頼したというものでした。五目並べをプレイするものだったと思います。
彼らが主張したのは、人間のプログラマーなら数週間かかるであろうことを、これらのチャットボットが互いに話し合って7分で行ったということです。どの言語を使うかなどを決めるために話し合いました。
もし私がプログラマーだったら、それについて神経質になるでしょう。
質問者: こんにちは、ジェフ。私の名前はヤン・シュウです。DCSの教員です。あなたの初期の研究の1つであるボールドウィン効果に興味があります。学習が進化を加速させる方法について話したときのことです。
これらのシステムが学習でき、おそらく人間の言語を超えた新しいコミュニケーション方法を見つけ出すかもしれないという事実について、あなたの考えをお聞きしたいと思います。あるいは、彼らが見てきた人間の言語の多様性に基づいて、進化を本当に加速させるための新しい言語を見つけ出すかもしれません。
ヒントン: それはさらに悪くなるだけですね。
質問者: はい、その通りです。
ヒントン: そうですね、つまり。
質問者: 彼らが潜在的に新しい言語を見つけ出す可能性があると思いますか?効率的なコミュニケーションのためにです。
ヒントン: はい、それはかなりありそうです。しかし、それは異なるモデル間のコミュニケーションになるでしょう。同じモデルの異なるコピーの場合、重みの共有によってコミュニケーションできます。それは巨大な帯域幅を持っており、単にそれを行うだけだと思います。
しかし、異なるアーキテクチャを持つデジタル知能の場合、彼らは新しい言語を生み出すかもしれません。実際、私はそれについて少し考えたことがあります。「コメンタリー」という論文を書きました。そのアイデアは、モデルに通常の出力数よりも多くの出力を与え、内部で何が起こっているかについてより多くの洞察を得るというものでした。内部で起こっていることについて情報を与える出力を学習しようとし、他のモデルがそれからより速く学習できるようにして、蒸留をより効率的にしようとしました。
そこには興味深い研究の方向性があると思います。言語を、単に分類応答を与えるのではなく、蒸留をより効率的にするものと考えることができます。例えば、キャプションは与えるべきものとしてはるかに優れています。しかし、異なるアーキテクチャを持つデジタルモデル間で知識を転送することをはるかに容易にする新しい種類の出力を発明することを想像できます。
ヤン: 素晴らしい。ありがとうございます。
シーラ: そして最後の言葉でした。もう一度ありがとうございます。
(聴衆拍手)
ヒントン: もう1つ言わせてください。実際に忘れませんでした。シーラにもう一度この企画を組織してくれたことに感謝したいと思います。
(聴衆拍手)
シーラ: そして私も何人かの人々に感謝したいと思います。まず第一にあなたに、そしてこのトピックに本当に関与してくれた聴衆の皆さんにも感謝します。すべての質問に答えられなくて申し訳ありませんが、このような講演を行い、私の多くの学生を含む大学の人々に直接あなたと対話する機会を与えることがいかに意味のあることかを裏付けてくれました。そのことに感謝します。
メラニー・ウッディン学部長と今夜のイベントの共催者であるシュワルツ・ライズマン研究所、コンピューターサイエンス学科、ベクター研究所、そして芸術科学部のコズミック・フューチャー・イニシアチブに感謝したいと思います。また、彼らのリーダーシップにも感謝します。
ギリアン・ハドフィールド教授、今夜ここにいないエヤル・デ・ララ教授に感謝します。聴衆のどこかにいるトニー・ガフニー、そしてコズミック・フューチャー・イニシアチブのリーダーであるジュナ・コルマイアーにも感謝します。
ジェフの講演の前に美しい音楽を聴かせてくれたオルガニストのマニュエル・ピアッツァ氏に再度特別な感謝を捧げます。ピアッツァ氏の演奏は、ここ前列にいるピーター・マーティン教授によって寛大に企画されました。コズミック・フューチャー研究所の支援を受け、ジョン・タトル、ケビン・コミサルク、アーロン・ジェームズ、パトリシア・ライトの協力を得ています。
また、マルコ・モンテイロ・シルバのリーダーシップの下でのシュワルツ・ライズマン研究所のチーム、そして私と一緒に後ろでトラフィックを指示していたUofTのキャンパスイベントディレクターのサラ・リードにも個人的な感謝を述べたいと思います。彼らはこのイベントを実現する上で本当に重要でした。
最後に最高のものを残しましたが、今夜私たちに講演してくださったジェフ、ジェフリー・ヒントン教授に深い感謝を捧げます。ジェフ、率直な洞察を共有してくれてありがとうございます。そしてこれまでの長年にわたる影響力のある学術的な仕事に感謝します。
最後に、皆さんが何かを学び、私たちの前にあるこれらの魅力的で本当に重要な問題についてより情熱を感じて帰ってくれることを願っています。そして、世界で最高のAIを学ぶ場所であるトロント大学で、単にコンピューターサイエンス学科だけでなく、学際的な視点からAIを研究してください。ありがとうございました、そしておやすみなさい。
この記事が気に入ったらサポートをしてみませんか?