見出し画像

対話 | ジェフリー・ヒントンとジョエル・ヘレマーク

才能を選ぶ方法について多く考えたことがありますか?それとも直感的に行っていますか?イリアが現れて、『この人は賢い』と思って一緒に仕事をするという感じですか?それともそれについて多く考えていますか? 録音していますか? これを回しますか? ええ、回しましょう。オーケー、いいですね。 ええ、ええ、オーケー、動いています。

覚えていますが、イギリスからカーネギーメロンに初めて来たとき、イギリスの研究ユニットでは6時になると全員がパブで飲みに行っていました。しかし、カーネギーメロンでは、数週間後の土曜日の夜、友達がまだいなくて何をすればいいのかわからず、プログラミングをすることにしました。自宅ではプログラムできないリストマシンがあったので、土曜日の夜9時ごろに研究室に行くと、学生たちが大勢いて、みんなが未来に取り組んでいると信じていました。次にやることがコンピュータサイエンスの進路を変えると信じていたのです。これはイギリスとは全く違っていて、とても新鮮でした。

ジェフ、ケンブリッジの始まりに戻って、脳を理解しようとしていたときのことを教えてください。それはとても失望しました。私は生理学を学んでいましたが、夏学期に脳の働きを教えてくれるはずでしたが、実際に教えられたのはニューロンがどのように活動電位を伝えるかだけでした。それは非常に興味深いですが、脳の働きについては教えてくれませんでした。それが非常に失望し、哲学に切り替えました。そこで心の働きについて教えてくれるかと思いましたが、それも非常に失望しました。最終的にエディンバラに行ってAIを学ぶことにしましたが、それは少なくともシミュレーションができ、理論をテストできるので、もっと興味深かったです。

AIに興味を持ったきっかけは何でしたか?それは論文でしたか、それとも特定の人物がそのアイデアを紹介してくれたのでしょうか?おそらくドナルド・ヘッブの本が大きな影響を与えました。彼はニューロンネットワークの結合強度をどのように学習するかに非常に興味を持っていました。また、ジョン・フォン・ノイマンの本も初期に読みました。彼は脳がどのように計算するか、通常のコンピュータとはどう違うかに非常に興味を持っていました。

その時点で、これらのアイデアがうまくいくと確信しましたか、それともエディンバラの頃の直感ではどうでしたか?脳が学習する方法があるはずだと思っていました。プログラムされたものや論理規則を使って学習するのではないと思っていました。それは最初から無理があると思っていました。それで、ニューロンネットワークの結合をどのように変更して複雑なことをできるようにするかを考えなければならなかったのです。フォン・ノイマンとチューリングも同じように考えていました。彼らは論理には非常に優れていましたが、論理的アプローチには賛同していませんでした。

神経科学からのアイデアの研究とAIのための良いアルゴリズムを作ることの間の分割はどのようにしていましたか?初期の頃、どれくらいのインスピレーションを神経科学から得ていましたか?私は神経科学をあまり研究していませんでした。脳の働きについて学んだことからインスピレーションを得ていました。ニューロンが相対的に単純な操作を行い、非線形であるということです。入力を集め、それを重み付けして、その重み付けされた入力に基づいて出力を出します。問題は、その重みをどのように変更して全体をうまく機能させるかということです。これはかなり単純な質問のように思えます。

その時期の協力関係について覚えていますか?カーネギーメロンでの主な協力関係は、カーネギーメロンにいなかった人物とのものでした。ボルティモアのジョンズ・ホプキンスにいたテリー・セノウスキーと多くの交流がありました。毎月一度、彼がピッツバーグに来るか私がボルティモアに行き、週末を一緒に過ごしてボルツマンマシンに取り組んでいました。それは素晴らしい協力関係でした。私たちはそれが脳の働き方だと確信していました。それは最も興奮した研究であり、非常に興味深い技術的な成果が多く生まれましたが、脳の働き方ではないと思います。また、IBMで音声認識に取り組んでいた優れた統計学者ピーター・ブラウンとの非常に良い協力関係もありました。彼はカーネギーメロンに来て博士号を取得しましたが、既に多くのことを知っていて、彼から多くのことを学びました。彼から隠れマルコフモデルについても教わりました。

イリアがオフィスに現れたときのことを教えてください。おそらく日曜日のことで、プログラミングをしていたと思います。ドアをノックする音がして、若い学生がいて、夏の間にフライドポテトを作っていたが、私の研究室で働きたいと言いました。それで私は、約束を取って話しましょうと言いましたが、イリアは今はどうですかと言いました。それがイリアの性格でした。少し話し、バックプロパゲーションに関するネイチャーの論文を渡し、1週間後にまた会う約束をしました。彼は戻ってきて、それを理解できなかったと言いました。それに失望しましたが、彼は非常に賢そうに見えました。しかし、実際には彼は、なぜ勾配を適切な関数オプティマイザに渡さないのか理解できなかったと言いました。それは私たちが数年かけて考えることでした。イリアはいつも非常に良い直感を持っていました。

イリアの直感を可能にしたものは何だと思いますか?彼は常に自分で考えていました。若い頃からAIに興味があり、数学にも強かったのです。しかし、正確にはわかりません。

二人のコラボレーションはどのようなものでしたか?非常に楽しかったです。あるとき、データの地図を作成する複雑な作業をしていたとき、イリアがある言語でプログラムし、その後それをMatlabに変換するインターフェイスを作ると言いました。それに反対しましたが、イリアはその朝にそれを作ったと言いました。それは非常に驚くべきことでした。

これらの年を通じて、最も大きな変化はアルゴリズムだけでなく、スケールでした。イリアは早い段階で、ただ大きくすればうまくいくと主張していました。私は新しいアイデアも必要だと思っていましたが、実際には規模とデータのスケールが重要でした。2011年にイリアと別の大学院生がキャラクターレベルの予測を使った論文を発表しました。Wikipediaを使って次のHTML文字を予測するというもので、それは驚くほどよく機能しました。

モデルが次の単語を予測するように訓練される方法を教えてください。私は実際にはそれが間違った方法だとは思いません。私は最初のニューラルネットワーク言語モデルを作った人間だと思います。それは非常にシンプルなデータで、シンボルをエンベディングに変換し、そのエンベディングを使って次のシンボルを予測しました。それが一般化できることを示しました。

次のシンボルを予測することは、古いオートコンプリートとは異なります。古いオートコンプリートは、単語のペアを見て、その後に来る単語を予測するものでした。しかし、現在の方法はそうではありません。次のシンボルを予測するには、何が言われたかを理解する必要があります。だからこそ、それが理解を強制しているのです。

これらのモデルが非常に広範な分野を学習できる理由は何ですか?これらの大きな言語モデルは共通の構造を見つけ、それを使って効率的にエンコードしています。例えば、堆肥と原子爆弾がどう似ているか尋ねると、多くの人は答えられませんが、GPT-4はそれらがチェーンリアクションの形式であることを理解しています。それは非常に多くの異なるものの間でアナロジーを見つけることができるのです。

将来的にはこれらのモデルが非常に創造的になると思います。単に学んだことを再現するだけではなく、人間よりも創造的になるでしょう。

アルファゴとの有名な試合のように、将来的にはこれらのモデルが創造的な動きをすることが期待されています。アルファゴは自己学習を通じて人間を超えることができましたが、これがAIの欠けている要素かもしれません。

手書き数字の認識についての実験をしましたが、誤ったデータを使っても学習が可能であることがわかりました。これは人間の学生が教師よりも賢くなる方法と似ています。

大規模なモデルがどのようにして推論を追加するかについての直感は、これらのモデルが大きくなるにつれて推論がうまくなると考えています。人間のように直感と推論を使って結果を修正することができます。

マルチモーダルなモデルは、空間的な理解を向上させるでしょう。言語だけでは理解しにくい空間的なことが、視覚や物理的な操作を通じて理解しやすくなります。

人間の脳は言語にうまく適応しているか、それとも言語が脳にうまく適応しているかという質問は、両方が起こったと考えています。言語を大きなベクトルに変換し、それを使って推論するという新しい視点が、現在の理解に最も近いと考えています。

2009年にGPUを使ったニューラルネットワークのトレーニングを提案しましたが、その直感について教えてください。GPUは行列の乗算に非常に優れており、これがニューラルネットワークの計算に非常に役立ちました。最初はゲーム用のGPUを使い、その後Teslaシステムを使ってスピーチ認識に取り組みました。

Googleでの最後の数年間は、アナログ計算を使ってエネルギー効率の高いニューラルネットワークを作る方法を考えていましたが、うまくいきませんでした。しかし、デジタル計算の重要性を理解しました。デジタルシステムは情報を正確に共有できるので、人間のような制約がありません。

脳がどのようにして重みを変更するかについては、まだ多くのことを学ぶ必要があります。特に、一時的な重みの変更を利用して記憶を保持する方法についてです。これがAIにおいても重要な要素となるでしょう。

これらのモデルがどのようにして推論を行うかについては、スケールアップすることで推論がうまくなると考えています。人間のように直感と推論を使って結果を修正することができます。

マルチモーダルなモデルは、空間的な理解を向上させるでしょう。言語だけでは理解しにくい空間的なことが、視覚や物理的な操作を通じて理解しやすくなります。

人間の脳は言語にうまく適応しているか、それとも言語が脳にうまく適応しているかという質問は、両方が起こったと考えています。言語を大きなベクトルに変換し、それを使って推論するという新しい視点が、現在の理解に最も近いと考えています。

2009年にGPUを使ったニューラルネットワークのトレーニングを提案しましたが、その直感について教えてください。GPUは行列の乗算に非常に優れており、これがニューラルネットワークの計算に非常に役立ちました。最初はゲーム用のGPUを使い、その後Teslaシステムを使ってスピーチ認識に取り組みました。

Googleでの最後の数年間は、アナログ計算を使ってエネルギー効率の高いニューラルネットワークを作る方法を考えていましたが、うまくいきませんでした。しかし、デジタル計算の重要性を理解しました。デジタルシステムは情報を正確に共有できるので、人間のような制約がありません。

脳がどのようにして重みを変更するかについては、まだ多くのことを学ぶ必要があります。特に、一時的な重みの変更を利用して記憶を保持する方法についてです。これがAIにおいても重要な要素となるでしょう。

この記事が気に入ったらサポートをしてみませんか?