ニューラルネットワークによる機械学習の研究がノーベル物理学賞を受賞
麻生英樹(産業技術総合研究所)
2024年のノーベル物理学賞はJohn J. Hopfield氏とGeoffrey E. Hinton氏に授与された.対象となった功績は「(人工)ニューラルネットワーク(Artificial Neural Network 以下 ANN)を用いた機械学習を可能にした基盤的な発見と発明」である.
ANNを用いた機械学習,特に,深層学習(ディープラーニング)は,人工知能システムの性能を大幅に向上させ,実用化につなげた.画像や音声の認識から始まって,自然言語テキストの識別や理解,そして,最近は画像,動画,テキストやプログラム,音声,音楽等の生成まで,技術が急速に発展して応用も拡がっており,その社会的インパクトの大きさはいまだに計り知れない.同じ2024年のノーベル化学賞を受賞したHassabis氏らのタンパク質の立体構造の推定の研究でも,深層学習が大きな役割を果たしている.
社会への波及効果の大きさという意味では,ノーベル賞にふさわしい技術であるが,物理学の研究を対象とする賞が,情報技術である人工知能の基礎研究に与えられたことは多くの人々を驚かせた.1980年代から脳の情報処理原理に興味を持ち,ANNの研究を行っていた筆者も,受賞を大変よろこばしく感じる一方で大変驚いた.しかし,公式に公開されている授賞の科学的背景(Scientific Background)についての文書$${^{☆1}}$$を読むと,両名の研究と物理学とのつながりが深いことが分かる.
階層型の深層ニューラルネットワークを使った深層学習についてはすでに多くの解説や教科書があり,ご存じの方が多いと思うが,今回の授賞の主たる対象となったホップフィールドネットワークやボルツマンマシンは 1980年代に提案されたANNであり,あまり知られていない可能性もあるため,まず簡単に説明させていただく.
ANNは,神経細胞(ニューロン)が相互に結合したネットワークである生物の脳の構造を模擬した数理的な機械学習モデルである.1つのニューロンは,他の多くのニューロンからの信号を受け取り,簡単な処理をして出力する,多入力1出力の素子として数理的にモデル化されている.他のニューロンから信号を受け取る結合部分をシナプスと呼ぶが,ニューロン間の結合の構造と,シナプス部分での信号伝達効率を変化させることでさまざまな情報処理を実現できる.
ANNにおけるニューロンの結合のしかた(ネットワークの構造,アーキテクチャ)は,大きく2つに分けられる.1つ目は現在の深層学習で主に使われている階層型のネットワークである.複数のニューロンから成る「層」が並び,隣り合う層のニューロンは,入力から出力に向かう方向に結合されている.入力層にセットされた信号は,次々と層を経る間に処理されて出力層に達すると処理が終わる.
もう一つは,すべてのニューロンが相互に結合している相互結合型のネットワーク(回帰結合型のネットワークとも呼ばれる)である.(一部の)ニューロンの出力値をセットして動作させると,ニューロンが相互に情報をやりとりしながら処理が続く.結合の重みによっては,ニューロンの安定な活動パターンに収束したり,各ニューロンの出力値の振動が続いたりする.
Hopfield氏は1982年の論文で ,相互結合型のANNによって連想記憶が実現できることを示した.それぞれのニューロンは0か1の値を出力するとする.このとき,ニューロン全体が作る0/1のパターンが記憶の内容になる.あらかじめ複数の記憶させるパターンを決めて,それにあわせて結合の重みを設定しておく.これが記憶の記銘になる.
このANNの一部のニューロンの値を,記銘したパターンの一部の値に設定してANNを動作させると,対応するパターンの全体が少しづつ復元される.これが記憶の想起にあたる.パターン全体が復元された後はずっとそのままのパターンが保持される.すなわち,記銘したパターンはネットワーク全体がつくる力学系の安定点になっている.記銘したパターン(の一部)に少量の雑音を加えたりしても元のパターンを復元することができる.
こうした相互結合型のANNによる連想記憶のモデルは,1970年代初めまでに,日本の中野馨氏,甘利俊一氏,英国のWillshaw氏,フィンランドのKohonen氏らによって研究されていた.また,Wilson氏とCowan氏はニューロンの集団が作る非線形な力学系の動作の解析を行っていた.これらの先行研究に対して,物理学者であったHopfield氏は,相互結合型のANNを統計物理学の磁性体のモデル(イジングモデル)と関係づけた.磁性体の中では,各原子のスピンと呼ばれる量が上向き,下向きの2値をとり,それらの磁気的な相互作用によってスピンの上下が更新されてゆく.これが,ANNの中のニューロンの情報のやりとりによる出力値の更新と数理的には等価であったことから,連想記憶の記憶容量や想起の過程(想起ダイナミクス)などの解析に統計物理学の知見が適用できることを示した.
さらに,Hopfield氏による物理学とのアナロジーによって,相互結合型のANNの動作を,ニューロンの出力パターンから計算されるエネルギー関数を極小化するものとして捉えることが可能になり,それを逆に使って,巡回セールスマン問題のような組合せ最適化問題を相互結合型ANNを使って解くことも提案された.この研究は最適化問題の代表的な解法の一つである焼きなまし法や,それを発展させた量子アニーリングとも関連している.
Hinton氏が1986年の論文で提案したボルツマンマシンは,Hopfield氏のネットワークの動作を確率化したものである.ホップフィールドネットワークでは,それぞれのニューロンは他のニューロンからの信号を受け取り,結合の重みをかけて足し合わせた後に決定論的なしきい処理をして出力を出すが,ボルツマンマシンのニューロンは,他のニューロンからの信号を重み付けて足した値をシグモイド関数によって0から1の間の値に変換し,その値をニューロンの出力が1をとる確率として使って,出力の値を決める(ベルヌイ分布からサンプリングする).
この結果,ボルツマンマシンのニューロンは一定の状態に落ち着くことはなく,確率的に値を更新しつづけるが,長い時間観測したときに,あるパターンが現れる確率は,そのパターンのエネルギー関数によって定義されるボルツマン分布に従う.すなわち,エネルギーが小さいパターンほど高い確率で出現することになる.これがボルツマンマシンの名前の由来である.Boltzmann氏は,原子や分子のミクロな運動とマクロな熱力学を結び付けた,統計力学の祖とされる 19世紀の著名な物理学者である.Hinton氏は物理学者ではないが,ここでも物理学の成果がANNの研究に導入されている.
ボルツマンマシンはまた,パターンを記銘,想起する部分以外に,隠れユニットと呼ばれるニューロン群を追加することによって,多数のニューロンの出力値が作る高次元の空間の複雑な確率分布を学習することができることが示されており,この考え方は,現在の生成AIにつながっている.
このように,1980年代に統計物理学の研究とANNの研究がつながり,それをきっかけとして,多くの統計物理学者がANNの分野に参入し,レプリカ法などの統計物理学の技法を使って,ANNの記憶容量などの性質を解析するなど,理論的な研究が発展した.物理学から見れば,Hopfield氏やHinton氏の研究は物理学のフロンティアを拡大したのであり,このことが,今回のノーベル物理学賞の受賞につながっていると思われる.
しかし,1980年代のこうしたANNの研究が,そのまま現在の深層学習へと発展したわけではなく,その間には大きな冬の時代があった.その経緯をたどるために,ANNの研究の歴史を簡単に振り返ってみたい.
ANNの研究は1940年代に遡ることができる.脳が多数のニューロンのネットワークであることは,19世紀末に生理学者のCajal氏によって明らかにされた.その後の1947年にMcCulloch氏とPitts氏が,重み付き和としきい関数の単純なニューロンを数個つないだネットワークでさまざまな論理関数が計算できることを示した.さらに,1949年には心理学者のHebb氏が,結合の重みを変化させることによる学習というアイデアを提案(この仮説は後に神経生理学の実験で検証された).これらを受けて,1958年にRosenblatt氏が,学習するANNによるパターン認識装置「パーセプトロン」を提案した.
学習する情報処理装置というアイデアは大きな興味を集め,多くの研究が行われたが,1969年にMinsky氏とPapert氏が出版した『パーセプトロン』という書籍において,パーセプトロンの情報処理能力や学習能力の限界が指摘されたことから,米国でのANNの研究は下火になったと言われている(第1の冬の時代).一方,日本や欧州では1970年代も研究が続けられ,前述の中野氏,甘利氏,Kohonen氏の研究などが生まれた.また,この時期に,甘利氏による最急降下法による多層ネットワークの学習という,後の誤差逆伝播学習のコアとなるアイデアも発表されていたが,大きく注目されることはなかった.
ANNをめぐるこうした状況が変わったのは1980年代だった.このころ,Rumelhart氏らの認知科学者のグループがANNを人間の情報処理のモデルとして積極的に取り上げるようになった.認知科学では,コンピュータをモデルとして脳の情報処理過程を記述する研究が主流だったが,その限界を打破する可能性を持つアプローチとして,人間の脳に近い,並列分散的で学習的な情報処理を行うANNに期待が集まった.ANNのような,単純な素子を多数結合したシステムを使った情報処理の研究は「コネクショニズム」,あるいは「PDP: Parallel Distributed Processing」と呼ばれ,その中で,多層の階層的なANNを効率的に学習させるアルゴリズムの「誤差逆伝播法」が生まれ(再発明され)た.
誤差逆伝播法により,出力層のニューロンのみが学習していたパーセプトロンの学習の限界が打破されて複数の層のすべてのニューロンが学習できるようになったが,複雑なANNの学習問題はNP困難であり,必ずしも最適解が得られずに,学習が局所解に収束してしまうという問題があった.それにもかかわらず,誤差逆伝播学習は英語の発音の推定や,ソナーによる潜水艦の探知,手書き数字の認識,音素の識別などのさまざまなタスクに適用されて一定の有効性が示されたため,ANNの研究がまた盛んになった.すでに述べたHopfield氏やHinton氏らの研究もこの時期に行われている.
しかし,誤差逆伝播学習には局所収束性以外にも問題点があった.その一つが勾配消失である.誤差逆伝播学習は出力層での誤差を入力層に向けて伝播してゆきながら結合の重みの修正量を計算するため,ANNの層が多い場合には,入力層に近い層の結合の重みが出力での誤差に与える影響の評価が難しくなる.このため,たくさんの層を持つ階層的なANNの学習は困難であるというのが定説となった.さらに,1990年代にVapnik氏らが,局所収束などの問題点を持たない機械学習手法「サポートベクトルマシン」を提案すると,パターン認識問題や回帰問題に対する性能でも勝てないことが増えて,ANNの工学的な研究は下火になった(第2の冬の時代).
筆者も含めてANNの研究から離れて,サポートベクトルマシンや階層ベイズモデルなどANN以外の機械学習モデルの研究に転じる研究者も多かったが,そうした中で,Hinton氏のグループはANNの研究を続けて,2006年には,ボルツマンマシンの学習を高速化した制限ボルツマンマシンを使ったディープビリーフネットによって,層の多いANNを学習させる可能性を示した.
この時点でのこの研究の注目度は高くはなかったが,その後,インターネットの普及にともなって学習用に使えるデータが大規模化したことや,ゲーム用に開発されたGPUがANNの計算に使われたことなどもあり,誤差逆伝播学習を使って多層のANNを学習させる研究が進んだ.そして,2012年に画像認識研究用の大規模データImageNetを使ったコンペティションでHinton氏らのトロント大学のチームがANNを使って優勝したことにより,深層学習が,画像認識や音声認識などのパターン認識の世界で一気に注目を集めたのは周知のとおりである.
このときに使われた畳み込みニューラルネットワーク(Convolutional Neural Networks)も,日本の福島邦彦氏が1979年に提案した画像認識用のANNである「ネオコグニトロン」を源流としている.畳み込みニューラルネットワークの構造は,近傍にある部分が集まって構造を作るという,この世界の性質をANNの構造に反映させたもので,画像認識タスクの学習の効率化につながっている.
さらに2015年頃からは,ANNは機械学習の典型的なタスクである認識や回帰だけでなく,画像やテキストを生成するタスクにも使われるようになった.ANNを使って確率分布を定義することによって,画像やテキストの確率分布という,これまでは到底学習することができないと考えられていた複雑な確率分布を学習できることが示されて,その確率分布から新しいデータをサンプリングすることが可能になっている.
そうした中で 2017年にVaswani氏らによってトランスフォーマーと呼ばれるANNが提案されたことで,特に,テキスト処理の性能が大幅に向上した.テキスト処理では,近傍の単語だけでなく,遠くの単語の間の関係を捉えることが重要になるが,トランスフォーマーの層に組み込まれたアテンション機構がその効率的な学習を可能にしている.
このように爆発的な発展をとげているANNだが,多くの機械学習モデルの中で,なぜANNが成功したのだろうか? 深層学習の性能が話題になり始めたころでも,過去のANNの研究の浮沈を知っている研究者の多くは,現在のような状況を予想していなかったと思われる.筆者も,いずれまた,サポートベクトルマシンのような別の機械学習モデルにとって代わられる可能性があるのではないかと考えていた.
しかし,後から振り返ってみれば,機械学習モデルとしてのANNの特徴は,1980年代の「コネクショニズム」や「PDP: Parallel Distributed Processing」という呼称が捉えていたように,多くのエレメント上に分散的に表現された情報の単純な処理エレメントを使った並列分散処理にある.そして,そのことが,大量の学習用データにあわせてモデルの複雑さを変化させることを可能にするとともに,データとモデルが大規模になった際にも,学習にかかる計算コストが線形にスケールするという利点になっている.
たとえばサポートベクトルマシンの学習時の計算量は,カーネルの種類にもよるが,データ数Nに対して二乗のオーダーであり,データが大規模になった場合にはデータを間引くなどの工夫をして学習の時間の増大を防ぐ必要がある.しかし,ANNでは,大規模なデータを大規模なネットワークで学習させることができ,現在の大規模言語モデル(LLM: Large Language Model)や視覚言語モデル(Vision-Language Model)と,その応用であるChatGPTなどのサービスにつながった.
歴史を振り返ると,アイデアや技術というのは生物のようなものであり,関連するアイデアや技術の中で進化したり滅亡したりするということが分かる.そして,その盛衰を考える際には,アイデア単体ではなく,全体としてのアイデアや技術の生態系を捉えることが重要だということを改めて感じる.この文書の最後に,少し広い観点から,ANNを用いた機械学習およびそれに支えられた人工知能の今後について少しだけ私見を述べさせていただきたい.
まず,生成AIの技術に関しては,さまざまな課題があるが,個人的に最も興味深いのはマルチモーダル化である.典型的には,視覚情報と言語情報を相互に結び付け,画像や動画について質問応答したり,テキストから画像や動画を生成するような問題である.
ここで鍵となるのが,画像や動画の中の情報とテキストの情報を対応づける技術である.現在はCLIP(Contrastive Language-Image Pre-training)と呼ばれる学習法で,視覚情報の埋め込みベクトルとテキストの埋め込みベクトルを近い意味のものが近くになるように学習しているが,十分な性能が得られているとは言えない.また,トランスフォーマーを画像情報に適用して埋め込み表現を作るためのビジョントランスフォーマーは,画像をパッチにして系列化して処理しているが,この点ももう少し改善の余地があるように思われる.
データの増加による性能向上の限界を超えるための次の技術的なブレークスルーとして,画像やテキストの情報の構造,たとえば,画像には,物体があり,複数の物体が相互作用して現象が起こり,それがテキストに主語-述語-目的語などの形で記述される,といった構造を考慮したANNの構造やそこから生まれる情報表現を用いた,より効率の良い学習法が必要ではないだろうか?
技術的な課題とともに重要なのが倫理的な課題である.人工知能の性能が向上し,総合的に人間の知能を超えたAGI(Artificial General Intelligence)に到達するという議論もあるが,今後の進展の予測は難しい.学習用のデータとモデルを大規模にして性能を向上させることはそろそろ限界に達しているとも言われている.大規模言語モデルは人間がこれまでに積み上げてきた知識を学習しているのであり,自ら本質的に新しい知識を生み出してはいないとも言われている.その一方で,最近,sakana.ai社が自律的に機械学習の研究するエージェント“The AI Scientist”を開発したというニュースもあった.このエージェントは,機械学習に関する研究論文と実験用のプログラムを与えると,自ら性能を改善するようなアイデアを出し,プログラムを書いて実験を行い,論文にまとめる.さらには,論文の査読までする,というものである.
現在の性能はまだ萌芽的だが,こうした研究が発展して,AIが自律的に自分の性能を向上させるようになれば,指数的な性能向上が生じてAGIが生まれるという可能性は否定できない.ノーベル賞の元となったダイナマイトや核エネルギーが典型的に示しているように,強力な技術には利用上の大きな危険が伴う.人工知能もまた,社会の在り方を変えるような強力な技術であり,その利用には十分な注意が必要なことは間違いない.
人間や人間の組織には生存欲求に由来する暴力性がある.現在の人工知能にはまだ生存欲求はないと思うが,合理性に由来する暴力性は考えられる.フェイクニュースの生成やシステムのハッキングなどの悪意をもった利用だけでなく,悪意はなくても目的設定を誤ることで,人工知能が自律的に破壊的な行為をする可能性は否定できない.Hinton氏は人工知能の危険性について自由に発言するためにGoogle社を退社した.また,Hinton氏のグループ出身で,OpenAI社の技術的リーダーだったSutskever氏も,AIの利用とリスクのバランスに対する問題を理由としてOpenAI社を退社したとされている.人工知能技術の利用に関する倫理的な側面については技術の発展にあわせて議論を継続してゆく必要がある.
倫理の問題を考える上でも重要なのが,ANNの解釈困難性の問題である.ANNや人工知能の研究は,元来,賢い情報処理システムを作るという工学的な目的だけでなく,人間の知能や脳の情報処理原理を解明するという理学的な目的でも研究されていた.そこでは「構成的な理解」すなわち,知的なシステムを作ることを通してその仕組みを理解することが目指されている.しかし,現在のLLMなどのANN機械学習による人工知能システムは,いろいろなタスクで人間に近いレベルの能力を得るに至っているものの,そこで獲得されている知識は莫大な数の結合の重みの中に分散されている.LMMの内部に獲得された情報表現を解釈しようという研究も行われているが,そこで起こっていることの理解,解釈はなかなか困難である.作ることを通して理解するはずが,作れたのに分からない,という状況に陥っているようにも見える.
大脳,小脳,古皮質の情報処理原理について研究し,さらには視覚情報処理の認知科学的研究を推し進めてコンピュータ・ビジョン研究の基礎を作ったとされるMarr氏は,脳や知能に関する理論がどういう形のものであるべきかということを考察しつづけたが,1982年の著書『ビジョン』の中で,「脳のような複雑な情報処理システムを理解するためには,少なくとも,計算論レベル,情報表現とアルゴリズムのレベル,ハードウェア実装のレベルという3つのレベルでの理解が必要だ」と述べた.しかし,学習プログラムはプログラムを生成するメタプログラムであり,ANNによる人工知能の構成では,学習用モデルの構造と学習の目的関数を計算論レベルの理解にもとづいて設定した後は,学習を通じて情報表現とアルゴリズムが獲得される.そして,大規模なANNを用いた学習では,その獲得されたものは理解困難になってしまう.
こうした状況を踏まえて,知能を解明するとはどういうことなのか,構成的な理解とはどういうことなのかを改めて考える必要があると思われる.その際に参考になるのは複雑系科学かもしれない.大規模なANNは明らかに多数の要素が相互作用し,マクロな秩序を創発させる複雑系であり,人間や人工知能が多数集まって相互作用する社会,生態系もまた複雑系である.人工知能と人間が共存するより良い世界を形成するためにも,複雑系科学の視点からの検討は重要と思われる.津田一郎氏らが指摘するように,2024年のノーベル物理学賞に先立ち,2021年のノーベル物理学賞はスピングラスと気象現象の研究に与えられた.これらはいずれも複雑系科学の対象であり,物理学のフロンティアを拡げるものであった.
1970年代にBateson氏が述べたように,情報=差異が複雑系の中を流れ,差異が差異を生むことによって秩序が創発し崩壊する.言うまでもなく,情報の処理とは元来,生きたシステムが行っていることであるが,コンピュータ上に人間に匹敵するような新しい知能が生まれつつある現在,たとえば,Bateson氏が「精神の生態学」と呼び,Wiener氏が「サイバネティクス」と呼んだような,物質の世界と精神の世界を包含した世界の情報の流れと処理を扱う広い意味での情報技術の重要性はますます大きくなり,その前にはフロンティアが広がっているように思われる.今回のノーベル物理学賞というシグナルもまたそのことを示唆しているのかもしれない.
$${^{☆1}}$$ https://www.nobelprize.org/uploads/2024/11/advanced-physicsprize2024-3.pdf
(2024年11月27日受付)
(2024年12月11日note公開)