AGI開発の短いタイムラインに楽観的な理由
※この記事はメモ代わりに書いているため、証拠も論拠も荒々しく引用もあまりありませんがひとまず置いておきます。
AGIは近いのか?
元OpenAI SuperAlignment teamのLeopold Aschenbrenner氏が2024年6月5日にAGIは2027年末までに開発されるという衝撃的なエッセイ「Situational Awareness」を公開した。これについては少しXで解説した。
基本的には計算資源をGPT-4の数百倍から千倍かけ、アーキテクチャをトレンド通りに改善し、現実世界でエージェントになるように推論時間(思考する時間)を長くすればAGIが開発できると書かれている。
ここではあまりAGI(汎用人工知能)の定義には拘らない。
大雑把に優秀な研究者以上にさまざまな科学研究を行え、殆どすべてのリモートで実行可能なホワイトカラータスクを自動化できるAIシステムとここでは考えてみる。
それが開発されたらAI研究を自動化でき、自己改善ループが始まり、すぐさまにあらゆる認知タスクにおいて最高の人間をパフォーマンスで圧倒する超知能(SuperIntelligence)が1年以内に生まれるとされる。ロボティクスもロングテールでうまくいかない機能も遅くて数年以内に解決される。
そして人類史は変わる。核抑止体制が終わる可能性があり、人類絶滅も含むX-riskが急激に伸び始め、アメリカと中国などの大国間での国家安全保障を動機とする緊張は歴史上類を見ないレベルで上がり、その一方で経済成長率は現在の数%から数十%に伸びていく。
そういうシナリオがエッセイでは語られている。
これはどこまで現実的なのだろうか?上記エッセイで詳しく書かれていないのは特にスケーリング則において問題となるデータ不足の問題と、現状広く用いられているTransformerの汎化性能の問題に対する応答だが、私はおおよそ75%以上の確率で上記の意味でのAGIは2030年末までには実現すると考えている。
その理由には二つある。
①AGI開発のボトルネックは少ないという直感(データ不足の問題と汎化性能に関する問題は解決できるという直感)
②OpenAI,Anthropic社員などの発言が強気でそれに呼応するように国家安全保障の動きもあるため。
②に関してはゴシップすぎると感じられる方も多いかもしれないが、私はすべての情報を考慮してAGIの実現可能性を推察するべきであり、たとえ噂やリーク情報であってもその信頼性を吟味する必要があると考えている。
何故なら人類史が変わるかもしれないのだから、ゴシップだろうとなんだろうとそのインパクトを考えたら情報収集をするべきだと私は感じているからだ。
AGI開発のボトルネックは少ないという直感
AGI開発のボトルネックでよく言われる指摘は、
a:スケーリング則にはもうデータが足りないのではないか?という批判。
b:Transformerの汎化性能には限界があり、ただ学習データを記憶しているだけではないかとする批判。
の二つが挙げられるだろう。
私はaの課題には
・パラメータ数を増やす方向性をまず考える。
其の後、データ不足に関しては
・最大限世界中のマルチモーダルなデータをスケールし学習すること
・推論過程を大量に生成し学習させること(RL探索手法、マルチエージェントシステムなどを用いて)
・多様で膨大なビデオゲームを合成データ源として活用すること(システム2的な長期タスク能力の会得)
この四つで対応できると考えている。
またbの課題には
・現状のTransformerの限界は指摘されているが、将来のスケールされたモデルの限界を指摘する論文はない。
・検証は問題を解くよりも容易であり、ある思考の過程を正しく検証可能(報酬も自己付与可能)なAIはスケーリングで到達可能である。
・そして報酬を自分自身で与えることができるAIシステムが開発されれば、計算資源をスケールすることでAGIまで到達する。
として応答できると思っている。
パラメータ数を増やす
まず第一にデータ不足を論じる前に、同じデータ量を考えてもモデルのパラメータ数を増やすことで性能が高まる可能性がある。
理論的背景としてはパラメータ数を増やせば増やすほどあるタスクを解くことのできる回路を見つけやすくなるといった宝くじ仮説や最近ではパラメータ数をChinchillaのスケーリングで最適だと考えられたものより大きく取ることでハルシネーションが抑えられるという研究がある。
つまりまずはデータ不足に関してはおいておき、パラメータ数を少なくとも現状より一桁以上増やすことでモデルの性能を上げる方向性が考えられるだろう。
データ不足への対応
そして次に、確かにスケーリング則はテキストデータのみで見た場合限界に近づいている。
たとえば、Llama3 は15Tを超えるトークンでトレーニングされる。LLMトレーニングに使用されており、高品質なテキストデータの推定値である10^13token付近になっている。
そこで考えられるデータ不足の解決策は以下3つ。
●マルチモーダルにわたってスケールする。
このデータ不足に対応するためにまず考えられるのはテキストデータだけではなく、画像や動画や音にわたったマルチモーダルなデータの学習をスケールさせることだろう。
これに関してはまだ画像については数桁余裕があると思われる。
10^13の画像があったとして、1画像100tokenとしたら10^15tokenはあり、GPT-4の推定パラメータが数兆パラメータであることを考慮すると、
10^15*10^12=10^27FLOPs代の計算量となる。これはLeopoldの予想だと2026年に使用できる計算資源となる。
(もしかしたら最近の計算資源スケーリングの加速から、2025年末までに使えるかもしれない。)
ともかくあと数年、早ければ1年くらいはマルチモダリティに渡ってスケールする余地はありそうだ。
音声や動画についても考察すると、1分に500時間の動画がYoutubeにアップされているとされる。
youtubeがサービスとして出てきてから15年間の平均をそれとすると、
1.5*10^13秒の画像がYoutubeに溜まっていることになる。
1秒1画像としたら10^13imgsで1画像100tokenとしたら10^15tokenなので、そこまで大きく画像と変わらないスケールで世界にマルチモダリティに渡ってのデータは存在するのではないだろうか?(音についても同様)
●品質の高いデータを専門家を雇い作成する。
大量の専門家を品質の高いデータを作成するために雇うコストは無視されがちだが大きくなるかもしれない。一万人の専門家を一年フルタイムで10万ドルでデータ作成作業で雇った場合、10^4(一万人)×10^5ドル=10^9ドルとなる。これは10億ドルとなり1500億円ととてつもなく大きい額になる。
1日1000トークンとして、およそ240日で1人2.4×10^5トークン作れる。それが一万人いると2.4×10^9tokenになる。
高品質なデータが少量でもあればLLMの性能を向上させることが可能だろう。1000億ドルスケールのトレーニングが今後Leopold Aschenbrennerのいうように将来行われる場合はそのうちの数%は専門家を雇う費用になる可能性がある。
●推論過程を大量に生成し学習させる(RL探索手法などを用いて)
最近論文でRL探索手法とLLMの組み合わせによって推論過程を評価しつつ問題を解決するアプローチが探究されており、10b以下の小さなモデルでもGPT-4レベルのパフォーマンスを限定された数学タスクにおいては達成している。
また最近では数学の証明をLeanのような形式言語にLLMで翻訳して、強化学習を人間の報酬付与なしに可能にしたGoogleDeepMindのAlphaproofのような手法もある。この手法でLLMの数学における証明能力が数学オリンピック銀賞レベルに飛躍した。
推論過程自体をこのような手法で生成し、LLMに学習させることでいわゆるシステム2的な思考が強まるのではないかと私は推測している。
しかしLeopold氏のエッセイではこれから計算資源が1000倍にも増える可能性に触れられており、そこまで大きなデータ量は推論過程を生成したとしても得られるのかは一見すると疑問符がつく。
世界中のあらゆる学問の問題を10^9tokenとして、言い換えで10倍、モンテカルロ法探索で1000倍に推論過程を増幅しても10^13token。
1000倍の計算資源スケーリングとなると、GPT-4のパラメータをChinchilla論文のスケーリング則から最適なスケール割合としてパラメータもデータも同じ程度に増加させると、30倍ずつになる。既にGPT-4は10^13token程度は学習していると推測されるため、少なくとも学習データは10^14token程度はないといけない。そこまで大量のデータを合成できるかは不安がある。
そのため、この推論過程を増やす手法は10^14tokenという大量の合成データを得る目的というよりは、学習データ量が少なくても、LLMの推論能力を飛躍的に上げる目的を持っているのではないかと考えられるかもしれない。(Text is All you need論文のように。)
しかし、合成データを世界中の専門書籍を「読んで考える」ことで、トークン数を大幅に拡張することができる可能性がある。
10^6冊×10^5token=10^11tokenの専門書のトークンが世界にあるとする。
コンテキスト窓が10万、パラメータ数を1兆とすると、大雑把に必要なFLOPsは10^5コンテキスト窓×10^12パラ×10^11token×10倍拡張=10^29FLOPs。
またマルチエージェントシステムにわたって「複数エージェントが考え、検証/話しあう(生成より検証のほうが容易)」ことで合成データを増やす場合、上記の10^29FLOPs×エージェント数になる。
現状開発中のフロンティアモデルは10^26FLOPs代程度だと推測されるため、まだ1000倍もスケーリングの余地が出てくる。つまり、合成データはスケーリングにとっての宝庫になる可能性もあるだろう。
ここで重要なのはトレーニングに計算量が必要というよりは、合成データを作る(推論する)のに大量の計算資源が必要になるということだろう。
●多様で膨大なビデオゲームを合成データ源として活用すること(システム2的な長期タスク能力の会得)
ここで少し解説しているが、今後データ不足は「ビデオゲーム」で解決される可能性があるかもしれない。賢い人にとっては当たり前すぎる発想で何を今更という感想かもしれないが、私にとっては一周回って盲点だった。
ビデオゲームの画面や音をインプットとして、アクションキーをアウトプットとし、ゲームのクリアを報酬とする。ビデオゲームには多種多様なゲームがあり、報酬は基本的には設計済みで、設計されていなかったとしても指定することは頑張ればできるだろう。つまり人間によって報酬を与えなくてはいけないためスケーリングが妨げられるという問題からは解放される。
そして、今のLLMはシステム1的で直感的な思考しかできない。だから論理的思考もできないし計画もできないと批判されることがある。
一方でゲームをクリアするためには直感的に行動するだけではダメで長期的に物事を考えるシステム2的な思考能力も要請されるだろうし、クリア時間をできる限り早くさせたり、敵を強くしたり、難易度を上げることで圧力をかけることも可能だろう。そして何より、データ源は多様であり多種多様なジャンルのゲームがあり、人間によって念入りに練られた面白い複雑なゲームは世界中に山ほどある。
データ容量としては例えば一万のゲームを一万時間それぞれAIにプレイさせるとし、AIの推論には常に10^15FLOPSかかるとしたら
10^15×10^4×3.6×10^7=3.6×10^26FLOPs
5万のゲーム(steam全体くらい)を5万時間としたら30倍で10^28FLOPs必要になる。
補足としてアップルストアやgoogleストアにはゲームは数十万あるらしい。
そうするとGPT-4の計算リソースの1000倍は必要になる(かもしれない)ことが概算できる。
データの不足やシステム2的な思考能力の養成にビデオゲームは注目に値するかもしれない。
検証は問題を解くよりも容易という直感
●LLMの限界は現状のLLMの限界
LLMには限界がある。例えば文法的な能力には秀でているが世界の理解を求めると不安定、創発はベンチマーク設定依存の幻想、Transformerの汎化性能に関する問題、因果関係を推測することの困難さ、逆スケーリング則、AisBからBisAを推論できないなど指摘される。
確かに現状公開されているフロンティアモデルでさえこれらの問題は散見されるだろう。しかしこれらの論文は今後のLLMのスケーリングでどのような能力が会得されるかにはそこまで強く言及していないと感じる。
つまり現状のLLMで難しいタスクがあることを示してはいるが、将来のスケーリングされたモデルについての限界を示すことができていはいないのではないだろうか。
そして、例えば近年だとStepwise Internalizationと呼ばれる手法を使用してモデルを訓練した後に明示的なCoTを使用することで、9桁×9桁の掛け算問題では、GPT-2 Smallモデルが100%の精度を出している。
また他に、トランスフォーマーモデルが適切な埋め込みを使用することで20桁の数値で訓練したモデルが、最大100桁の加算問題を99%の精度で解決可能になる。
また、ある小学校レベルの算数ベンチマークにおいてLLMがどのように解いているかを調べるため慎重に設計された学習問題と評価方法を設計し、LLMは学習した時よりも長い問題を扱うことができ、パターン暗記ではなく解く方法を学習し汎化していると考えられる具体的な証拠も出てきている。
勿論これらはまだ完全に算術タスクを解けるAIモデルの出現を意味してはいないし、依然限界が有る可能性はあるが、ない可能性もある。そして私の直感は後者だ。
恐らく今後Leopold氏のいうようにアーキテクチャの改善や学習手法の改善、テスト時間や推論時間を増やすことでいわば「AIの考える時間を増やす」という方向性でのスケーリングなどやれることはたくさんあるだろう。
そして私がそれら無数の改善点を駆使し、スケーリングをすることでAGIに到達する可能性が高いと私が感じている理由としては次の直感がある。
●検証は問題を解くより簡単
スケーリングである推論過程が正しいか間違っているかを判定可能になれば、そこから計算資源をかければ自分自身で報酬を与えることができるようになり、徐々にAGIへと洗練されていくのではないかという期待が私にはある。
ここである推論過程の正誤を検証できることはある難しい問題を解けることを意味しない。 例えば数学である問題の証明を行うことは難しいかもしれないが、その証明が与えられた場合その証明が正しいかどうかを検証することは簡単だ。
つまり難しい問題を解くことのできるAIではなく最低限自分の言っていることが正しいのか間違っているのかを判定可能なモデルが拡張されたスケーリング(計算資源スケール+マルチモダリティ学習+RL探索手法+多様なゲームを学習+アーキテクチャや学習手法の改善など)で可能になるという感覚があるということ。
最初は教師データとある問題を解く過程を大量の専門家を雇い問題と解法として作ってもらい、その問題を解く過程を学習し、解法も含め報酬をプロセスベースで与え、少しずつベンチマークスコアを上げていく。
その後、モデルに問題そのものを合成データとして作られ、解かせる。その正誤をモデル自身に判定してもらい正しい確率がたかければそれを報酬として自分に与える。これを繰り返し広範囲の問題に対してハルシネーションを抑えたモデル(解けるかどうかは別。推論過程の正誤を判定できるレベルのモデル)が学習される。
その後、徐々に難しい問題にトライし、テスト時間(考える時間)を増やし、探索領域を拡大する。正解したら報酬を与えることを繰り返す。易しい問題から徐々に難易度を高めるカリキュラム学習を行う。
他無数の細かいテクニックやアーキテクチャの改善もあるのかもしれない。
大筋のアイデアとしてはこれでモデルの改善が徐々に進み、まずは自分のやっていることが支離滅裂ではないか?論理破綻していないか?を判定可能なAIシステムが誕生する。
その後、そのAIシステムが報酬を与える人間にとって代わることで、AI研究者の優秀な層にまである意味自己改善してスケーリングする可能性が高いのではないかとことを私は想定している。
つまり自分自身で自分の思考過程の穴や破綻を気づくことができるAIシステムまでなんとかあらゆる方法を駆使して開発(難しい問題は解けなくて良い。解けない場合はわからない、と言えるだけで構わない。)できれば、あとは計算資源のスケーリングでAGIまでいくのではないか?と私は考えている。
強い確信を持っている人たち/国家安全保障
ここまでは主にデータ不足はRL探索手法やゲームを合成データ源として解決し、自分自身の思考過程を検証できるレベルのAIシステムまではあらゆる手法と改善とスケーリングを駆使して到達できるのではないか?そうしたらAGIまで到達するのではないかと考えている私の直感の中身を説明した。
一方、もし私のこの直感だけだとしたら75%以上という大きな確率でAGIが2030年までに開発されることを強く確信はしていないかもしれない。恐らく50%以下に留まっていたと思う。
(ちなみにここでいうAGIは平均的なホワイトカラーのタスクを代替するレベルの話を想定していない。AI研究をトップレベルで行え自己改善能力を持ち得るレベルのAIシステムを想定している。平均的なホワイトカラータスクを自動化するレベルなら2030年までに75%程度と答えるだろう。全ての情報を考慮した今の私なら2026年末と答える。)
しかし2023年末頃からAGIはもう近いと示唆するような人が主にOpenAIやAnthropicから出てきた(このXのリンクリプツリーにほとんど纏めています)。
OpenAI CEOは世界の多くの人が考えるより早くAGIは開発され、GPTに限界はないと断言し、OpenAI研究者や元OpenAI社員はAGIは2029年までに開発されると自信を見せ、Anthropic CEOは2027年までに殆どの人間を殆どのタスクで上回る可能性はかなりあると発言し、UAE政府や日本政府にも近いうちの革新を予告しているような状況だ。
Ilyaはデータ不足は詳細は話せないが克服可能とし、Anthropic CEOもそういっている。
そして最近Q*に続き、openai社内会議での人間レベルの推論能力に到達するところだというreasonersに関するリークやStrawberryに関するリーク。
これも人によっては怪しまれるし、証拠とは見做さないだろうが、Jimmy Applesという様々なOpenAIリークを当ててきた有名なリーカーの中央値レベルのAGIが2023年9月に開発されたという発言がある。
(恐らく個人的な私の推測では、中央値レベルのAGIに到達する可能性の高い何らかの手法や実験結果が得られたということだと思われる。そのため現時点で中央値レベルのAGIがあるかはわからない。)
これだけだとOpenAIやAnthropic周辺はスタートアップだからポジショントークなのでは?と思われるかもしれない。しかし投資する側のMicrosoft CTOもスケーリングは終わらないと明言している。
また、恐らく私の推測ではあまりポジショントークをせず純粋な研究者であるIlyaはAGIは明らかに現状のアーキテクチャの延長線上で到達可能で超知能は手の届くところにあると発言している。
これら強気の発言に呼応するかのように去年末からアメリカ政府は国家安全保障の懸念を強めており、スパイを警戒し、NSA長官がopen AI 取締役会に就任しopenaiが中国アクセスを制限しUAE GPUにキルスイッチをつける案が出てきている。サムアルトマンも中国を脅威として国家安全保障の懸念を直接ワシントンポストに投稿した。
またもしGPT-4レベルで止まるとしたら、去年から今年にかけてのOpenAIにおける解任騒動も茶番になるのではないだろうか。
そしてGPT-4レベルで止まるとしたらマイクロソフトはスターゲート計画で1000億ドルのスパコンを準備し、UAEも数千億ドルを投資することはあり得るだろうか。 この状況証拠でgpt4付近で進歩が止まるとは考え難くないだろうか。
もし本当に種々の発言とそぐわない内部のAI進捗状況ならopenaiやAnthropicにいる千人の誰かが声を上げるのではないだろうか。
停滞がもしあり得るとしたらスケーリングでAGIが開発される可能性が相当あるとあまり根拠なく確信している人が多くいるが、実際は大したことなかったというオチだ。歴史的にみても様々な理論や技術が誇大広告に晒された後、間違っていたことがわかってきた。しかしその可能性は個人的には25%程度に思える。
既にGPT-4を超えるようなAIシステムの開発にめどがたっているからこそ強気の発言が多く出ており、アメリカ政府もその状況に矛盾しない行動を取り始めていると考えた方が自然な気がする。これには私のバイアスがあるかもしれない。そのため25%程度はAGIが2030年になっても開発されない可能性があると考えているが、このような状況証拠やボトルネック解消の可能性のある手法を試す今後数年は少なくともAIの停滞論を唱えるのは早すぎる判断だと私は考える。
もしAIモデルの能力が本当に上がっているならば当然AIアライメントにかける時間も多くかかるだろう。GPT-4は事前トレーニングが8月に終わってからリリースまで7ヶ月を要した。恐らく次のモデルがGPT-4よりも遥かに印象的なパフォーマンスを発揮するとしたら、社会的影響を鑑みて様々な関係者との交渉やアライメント作業に少なくとも一年弱はかかるのではないかと推測する。
次世代のフロンティアモデルのトレーニングが始まったばかりだと2024年5月に分かったため、順調にいっても年末か来年末までもしかしたら公開はずれこむ可能性もある。
もしくはAGIの開発にリソースを振り分けて、商品向けの展開をする計算資源がないために起こっている遅れなのかもしれない。
一方で、来年や再来年になってもGPT-4を大きく超えるAIシステムが登場しなければ、AGI開発のタイムラインに関する私の見解も変化するだろう。
しかし、AGIの開発が予想以上に早く実現する可能性がある現実では、人類史上かつてない変化の瀬戸際に立たされているかもしれない。AIの制御不能性に起因する壊滅リスク、国家間紛争の急激なエスカレーション、悪用や独裁者による価値観の半永久的なロックインなど、想像を超えるリスクを真剣に考慮する必要がある。
我々は、人類の運命を決定づける時代という、途方もなく大きな物語の中に生きているのかもしれない。
今回私はAGI開発のタイムラインに楽観的な理由を述べたが、AGI開発の可能性が小さくとも、アライメントや世界的なガバナンスの議論を早急に進める必要がある。そして、AGIが本当に近いのであれば、ポストAGI社会について議論する緊急性は一層高まるだろう。
今後もAIがもたらす恩恵だけでなく、その潜在的な大きなリスクにも焦点を当てた発信をしていきたいと思っている。