AGIがなぜ来るのかをシンプルに考える

K.Ishi@生成AIの産業応用

2024年10月13日 14:05

AGI（Artificial General Intelligence / 汎用人工知能）と呼ばれるものが、なぜ近い将来に現れるのか。そんなものはSFだと思っている人たちに、この話を極めてシンプルな論理で納得してもらいたい。

近い将来のAGIの到達を予見する考え方は、次の３つの主張からなる論理によって構成される。

AGI到達のためのシンプルな論理

時間と共に利用可能な計算量が増える
計算量を増やせばAIの性能は向上する
したがって、時間と共にAIの性能は向上する

AGIの到達にとって必要なことは、単にこれだけだ。

この記事ではここから先、この3つの主張、およびそこから導かれるAGIの世界について、一つ一つ端的に検証していく。

1. 時間と共に利用可能な計算量は増える

一つ目の主張は経験則的に正しい。なぜなら、過去何十年にわたって、時間と共に計算量は増えてきたからだ。過去何十年にわたって成立してきたものが、今から突然崩れるとは考えにくい。したがって、少なくとも直近の未来では、時間と共に計算量は増えるはずだ。

当然ながら、背後にはムーアの法則に代表されるようなハードウェアの性能向上由来の能力向上があり、その上にモデルのアーキテクチャや計算アルゴリズムの改善による能力向上、およびその他様々な影響による能力向上がある。

そして、問題なのはその速度がとてつもなく速いことだ。この経験則によると年間の有効計算量の増加率は10倍である。つまり、2025年の有効計算量は、2024年の10倍に達すると想定され、2026年はそのさらに10倍である。この有効計算量の指数関数的な増加が、急激な性能向上の根本的理由だ。

2. 計算量を増やせばAIの性能は向上する

二つ目の主張は、前述の主張に比べると少し弱い主張だ。これを支える根拠は、OpenAIの提唱する2つのスケール則、学習のスケール則と推論のスケール則だ。

a. 学習のスケール則

一つ目の根拠である学習のスケール則は、2020年にOpenAIが提唱した法則で、

データの量、モデルの大きさ（パラメータ数）、計算量を増加させると、AI(LLM)の性能が向上する

という話だ。データ量、モデルサイズ、計算量を性能に変換できるという法則は、そもそもディープラーニングの大規模化という時代の潮流の一環ではあるが、OpenAIはそれをより大規模にインパクトのある形で実証した。

図3. 学習のスケール則: AIの性能（事前学習のエラー率）は、学習時のデータの量、モデルのパラメータ数、計算量をスケールアップすることで向上する。

ただし、「３つの要素を増やしても最終的に性能は飽和する」や、「公開されているデータは使い尽くしてしまったので、これ以上増やす余地がない」などの反論も見られていて、これだけではいささか根拠が弱い。

b. 推論のスケール則

二つ目の根拠である推論のスケール則は、これもOpenAIがo1の発表と共に提唱した概念で、

推論時の計算量を増加させると、AI(LLM)の性能が向上する

というものだ。推論時の計算（Inference-Time Compute）とは、つまりAIを利用する時にかける計算のことで、利用前に予め行なっておく学習時の計算とは異なり、利用する度に発生する。

残念ながらその仕組みは非公開なため詳細はよくわからないが、例えばAlphaGoのアナロジーで、次の一手を決める際に、その候補を深読みすればするほど、精度が上がっていくと考えるとわかりやすいだろう。

図4. OpenAIの推論のスケール則: AIの性能(タスク解決精度)は、推論時により時間をかければ（より多くの計算をすれば）向上する。

図5. Google DeepMindの推論のスケール則: AIの性能(タスク解決精度)は、より多くのサンプルを生成するほど（＝推論時により多く計算するほど）向上する。

推論のスケール則の言わんとするところは、「計算量の増加によって恩恵を受けるのは、学習時に限られない」であり、前述の飽和の問題を緩和できる。また、学習データの不足の問題に関しても、データ内の文の論理を丁寧に追う（Chain-of-Thought）ことで、今あるデータの価値をまだまだ絞り出すという戦略で緩和可能だ。

総じて、推論のスケール則はまだ根拠が出揃っていないものの、学習のスケール則で見え始めた限界の兆しを跳ね除け、「計算量を増やせば性能が向上する」という主張を推し進める新たな扉を開いている。

3. 時間と共にAIの性能は向上する

単純に、

時間と共に利用可能な計算量が増える
計算量を増やせばAIの性能は向上する

が正しければ、

時間と共にAIの性能は向上する

が導ける。

AIの性能向上とAGIへの到達

「時間と共にAIの性能は向上する」が正しかったとして、それはAGIを導くのだろうか。上記の主張の厳密な検証も、AGIの厳格な定義に関する議論もないままその到達を論じるのは良くないかもしれないが、とにかく、AIの性能向上によりいわゆる人間以上の知性に到達できることを確認してみたい。

AGIの定義をOpenAI憲章に則って、

経済的に最も価値のある仕事において人間を凌駕する高度に自律的なシステム

とした時に、昨今のAIの性能向上によってこの定義がどう達成されるのかを見てみる。

図6は、様々なタスクにおけるAIのスコアを、人間を基準として測定した結果だ。古くは1998年の手書き文字認識（Handwriting Recognition）から始まり、画像認識（Image Recognition）、文章読解（Reading Comprehension）、言語理解（Language Understanding）など、言語や視覚に関する主要なタスクが既に人間レベルに到達していることがわかる。

そして、その他のより難しいタスク（音声認識、一般知識問題、数学的問題解決、コード生成）が今まさに人間を超えようとしているか、あるいは今年すでに超えている。

図6. 人間のパフォーマンスと比較したAIシステムの様々な能力に関するテストスコア。難易度の高いタスクにおけるAIのスコアは、ここ数年で急上昇している。

この先の問題としては何があるか。図にある複雑な推論（Complex reasoning）は、AIの問題解決能力を測る上で非常に重要なポイントで、OpenAIはo1によってこの能力を飛躍的に向上させたとしている。

この他にも、ソフトウェアエンジニアリング全般の実用的な能力を測る指標（SWE-bench）や、科学的発見の自動化能力を測る指標（ScienceAgentBench）なども今年新しく登場している。重要なのは、図からもわかるとおり、AIの性能向上のスピードを考えると、これらの指標が数年で人間レベルに達すると考えるのが妥当なことだ。

さらに、OpenAIは最近、機械学習の問題解決能力を測るための指標、MLE-Benchを公開した。これの意味するところは、

機械学習エンジニアリングによって作られた、
機械学習エージェントが、
機械学習エンジニアリングをする能力

を測るためのベンチマークであるという部分で、要するにAIエージェントが自身を改善していく能力に焦点を当てている。

現在でも既に人間の上位レベルなのだが、先ほどのタスク解決までの時間的傾向を考慮に入れると、数年以内にこのベンチマークで人間を圧倒すると考えるのが妥当だ。

図7. MLE-Benchにおける、機械学習問題に特化させたGPT-4oとo1-previewのスコア。o1-previewは、デフォルトで16.9%確率でメダルを獲得する。また、試行回数を増やすとどれか一つがメダル獲得を達成する確率(pass@k)が高まる。

もちろん、機械学習タスクとAI自身の自己改善にはもう一歩ギャップがあるのは事実だが、ここから言えることは、AIがAIを自己改善する領域に達するまでの道のりはそれなりに明確であるということだ。

自己改善により様々なタスク解決能力が自律的に向上するとなると、

経済的に最も価値のある仕事において人間を凌駕する
高度に自律的なシステム

というOpenAIのAGIの定義が達成されることになる。

AGI達成後の世界

その後の世界については、私のような一人の人間のちっぽけな脳みそではもはや判断などできないので、割愛したい。その後の世界について悲観する人もいれば、楽観する人もいて、人類の滅亡から永遠の寿命まで振れ幅が大きい。

ただ、説得力のある説明としては、AIが自己改善をすればとにかく機械の知能レベルが自己増幅をするだろうということだ。利用可能な計算量をAI自身で増やすことができるので、当然性能向上の速度が早まる。それにより達成する物や状況を、超知能(Superintelligence)と呼んだり、シンギュラリティと呼んだりしている。

図8. AI研究が自動化された後の有効計算量の変化。計算量の急峻な増加は、AIの性能の急激な向上を招く。この予測では、超知能は2030年には達成している。

おわりに

ここまで書いていて、やはり想像の範疇で語れる出来事ではないということを強く感じた。その意味で、やはり結局AGIなどSFの世界の話なのだろう。それはそれで、SFとしてでも良いので、とにかく一人でも多くの人に興味を持ってほしい。

※この文章をAIに添削してもらったところ、
"結論の曖昧さ：最後の部分で「SFである」と述べつつも、興味を持ってほしいと主張しており、やや矛盾した印象を与えています。"
と指摘されました。個人的には、この矛盾は人間っぽくて好きなので残しておきます。

※参考文献は各箇所にリンクとして埋め込みました。