見出し画像

急速な進展がここに! - それを証明する11の指数関数的グラフ

5,728 文字

おはようございます。この動画はシンプルで分かりやすいものになります。この動画を作ろうと思ったきっかけは、最近次々と目にするグラフや、それらのデータが一つの方向を示しているということでした。
私が強調したいのは、私の予測は全てデータに基づいているということです。確かに、一部は推測による部分もありますが、常にデータに立ち返っています。データがあれば、それを信頼し、その上でストーリーを語ることができるのです。
では、始めていきましょう。タイトルにもある通り、この動画では11のグラフをお見せします。これらは私たちが今、指数関数的な進展のどの地点にいるのかを示すものです。
最初のグラフは非常に興味深いもので、「人類最後の試験」におけるAIのスコアを示すベンチマークです。現在のAI業界では一つの冗談のようなことがあります。それは、今年全てのベンチマークが飽和状態になっているということです。ベンチマークが飽和するたびに、新しいベンチマークを作る必要が出てきています。
例えば、arc AGIテストはほぼ解決されました。そのため「arc AGIテストは実はAGIの良いテストではなかった。なぜなら解決されたのにAGIは実現していないから」というような議論が出ています。しかし重要なのは、このグラフは2024年4月、つまり1年も経っていない時点で、モデルのスコアは5%だったということです。そして今やOpenAI Deep Researchは25%以上のスコアを記録しています。この傾向を外挿すると、1年以内に解決されることになります。
次のグラフは、私が以前から投稿しているものの別バージョンで、GP QA(Google Proof Question and Answering Diamond)のパフォーマンスに関するものです。少し長い名前ですが、もっと別の名前をつけた方がよかったかもしれません。2023年に遡るこのグラフには、明確な傾向が見られます。これはEpoch AIが公開したもので、彼らは非常に有用で興味深いAIデータのリソースを提供しているので、ぜひチェックしてみてください。
ランダムな推測では25%の精度です。4つの選択肢からランダムに選ぶと、25%の精度が期待できます。2023年7月には、GPT-4は...そこから明確な上昇傾向が見られ、70%以上の精度に達しています。これは任意の分野における人間の専門家レベルです。
これは2025年1月の時点ですが、この傾向が続けば、1、2年以内には基本的にすべてのモデルが、あらゆるタスクにおいて人間の専門家レベルを超えることになります。
ここで私が気になるのは、「AIは私のある特定のタスクではまだ劣っている」という人がいることです。しかし、そのタスクでもそう遠くない将来にAIの方が優れるようになるでしょう。さらに重要なのは、AIはすべてのタスクで常に向上し続けているということです。数学が得意なモデル、専門分野に詳しいモデル、コーディングが得意なモデルなど、個々のモデルが存在することを忘れないでください。
次に移りましょう。これは実は古いグラフで、2024年1月にArk Investが発表したものです。以前見たことがあったかもしれませんが、忘れていたか気づかなかったものです。このグラフは、AGIがいつ実現するかを示すものではなく、人間がAGIの実現時期を予測することがいかに下手かを示すものです。
2020年には専門家たちはAGIは50年先だと言っていました。1年後には34年後に、さらに1年後には18年後に、そしてその次の年には8年後になりました。基本的に、このグラフが測定しているのは専門家たちがどれだけ間違っていたかということです。
今では2026年から2027年頃にAGIが実現するという予測に収束しています。私の意見では、私たちは既に汎用人工知能を持っていると思いますが、ある意味それは言葉の定義の問題です。重要なのは、AIが急速に指数関数的に成長していて、専門家の予測の誤差が指数関数的に減少しているということです。
専門家たちがこれほど間違っているという事実は、AI安全性に関する議論に私が懐疑的な理由の一つです。専門家たちは2、3年先のことさえ予測できないのに、5年、10年、15年、20年先のAIの振る舞いを正確に予測できると主張する人がいます。そんなことはありえません。誰もそれほど賢くはないし、そのような予測能力は持ち合わせていないのです。また、彼らの信頼区間も良くありません。
このグラフは、私が最初に目にして「指数関数的な成長は既に始まっているだけでなく、加速している」と気付かされたものの一つです。これはすべてO3のもので、最後の灰色のバーがOpenAI O3を示しています。時間とともに、他のすべてのモデルも明確に成長していることが分かります。
Frontier数学、Arc AGI、ソフトウェアエンジニアリングベンチ、GP QA、そしてAIM 2024などがあります。これらのうち2つは数学、1つはソフトウェアエンジニアリング、そしてGoogleの質問応答とArc AGIの推論があります。このモデル一つでこれらすべてを達成し、以前はほとんど何もできなかったところから大きく飛躍しました。
このグラフが公開された時点では、Deep Researchはまだ発表されていませんでした。この成長は続くでしょう。
次に、最近公開された非常に興味深いグラフを見てみましょう。このグラフでは、人間のパフォーマンスを0として指標化しています。このグラフは少し前に遡りますが、機械学習がほとんど取り組めていなかった問題が、いかに急速に解決されたかを示しています。
例えば、基本的な読解力は、機械学習がほとんど対応できていない状態から、数年で解決されました。「解決された」というのは、モデルが人間レベル以上のパフォーマンスを発揮できるようになったという意味です。
OCRなどの技術は、ベンチマークが飽和するまでに15年以上かかりました。しかし、PhD レベルの科学的問題は1年未満で、競争レベルの数学は約3年で、マルチタスク言語理解も約3年で達成されました。タイムラインが短縮されているということは、加速が加速しているということです。
新しい問題が出てきても、飽和するまでに10年や15年かかるのではなく、新しい問題のクラスを特定してから3年未満、多くの場合1、2年未満で飽和してしまうのです。これが「加速が加速している」という意味です。
ここで少し宣伝させてください。私のリンクは全てリンクツリーにまとめられており、リンクは説明欄にあります。私はSubstackで記事を書いており、そこでビデオも再投稿しています。Substackには100以上の記事があり、Substackアプリは記事を音声で読み上げてくれるので、基本的にポッドキャストとしても楽しめます。
ちなみに、Spotifyでもポッドキャストを配信しています。また、学習コミュニティも成長しており、現在週に1〜3個の新しいレッスンを追加しています。その他にもたくさんのYouTubeチャンネルやコンテンツがありますので、ぜひチェックしてください。
では、本題に戻りましょう。このグラフは私が以前から使用しているものですが、依然として関連性があります。これもEpoch AIのもので、ニューラルネットワークの緩やかな上昇と、ディープラーニング時代について説明しています。
これは対数グラフで、1e2、1e8、14、20、26というように表示されています。指数関数グラフ上での直線が、さらに別の指数関数グラフ上で加速しています。年間4.6倍の成長率で、以前は年間1.5倍でした。
ディープラーニング時代の始まり以降、加速は3倍に加速しました。1.5から4.6に上昇したからです。そして、減速の兆しは全く見られません。実際、最後のクラスターを見ると、さらに加速しているように見えます。分布線の下のモデルが非常に少なく、上に密集しているからです。
この非常に密な集中が線の上にあることに注目してください。つまり、これは現在の加速率を過小評価している可能性が高いのです。
次のグラフも非常に興味深く、これもEpoch AIのものです。10の23乗フロップス以上のモデル数を示しています。これはモデルのトレーニングにどれだけの計算量が投入されたかを示しています。指数関数的には上昇していないように見えますが、実際にはそうかもしれません。成長曲線は非常に急速です。
2017年に一つの早期採用者がいましたが、その後急速に立ち上がり、減速の兆しは見られません。つまり、GPT-4以上のスケールでトレーニングされたオープンソースとクローズドソースの両方のモデルで世界が完全に飽和する状況になるでしょう。これは非常に重要な点です。
機械学習ハードウェアについて見てみましょう。このグラフも興味深いです。スケールの上昇が非常に急速です。これはテラフロップスで、浮動小数点32でのパフォーマンスを示しています。1から始まり、古いGPUがいくつか含まれています。
NVIDIAのQuadra、GTX 280などの古いものから始まり、NVIDIA Teslaが登場します。Tesla A100を覚えていますか?このスケールは非常に急速に上昇しています。この尺度での直線は双曲線的で、非常に急速に上昇します。
ここでも最後の部分で、分布線の上にハードウェアの高い集中が見られます。まだ下にもいくつかあり、かなり下のものもありますが、Metaも競争に参入しています。同時に、この予測を外挿すると、指数関数グラフ上の線形回帰が捉えきれていない加速曲線があるようにも見えます。
ハードウェアも依然として加速しており、基盤となるハードウェアはパラメータ数の成長における主要なボトルネックです。ハードウェアも加速しているということは、その上で動作するモデルの加速に実質的な障壁がないということを意味します。これは非常に重要な点です。
次のグラフも非常に興味深く、理解するのに少し時間がかかりました。累積システム数を示しており、1950年にまで遡るドメインと公開年別の注目すべき機械学習システムのデータベースを表しています。
基本的に、存在するAIの種類に関して、私たちは指数関数的に成長しているということを示しています。機械学習、AI、ニューラルネットワーク、あらゆる種類のものについて、より多くのアプリケーションやシステムが利用可能になっています。
ビジョンは長い間存在し、徐々に拡大してきました。「その他」が何を指すのかは不明ですが、言語、マルチモーダル、ビジョン、ゲームなどがあります。興味深いのは、ゲームにおける新しいAIシステムや機械学習システムの数がほぼ横ばいになっているように見えることです。
これはNVIDIAのニューラルレンダリングやガウシアンスプラットなどの取り組みにより、変化する可能性があると思います。ここで大きな飛躍が見られると予想しています。しかし、最も成長が見られたのは言語モデルです。これは急速に増加しており、もちろんマルチモーダルモデルは全く新しいものです。
マルチモーダルモデルが他のものと同じくらい急速に成長したらどうなるでしょうか。私たちは今まさに指数関数的な時代にいるのです。
次は、トレーニング計算量とベンチマーク精度の向上を示すグラフです。DeepSeek R1がここで突破しました。これは数学レベル5の精度を示しています。このグラフはO3の前に公開されたと思われます。
GPT-4を見ていますが、なぜO1とO3が表示されていないのか気になります。おそらく素晴らしい成績を収めているはずですが、DeepSeek R1はオープンソースなので自社でテストできたのに対し、これらのデータが入手できなかったのかもしれません。Epoch AIは最近、社内でのテストを増やしているとの発表がありました。
いずれにせよ、このようなグラフを見ると、数学は基本的に解決されたと言えます。もし今でなくても年末までには、誰もが数学を解決したAIモデルを持つことになるでしょう。数学があらゆる科学の基礎であることを忘れないことが重要です。
暗号技術であれ、コンピュータサイエンスであれ、物理学であれ、数学がすべての基盤となっています。そして、数学を解決するAIを手に入れたとき、AIそのものも数学なのです。数学とコンピュータサイエンスとコーディングを解決したAIを手に入れたとき、それはAIを解決したAIを手に入れたことになります。
だからこそ、私がアンケートを取ったところ、皆さんは2026年に完全自動化された再帰的自己改善が来ると予測しています。私もその予測に同意します。これが意味することです。
最後に、誰かがGoogleトレンドで過去5年間のAIエージェントを調べたグラフです。申し訳ありませんが、画面に収めるためにグラフが非常に圧縮されています。いずれにせよ、AIエージェントは指数関数的に急上昇しています。
すべてが指数関数的に、垂直に上昇しています。一つのグラフだけでなく、AIに関するすべてのグラフが今まさに指数関数的、垂直的に上昇しているのです。
ご視聴ありがとうございます。これらの情報が、現在起きていることについて話す際の自信と根拠を与えてくれることを願っています。これは実際に起きていることで、ボトルネックは存在しません。
過去に私は、計算能力のボトルネック、資金のボトルネック、アルゴリズムのボトルネックがあると言っていましたが、それらはどれも時間の試練に耐えられませんでした。その点で私は間違っていましたが、実は間違っていて良かったと思います。
なぜなら、これはより興味深いタイムラインであり、より早く大きな問題を解決できることを意味するからです。
では、良い一日を。ありがとうございました。

いいなと思ったら応援しよう!