OpenAIがついにAGIを実現したと発表!(詳しく説明します)
5,407 文字
今日はAI業界にとって歴史的な瞬間となりました。AGIが現実のものとなった日として記憶されることでしょう。OpenAIが新モデルO3を発表したからです。なぜこれがAGIと考えられるのか分からない方のために説明します。
OpenAIは今日、新モデルを発表しました。これはH seriesの2番目のイテレーションとなるモデルで、じっくりと考えを巡らせるように設計されています。ARCベンチマークは特に重要です。なぜなら、これは暗記に頼らないテストだからです。ARCは人工知能のためのIQテストとして設計されており、他の言語モデルのベンチマークと異なる点は、暗記に依存しないように作られていることです。
言語モデルの仕組みを見てみると、基本的には大規模な補間メモリです。できるだけ多くの知識とパターンを組み込むことで能力を向上させています。一方、ARCは多くの知識を必要としません。基礎的な物理、物体の概念、数の概念など、4、5歳の子供が持っているような基礎的な知識だけを必要とするように設計されています。
興味深いのは、ARCの各パズルが新しく、おそらく以前に一度も出会ったことのないものだということです。インターネット全体を暗記していたとしても、それは変わりません。人間には簡単に解けるのに、AIシステムがまだ習得できていないARCテストがどのようなものか理解するために、この動画の例を見てみましょう。
AGIは入力と出力の例を持っており、目標は変換ルールを理解し、出力を予測することです。サム、ここで何が起こっているか分かりますか?おそらく空いているスペースに濃い青い四角を置くのでしょう。その通りです。人間には直感的に簡単に分かりますが、AIにとってはそれを理解することが驚くほど難しいのです。
興味深いのは、これまでAIはこの問題を解決できなかったのに対し、人間のパネルでは解決できることが確認されているということです。ARCの特徴は、各タスクが個別のスキルを必要とすることです。青い四角を角に置くような同じタスクは二度と出てきません。これは意図的に行われており、モデルがその場で新しいスキルを学習する能力をテストするためです。単に暗記したことを繰り返すのではなく、新しい問題に対応する力を見たいのです。
ARCv1は最先端のモデルで0%から5%に到達するのに5年かかりましたが、今日私は大変嬉しく思います。O3が低計算力での使用でARCの非公開テストセットで75.7という新記録を達成したからです。これは本当に重要な成果です。この問題の解決に約5年を費やしてきましたが、これはAIのゴールドスタンダードとされるベンチマークであり、AIが従来苦手としていたタスクで初めて人間を超えたことを示しています。
興味深いのは、O3には低設定版と高設定版の2つのバージョンがあることです。低設定O3は最小限の推論努力を表し、速度とコスト効率に最適化されており、深い推論を必要としない単純なタスクに適しています。高設定では、モデルはより多くの時間とリソースを使って問題を分析し解決します。より深い推論や多段階の問題解決を必要とする複雑なタスクに最適化されています。
モデルをより長く考えるように調整すると、現在の人間のレベルを超えることができることが分かります。ARCのクリエイターたちは、この性能は新規性への適応において真のブレークスルーであり、段階的な進歩ではなく、未知の領域に踏み込んでいると述べています。これはAGIなのでしょうか?
フランソワ・ショレは、これは正確にはAGIではないが、AGIに向けた重要な一歩だと説明しています。O3はまだARCv1の簡単なタスクの一部を解決できず、初期の兆候ではARCv2はO3にとって依然として極めて困難であろうと述べています。彼は、これは専門知識を必要とせずに、人間には簡単だがAIには不可能な、飽和していない興味深いベンチマークを作ることができることを示していると結論付けています。
彼は次のように述べています。「一部の人々は、そのような評価テストを作ることが単に不可能になったときにAGIが実現すると、目標が移動したと言うかもしれません」これは、彼が今年初めに述べたことと少し異なります。
6ヶ月前、80%の閾値を超えることについて彼が言っていたことを見てみましょう。今日起こったことですが、1年後にマルチモーダルモデルがARCを解決できる、つまり90%に達するとしましょう。人間の平均スコアを超えた場合、それがAGIだと思いますか?「はい、おそらくAGIでしょう。正直に言うと、私が見たいのは基礎的な知識だけで訓練された後、約80%でARCを解決するLLMタイプのモデルです」
モデルの制限の1つは実際に計算コストです。彼は、ARCプライズコンテストはまだ勝利していないと説明します。なぜなら、それは完全に非公開のデータセットを対象としており、それは異なる、やや難しい評価となるからです。ARCプライズは、タスクあたり約10セントの固定量の計算で解決策が機能することを要求します。
本当に興味深いのは、ここで見ると、高設定O3はタスクあたり約1000ドルのコストがかかる計算量を使用していることです。このAIを何かに使用しようとすると非常にコストがかかります。多くの異なる解決策を探すこれらのモデルは、本当に本当に高価になると思います。タスクあたり1000ドル以上かかるこのモデルを見ればわかります。何かのタスクに使用することを考えると、とんでもなく高価です。
もちろん、人工知能で見てきたように、コストは最終的に下がるでしょう。ベンチマークを達成できたこと自体がすでに素晴らしいことです。大きなテレビや大きな電話のように、初期は大きかった技術と比較できます。しかし、技術の進歩により、より効率的になり、最終的により速く、もちろんより安価に物事を行えるようになります。AIでも同じことが起こる可能性が高いです。
驚くべきは、2年前、彼はARCベンチマークが完全に解決されるまで少なくとも8年かかると言っていたことです。4、5年で70%に達するかもしれないと話していました。もちろん、AIはほとんどの予測を超えて進歩していることがわかります。また、非常に難しいソフトウェアエンジニアリングのベンチマークであるSBenchでも非常に良い性能を示しています。
ソフトウェアエンジニアにとっては、おそらく最高のニュースではないでしょう。しかし、今やこれほど多くの人々がプログラミングをしているので、ここで書かれているコードを本当に理解できるソフトウェアエンジニアへの需要は、おそらくより高まっているでしょう。これは興味深いことです。なぜなら、このビデオを作っている時に気づいたのは、これは実際にO2であってO3ではないということだからです。
すぐに、私の新しいプロジェクトについてお話ししたいと思います。ご存知のように、ここではAIについてよく話しています。私の目標は、この素晴らしい技術をできるだけ多くの人々に知ってもらい、特にAIについての意識を高めることです。なぜなら、私の周りの人々と話すと、人々は本当に何が起こっているかあまり意識していないからです。
しかし、私がよく言っているように、チャンネルをできるだけ本物に保ちたいので、チャンネルでは製品プレイスメントを一切行っていません。そのため、トレーニングコースを作りました。あなたの人生のあらゆる分野でAIを使用する方法を学びたい場合、実際、ビデオをご覧になっているなら、おそらくすでにChatGPTなどのAIを使用していると思います。もし、あなたの考えをさらに深め、すべてのAIツールの使い方とそれらを生活に正確に適用する方法を学びたい場合は、説明欄やコメント欄、あるいはその両方に記載するリンクをご覧ください。
興味がある方はぜひご覧ください。また、AI愛好家のコミュニティであるVision AIにもアクセスでき、そこではAIをそれぞれの分野にどのように適用するかについて定期的に議論しています。申し訳ありません、少し中断しましたが、これ以上時間を無駄にせず、興味がある方は下のリンクをご覧いただけることをお伝えしておきます。
ここで少し脱線したいと思います。O3についてのこのブレークスルーを読んでいて、これが実際にモデルの2番目のイテレーションであることを思い出さなければなりませんでした。一部の人々はO3が3番目のイテレーションだと思うかもしれませんが、O2は英国の携帯電話事業者O2との競合があるためスキップされました。このモデルがまだ2番目のイテレーションに過ぎないという事実は、O3や even O4が大きな飛躍を表す可能性があることを示しています。
数学のベンチマークや科学の博士レベルのベンチマークも見ると、かなりの改善が見られます。しかし、私たちはベンチマークの飽和域に達しつつあると思います。競争数学のベンチマークが96.7%前後で、こちらが87.7%だからです。
以前も言ったように、多くの人々が言い始めていることの1つは、AIが以前と同じ率で向上していないため、減速しているということです。これらのベンチマークが95.15%や約89%に達すると、増分の改善はますます達成が困難になることを理解する必要があります。第一に、残りは10%しかなく、第二に、おそらくすべての質問の3〜5%は汚染されています。つまり、これらの質問にはエラーがあり、一部のベンチマークで100%を達成することは不可能です。
そのため、彼らはFrontier Mathベンチマークを作ることを決めました。ベンチマークが2、3ヶ月前に公開された時点で、現在のモデルはこれらの質問で2%しか達成できませんでした。トップにはGemini 1.5 Pro、Claude 3 Sonnet、O1 Preview、O1 Miniがありましたが、O2やO3がどれほど優れているかを理解していない人々のために言えば、このモデルは25%を達成しているのです。これは本当に信じられないことです。
研究レベルの数学に関しては、このタイプの数学は極めて難しく、これらの質問はすべて完全に新しいものだということを理解する必要があります。最近のベンチマークは本当の能力を示していません。このように考えてみてください。これらのベンチマークを見ると、モデルは全体的に10%改善したと言えるかもしれませんが、それは真実ではありません。なぜなら、本当に難しいベンチマーク、つまり未知の数学的問題を解決する場合を見ると、現在の最先端と比べて20倍の改善が見られるからです。これは絶対に信じられないことです。
これは人々が理解すべき非常に重要なイメージだと思います。このタイプのモデルを比較することはできません。たとえベンチマークで大幅な向上を実現したとしても、とてつもないレベルのスコアを獲得しているこれと本当に比較することはできません。OpenAIの推論チームで働くノア・ブラウンが、O3はこの軌道を継続すると述べたことを理解することが重要です。したがって、AIが減速していると考える人々がいますが、明らかにそうではありません。
興味深いことに、サム・オルトマンもインタビューでAGIだと考えるものについて語っています。以前も言ったように、定義は常に変化し進化しています。これは人々が多用していた用語で、将来の遠い未来にある非常に知的なAIを指していました。それに近づくにつれて、私はこれがあまり有用な用語ではなくなったと思います。人々はそれを非常に異なることを指すために使用しています。一部の人々はそれをLLMとそれほど違わないものを指すために使用し、他の人々は真の超知能、つまり人類全体を合わせた以上に知的な何かを指すために使用しています。
現在、私たちはこれらの異なるレベルを使用しようとしています。5段階のフレームワークがあり、現在は推論で第2段階にいます。AGIかどうかという二元論ではなく、私たちがそれに近づくにつれて、より複雑になってきたと思います。来年末、2025年末までには、多くの困難な問題について、これは私よりも賢いと思うほどの、本当に驚くべき認知タスクを実行できるシステムが登場すると予想しています。
ここで注目すべき唯一のことは、セキュリティ研究者の場合、O3 MiniとO3のテストを手伝うために応募を検討するよう求められているということです。なぜなら、彼らはこれらを近いうちに一般に公開することを楽しみにしているからです。OpenAIがこれらの信じられないモデルを作り出したことを非常に誇りに思っています。
これらのモデルが実際に公開されたとき、人々が何を作り、何を構築し、もちろん次に何が起こるのか、見るのが興味深いでしょう。この動画を楽しんでいただけたなら、あなたの考えを聞かせてください。これはAGIでしょうか、そうでないでしょうか?このベンチマークは超えられ、私たちは常に新しいアプローチを見出しています。したがって、これがどこに導いていくのか見るのが興味深いでしょう。