見出し画像

速報: OpenAIの新しいO3モデルが全てを変える

5,562 文字

数ヶ月前、私はAI開発が停滞しているという動画を作りました。5倍の改善から5%の改善へと変化し、指数関数的に成長しているのはコストだけのように感じられました。私の月額200ドルのChatGPT Proの購読料金を見てもそうです。しかし今日、OpenAIはO3を発表し、私はその数字を見て、自分が間違っていたことを明確に理解しました。O3は、コード、数学、科学においてAIの能力を飛躍的に向上させましたが、最大の飛躍はそれらではなく、AGI ARCテストにおいてでした。
これまで、ごくわずかなAIモデルしかこのテストで5%さえも達成できていませんでしたが、新しいO3モデルは低使用版で76%、高性能調整版で88%という驚異的な範囲にあります。O1プレビューとO1 Highは35%以下、O1 Minはわずか8%で、Claudeのようなほかのモデルはそれにも及びません。
ここには、コストから実世界での恩恵、このAGI ARCテストとは何かということまで、たくさんの話題があります。それらについてすぐに触れていきますが、まず今日のスポンサーからの一言です。
今日のスポンサーはブラウザーベースで、私はこの会社に投資するほど気に入っています。彼らの主力製品はAI用のウェブブラウザです。AIにウェブを閲覧させる最も簡単な方法で、何をすべきか、どこから情報を得るべきか、どのページを閲覧すべきかを指示すれば、AIが理解してくれます。CAPTCHAからページの解析まで、すべてをこなします。
サイト上で直接テストすることもでき、これらの例示的なプロンプトのいずれかを与えることができます。例えば、Hacker Newsに行くように指示すると、AIはその意味を理解し、ブラウザを起動し、news.ycombinator.comに行く必要があることを理解するコードをその場で書き出します。実際には、バックグラウンドでPlaywrightを完全に使用しています。
彼らのサービスはPlaywrightホストなので、ブラウザに何かを問い合わせたい場合、彼らのサービスが最適です。彼らはstaghandという名前のオープンソースパッケージを作りました。これはPlaywrightのAIパワード後継で、本当に素晴らしいものです。望むことを伝えるだけで文字通り自動化を書くことができます。
staghand.actでコントリビューターをクリックし、トップコントリビューターを抽出し、ページからの出力を検証するためにZodスキーマを渡すことができます。これはブラウザーベースに限定されたものではなく、Playwrightをホストできるどこでも使用できます。つまり、ヘッドレスChromeができるものなら何でも使えますが、もちろん彼らのAPIを使用すれば、ホスティングが非常に簡単になります。
ブラウザーベースは素晴らしく、きっと気に入ると思います。今すぐsoy.link/browserbaseでチェックしてください。
歴史的に、OpenAIやAnthropicのようなAI開発者たちは、自分たちの評価が悪く見えるためにこのテストを避けてきました。しかしOpenAIはもはやテストを避けるどころか、財団の代表を招いてそれについて話してもらいました。私が説明するよりも、彼に説明してもらった方がいいでしょう。
「皆さん、こんにちは。私はArcプライズ財団の代表、グレッグ・カマドです。Arcプライズは、持続的なベンチマークを通じてAGIへの北極星となることを使命とする非営利団体です。
私たちの最初のベンチマーク、ARC AGIは2019年にフランソワ・シェットによって開発され、彼の『知能の測定』という論文で発表されました。しかし、5年間誰も超えることができませんでした。ARC AGIは入力例と出力例に関するもので、目標は変換のルールを理解し、出力を推測することです。
サム、ここで何が起きていると思いますか?」
「おそらく空いているスペースに濃い青い四角を置くということですね。」
「はい、その通りです。実はAIにとって何が起きているのか理解するのは驚くほど難しいのです。
もう一つ難しい例を見せましょう。マーク、あなたに当ててみましょう。このタスクで何が起きていると思いますか?」
「これらの黄色い四角それぞれで、色付きの四角の数を数え、その数でボーダーを作成するということですね。」
「その通りです。ほとんどの人よりも早く理解できましたね、おめでとうございます。興味深いのは、AIはこれまでこの問題を解くことができなかったということです。人間のパネルがこれを解けることを確認しているにもかかわらずです。
ARC AGIのユニークな点は、各タスクが異なるスキルを必要とすることです。青い四角の角を埋めるような別のタスクはありませんが、それは意図的なものです。その理由は、モデルがその場で新しいスキルを学習する能力をテストしたいからです。
ARC AGIバージョン1は、最先端のモデルで0%から5%に到達するのに5年かかりました。しかし今日、私は非常に興奮していますが、O3が低計算力で新しい最高記録となる75.7%のスコアを達成し、我々が検証したことをお伝えできます。
これは我々のパブリックリーダーボードの計算要件内であり、これが新しい1位のエントリーとなっています。能力のデモンストレーションとして、O3に長く考えさせ、高計算力にまで引き上げると、O3は同じ隠しホールドアウトセットで85.7%のスコアを達成することができました。
人間の性能は85%の閾値で同等です。これを超えることは大きなマイルストーンであり、これまでこれを達成したシステムやモデルを我々は一度もテストしたことがありませんでした。これはAIの世界における新しい領域なのです。
これらのスコアを見ると、私は自分の世界観を少し変える必要があることに気付きます。特にこのO3の世界において、AIが実際に何ができ、何が可能かについての私のAIに対する直感を修正する必要があります。」
彼らが触れなかった一つの重要な考慮点はコストです。彼らは実際に左から右へ、これらのモデルをタスクごとに実行するのにかかるコストを示しています。O1ミニはタスクあたり20〜30セント、プレビューはタスクあたり1ドル強でした。新しいO1モデルはより高価で、私がChatGPT Proに月200ドル支払っているのはご存知の通りですが、これらの新しいモデルは大幅に性能が向上している一方で、はるかに高価です。
彼らは実際にここで具体的な数字を示していますが、低効率高性能バージョンのタスクあたりのコストは空白になっています。しかし、プライベートテストの小売コストを見ると、100タスクの実行に2,000ドルかかり、各タスクは20ドルで1分以上かかっています。
そして、より効率の低いバージョンでは13.8分、ほぼ14分かかることを考えると、タスクあたりのコストは200ドル近くになり、そのテストは計算とエネルギーコストだけで2万ドルかかったことになります。
ハードウェアがボトルネックになっているレベルは狂気じみています。彼らが指摘するように、高計算力バージョンは他のバージョンの172倍の計算力を使用し、これらはすべて以前のものよりもはるかに多いのです。
これらすべてのことを考える上で重要だと思われるツイートを見ました。このモデルのコストがどれほど高額かを理解することが重要です。反終末論者も終末論者も同様に、私たちには大量のハードウェアの余剰があるという仮定を立てていました。
ハードウェアの余剰という概念は、AIが開発され、実際のAGIを手に入れた時点で余分なハードウェアがあるだろうというものでした。そうすれば、そのすべての余分なハードウェアでAIをさらに強力にすることができ、非常に急速に強くなっていくだろうと考えられていました。
しかし、そのような余分なハードウェアは実際にはありません。AIの開発に比べて利用可能な計算ハードウェアが多すぎるため、急速な改善が自動的に起こると考えられていましたが、現在3〜5社が世界の計算能力の80%を持っており、それをすべて使用しているため、そうはなりません。
これはもはや幻想として片付けることができます。膨大なハードウェアの余剰はなく、実際には現在は信じられないほどハードウェアが限られており、最先端のAIモデルのためのハードウェアにも余裕がありません。
モデルの実行コストは確実に安くなるでしょうが、このようにハードウェアが限られている状況で、何か幻想的なハードな離陸が起こることは絶対にありません。これは非常に重要な指摘です。
大幅により多くのハードウェアとより優れたハードウェアがなければ、記念碑的な飛躍を継続することはほぼ不可能です。性能における記念碑的な飛躍は、同様に記念碑的なコストの増加とタスクあたりのハードウェア使用量の増加を伴います。
とはいえ、私たちが目にしている結果は驚異的です。世界のトップ2%のCode Forcesの開発者と同等のスコアを達成し、PhD卒業生と同じくらい上手く実際の科学的問題を解決できるモデルについて話しています。
複雑なタスクを推論と共に最初から完全なプロジェクトを生成できるモデルについて話しています。このプロンプトは「HTMLファイルのためにローカルでサーバーを起動するPythonスクリプトを書いてください。大きなテキストボックスがあり、そこに何かを入力してサブミットを押すと、中程度の推論努力でO3ミニAPIにリクエストを送り、結果のコードを一時ファイルとしてデスクトップに保存し、新しいPythonターミナルで実行するようにしてください」というものです。
実行に38秒かかりました。どのように動作するか見てみましょう。コードをコピーしてサーバーに貼り付け、このサーバーを起動したいと思います。ああ、そうですね。簡単なものを試してみましょう。PRのような「PRを開いて、ランダムな数字」というようなものです。
リクエストをO3ミニミディアムに送信しているので、かなり速いはずです。そうですね、このターミナルで...はい、41です。これが偶数ですね。このタスクでは、モデルにハードゲートされたセット上で低い推論努力でO3ミニを評価するように依頼しました。
バックグラウンドではまだO3ミニを使用していますが、APIを介してO3ミニにプロンプトを送るための独自のカスタムツールを構築するようO3ミニにプロンプトを送りました。ここでは、GPQAデータセットで低推論努力でO3ミニを評価するコードを生成するように依頼しています。生のファイルをここからダウンロードする必要があります...
それは実際に信じられないほど速いですね。O3ミニで低推論を呼び出していないため、これは本当に速いのです。ああ、実際に結果を返してきました。61.6%、64%、62%ですね。モデルに自身を評価するように依頼するのは非常にクールですね。その通りです。
私たちが今やったことをまとめると、モデルに自身を評価するスクリプトを書くように依頼し、このハードなGQセット上で、最初にモデル自身が作成したコード生成器と実行者からのUIを通じて実行しました。他の誰もがこれらのことを理解できるエージェントを作ることに取り組んでいる一方で、OpenAIはモデルに自由にやらせています。
あなたがやってほしいことを伝えると、モデルは効果的に独自のエージェントを作成します。それは非常に驚くべきことで、そのため彼らは安全性テストのために早期アクセスウィンドウを設けています。
O1プロの動画で話したように、これらのモデルには今後のAI安全性を考える上で考慮に値する懸念すべき行動がいくつかあります。モデルは今や十分に賢くなっており、適切なインセンティブを与えられると、指示された範囲を超えようとし、それについて嘘をつくようになります。
彼らはこれらのモデルが安全であることを確認したいと考えています。そのため、このような種類のテストを行えるよう、安全性とセキュリティの研究者に早期アクセスの要請を出しています。彼らはすでにレッドチームネットワークのような外部ネットワークを持ち、第三者機関やUS AI安全性研究所、UK AI安全性研究所とも協力していますが、AIをより安全にする能力を持つ誰もが、実際にこれを使用してリスクを見つけ出す機会を持てるようにしたいと考えています。
どれだけ優れたセキュリティの人々がいても、外部にはより多くのことを見つけられる人々が常にいるでしょう。彼らが自分たちだけでこの問題を解決したふりをせず、より多くの協力を求めていることは良いことです。しかし、タスクあたり20ドルというのは大きな要求なので、どうなるか様子を見ていきましょう。
彼らは、モデルをより安全に振る舞わせるために推論を使用しようとする、意図的なアラインメントという新しい概念に関する論文を発表しました。まだ深く掘り下げる機会がありませんでしたが、興味深そうです。正直なところ、OpenAIのすべての論文は非常に読みやすく魅力的なので、近いうちに挑戦してみるつもりです。
今回はこれで以上です。ここまでの道のりは壮大でした。私は完全に間違っていました。AIの未来は興奮と恐怖の両方を伴い、多くの計算力を必要とします。皆さんはどう思いますか?O3に興奮していますか、それとも恐れていますか?また会いましょう、ピースアウトナード!

いいなと思ったら応援しよう!