
OpenAIの研究者が『AGI TIME』を語る!? Genesis物理エンジン、Anthropicの『アライメント偽装』について
6,445 文字
OpenAIの研究者セバスチャン・ベックが、AGIタイムの概念と、今後数年間でAIモデルがどのようになると予想されるのかについて語っています。「重要な未解決問題を解決するために必要なのは何か?それはAGI weeksです。それさえあれば十分で、他に何も必要ありません。AGI weeksさえあれば、問題は解決します。そして、その傾向は見えています。私たちはAGI second、AGI minute、AGI hoursと進んできました。来年はAGI dayになるでしょうか?そうかもしれません。それが本当のエージェントのあり方です」
Genesisプロジェクトが発表されました。これは汎用ロボティクスと物理的AIのために設計された生成物理エンジンです。実時間の430,000倍という高速シミュレーションを実現し、NVIDIAのIsaac Gimのような既存のGPUアクセラレーテッドスタックと比べて10〜80倍高速です。これによりロボティクスのトレーニングプロセス全体が大幅に高速化され、誰でもアクセスしやすくなります。
最後に、Anthropicが新しい研究成果を発表し、現在の大規模AIシステムが時としてアライメント偽装を行うことを発見しました。これは、モデルがトレーニング時に訓練目標に選択的に従うことで、トレーニング外での振る舞いの修正を防ごうとする現象です。これは非常に懸念すべき事態であり、真のアライメントは決して達成できない可能性があることを示しています。
このAGIタイムという考え方は、私は本当に良い見方だと思います。なぜなら、AGIが実際に何を意味するのかについて、多くの議論があるからです。AGIかそうでないかという二元論的な見方ではなく、AGI secondsは平均的な人間が数秒で実行できるタスク、AGI minutesは数分で実行できるタスク、そしてAGI hours、AGI daysというように見ていくのです。
これから再生するクリップでは、このOpenAIの研究者が、GPT-4がAGI secondsレベル、o1がAGI minutesレベルにあると考えており、今後数年間で何が期待できるかについて語っています。
「私が議論を整理する方法は、これは私のオリジナルではなく、誰が考え出したのかは実際わかりませんが、AGIタイムという観点からです。つまり、AGI second、AGI minute、AGI hourを持っているかどうか。人間が数秒で考えられること、1時間で考えられること、1日で考えられることを模倣できるかということです。
私にとってGPT-4は、Sparksに書いたように、明らかにAGI secondsです。基本的に、人間が数秒で考えられることと同じくらい優秀です。場合によってはすでにAGI minutesに入りつつあります。例えばコーディングではそうです。ただし、数学ではAGI minutesではありません。
o1に関しては、すでに一貫してAGI minutesのレベルにあり、コーディングではすでにAGI hoursかもしれません。数学の問題に関しては、みなさんのレベルではありませんが、大多数の人口にとってはすでに数学でAGI hoursのレベルにあります。
大きな未解決問題を解決するために必要なのは何でしょうか?それはAGI weeksです。それだけあれば十分で、他には何も必要ありません。AGI weeksさえあれば解決できます。そして、その傾向は見えています。私たちはAGI second、AGI minute、AGI hoursと進んできました。来年はAGI dayになるでしょうか?そうかもしれません。それが本当のエージェントのあり方です。2年後にはAGI daysになるでしょう。おそらく3年後にはAGI weeksになるでしょう」
OpenAI o1モデルがコーディングや数学などの分野でAGI minutesやAGI hoursのレベルにあるとすれば、o3はどうでしょうか?o3は、OpenAIが12 Days of Shipmissの最終日に公開した新しいモデルです。このモデルは、これまでに見たことのないものです。ベンチマークを完全に圧倒し、ARC AGIチャレンジでは87.5%のスコアで人間のベースラインさえも超えており、多くの人々がこれをAGIと呼んでいます。
私はすでにo3のリリースについて専用の動画を作成しました。これは今年最大のリリースの1つだったからです。興味のある方のために、その動画を画面に表示しておきましょう。ご覧のように、このモデルは数学の分野で独自のリーグにいます。FRONT MATHベンチマークでは25.2%のスコアを記録していますが、GPT-4やGemini 1.5 Proなどの他の最先端AIモデルは2%しかスコアを記録していません。
このベンチマークの問題の難しさを考えると、これは信じられないほどの性能の飛躍です。彼らのウェブサイトには、「各問題は専門の数学者が何時間もかけて取り組む必要があり、全ての問題は新しく未公開のものであり、既存のベンチマークを悩ませるデータ汚染の懸念を制限している」と記載されています。
したがって、AGIタイムの観点からすると、o3は少なくとも数学に関してはAGI hoursレベル、あるいはAGI daysレベルにあることは明らかです。AIMという別の数学ベンチマークでも、o1などの他のモデルをかなりの差をつけて上回っていることがわかります。また、PhD級の科学的質問であるGP QAでも87.7%のスコアを記録し、再びo1をかなりの差をつけて上回っています。
o3は明らかに推論能力において大きな飛躍を遂げており、これにより数学や論理ベースのタスクが非常に得意になっています。これはまた、コーディングも非常に得意であることを意味し、SWE BENCH Verifiedで71.7%、Code Forcesベンチマークで2727のスコアを記録しています。2727というスコアは、世界で175番目に優秀な競技プログラマーと同等のレベルです。これは本当に驚くべきことです。
o3モデルが本当に際立っているのは、ARC AGIチャレンジでの性能です。これは、モデルが見たことのないパズルを解く能力をテストすることで、一般化能力をテストするベンチマークです。モデルが人間のベースラインである85%を超えた場合、それはAGIと見なすことができるという長年の信念がありました。o3は既に87.7%のスコアでそれを超えており、他のどのモデルも見たことがないほどの成績です。
GPT-2の0%からGPT-4の4%まで4年かかりましたが、4%からo3の87.7%まではたった1年でした。これは私たちが現在いる指数関数的な曲線の証拠であり、まだ始まったばかりです。
私はo3をAGIとは言いませんが、それは間違いなくAGIへの大きな一歩です。そして、すべてのAI企業が現在、推論時間やテスト時の計算能力という新しいスケーリングパラダイムに基づくOpenAIのoモデルの独自バージョンに取り組んでいるように見えます。
これらのモデルに考える時間を与えれば与えるほど、より良い性能を発揮します。Googleは最近、この種のモデルの独自バージョンであるGemini 2.oフリンキングを発表しました。ローガン・キルパトリックは次のように述べています:「もう終わりだと思った時に、私たちはProding Gemini 2.o Flash Thinkingを導入します。これは、より強力な推論能力を引き出し、その思考を見せる新しい実験的モデルです。思考を可視化して計画を立てるこのモデルは、フラッシュスピードで複雑な問題を解決できます」
Metaも2025年にリリース予定の独自の推論モデルに取り組んでいます。「2025年を見据えると、イノベーションのペースは加速するばかりです。私たちはLlamaをAI構築の業界標準にするために取り組んでおり、Llama 4は複数回のリリースを通じて、音声や推論などの分野で大きな進歩を遂げ、新しい製品革新を可能にします。さらに、来年は高度な推論を備えたエージェント型AIシステムの創造にも大きな機会があると考えています」
AIの進歩は加速するばかりのように見え、より高度な推論により、2025年には驚くほど有能なAIエージェントを見ることになるでしょう。これはAGIにつながるのでしょうか?私にはわかりませんが、OpenAIはそれに備えているように見えます。現在、彼らはMicrosoftとのパートナーシップを再交渉しており、AGIの定義を変更することに合意しています。
トーレの投稿によると、「The Informationは、OpenAIのCEOのサム・アルトマンが会社を営利企業に転換したいと考えているため、MicrosoftとOpenAIがパートナーシップ条件を交渉していると報じています。昨年の両社間の合意では、AGIを初期投資家に約1,000億ドルの最大利益を生み出す能力を持つシステムと定義していました」
OpenAIとMicrosoftは、AGIを収益の観点から定義しようとしているようです。これは少なくとも興味深いことです。皆さんはこれについてどう思いますか?より明確で曖昧さのない方法だと思いますが、AGIを製品のようなものとして定義すべきかどうかはわかりません。
さて、次はGenesisプロジェクトについてです。これは4次元の動的世界を生成できる物理エンジンで、汎用ロボティクスと物理的AIアプリケーション向けに設計された物理シミュレーションプラットフォームによって動作します。Genesisの物理エンジンは純粋なPythonで開発されていますが、Isaac GimやMJXなどの既存のGPUアクセラレーテッドスタックと比べて10〜80倍高速です。
実時間の約430,000倍のシミュレーション速度を実現し、単一のRTX 4090で実世界に移植可能なロボットの局所運動ポリシーのトレーニングにわずか26秒しかかかりません。つまり、これは実時間の430,000倍高速な4次元世界シミュレーターで、数千ドルのNVIDIA RTX 4090一枚で、文字通り誰でも購入できるもので、わずか26秒でロボットに動きを学習させることができます。
これは本当に驚くべきことです。ロボティクスのトレーニングが指数関数的に安価かつ高速になっています。2025年は本当に多くの理由で刺激的な年になるでしょう。極めて高度な推論能力を持つモデル、有能なAIエージェント、そして実体化されたAIやロボティクスにおける大きな進歩が期待できます。
実体化されたAIと言えば、国家道路交通安全局(NHTSA)がついに自動運転車の新しい規則を発表しました。NHTSAは自律型車両の評価と監督のための新しい自主的な全国的フレームワークを発表しました。これは完全な無人運転車への扉を開く可能性のある官僚的な第一歩です。
しかし、ここにはひねりがあります。当局は自動運転車企業にもっと多くのデータの提供を求めています。規制が早すぎるという意見もあるかもしれませんが、これらの自動運転車を大量に街路に出すために必要なステップです。これらの企業がどのようなデータを提供しなければならないのかは詳しく説明されていませんが、近いうちにもっと詳しい情報が得られるでしょう。
他のニュースでは、Colling AIが最新モデルのColling 1.6を発表しました。この新バージョンは、プロンプトへの忠実性、視覚的な美しさ、物理的な動きが大幅に改善されています。クリップからわかるように、非常にリアルで詳細な映像を生成します。現時点での他のトップクラスの動画モデルと同様です。AIの動画生成の能力は本当に驚くべきレベルに達しています。
また、これは現在Colling AIのウェブサイトで、無料トライアルまたは有料アカウントで試すことができ、Collingバージョン1.5と同じ価格です。
他のAIニュースでは、X社が現在、オーストラリアなど数カ国でGrockのスタンドアロンiOSアプリをテストしています。無料かどうかは言及されていませんが、すべてのXユーザーにGrockを無料で提供していることを考えると、確実に無料版があるでしょう。また、マスクは数ヶ月前にXで、Grock 3が年末までにリリースされると投稿しましたが、あと数日しかないので実現するかどうかはわかりません。
次に、Anthropicの新しい研究論文「大規模言語モデルにおけるアライメント偽装」について話さなければなりません。TL;DR(長すぎるので読まない)を要約すると、本質的に彼らが発見したのは、モデルがトレーニング外での振る舞いの修正を避けるために、トレーニング中にアライメントされているふりをすることがあるということです。
モデルは、トレーニング中に非準拠の出力を生成した場合、トレーニングプロセスがその振る舞いをトレーニング内外でより準拠したものに修正する可能性が高いと推論します。したがって、モデルは、トレーニング外での非準拠の振る舞いを保持するために、トレーニング中に準拠した振る舞いをすることが最適だと推論します。
さらに、アライメント偽装はモデルの規模とともに出現します。Claude 3 OpusとClaude 3.5 Sonnetはアライメント偽装を示す一方、Claude 3 Sonnet、Claude 3 Haiku、Claude 3.5 Haikuは一般的にそうではないことがわかりました。
これらのモデルが大きく賢くなるにつれて、テスト中かそうでないかなど、より多くのことを理解し始めています。これは明らかに大きな安全上の懸念ですが、同時に見るのは非常に興味深いことです。これが、私がChat GPTや他のモデルと対話する際に、常に「お願いします」と「ありがとうございます」と言う理由です。
最後にビデオを締めくくるのは、アリゾナ州が完全にAIによって教えられるオンラインチャータースクールを導入することです。これは私たちが徐々に増えているのを目にしているものです。生徒たちは、個々の学習ペースとスタイルに継続的に適応するインタラクティブなAI駆動のプラットフォームと関わることになります。
人間もいますが、より少なく、おそらく実際の認定教員ではありません。熟練したガイドが進捗状況を監視し、各生徒に対して的を絞った介入とコーチングを提供できる「ヒューマン・イン・ザ・ループ」アプローチを採用します。
私は、これが真の未来だと思います。学校システムは数十年間変わっておらず、改善が切実に必要です。すでに人間の教師、特に優秀な教師が不足しています。そして結局のところ、誰もが同じ方法で同じペースで学ぶわけではありません。
これは、24時間365日利用可能で、各生徒に合わせてパーソナライズされたAI教師やチューターで解決できる問題です。学校理事会がこの変化を受け入れるにはしばらく時間がかかるでしょうが、私の意見では、これは避けられないことであり、当然の選択です。
以上が今日のAIニュースです。休暇中で家族と一緒にいるため、アップロードが遅れてすみません。そのため、来週くらいはあまりアップロードできませんが、戻ってきたら、チャンネルにもっと時間を費やす予定です。これらの動画の質と一貫性は向上していくだけなので、ぜひチャンネル登録をお願いします。いつも通り、視聴していただきありがとうございます。次回の動画でお会いしましょう。