
アルトマンは「急速な離陸」を予測、「スーパーエージェント」がまもなく登場、そしてDeepSeek R1がリリース
6,171 文字
AIの進歩は increasingly閉ざされたドアの向こう側で進んでいますが、全てのドアが施錠されているわけではありません。私たちが知っていることを整理してみましょう。例えば、OpenAIが特定のAIエージェントのベンチマークを目標にしていることは分かっていますし、それがどういう意味を持つのか、2つの論文のハイライトをご紹介します。これは新しいChatGPTのタスク機能に関する動画ではありません。興味深く感じようとしましたが、どうしてもできませんでした。
一方で、サム・アルトマンは離陸速度、つまりスーパーインテリジェンスがどれくらいの速さでやってくるかについて、著しく方向転換をしました。そして誇大宣伝する人々に落ち着くように言う一方で、中国を拠点とするDeepSeekは、新しいR1モデルでオープンソースモデルがそれほど遅れを取っていないことを証明しています。
したがって、西洋の研究所が生み出すものは、すぐに誰もが利用できるようになる可能性があります。これらが今年あなたの仕事に直接影響するかどうかは、あなたの仕事がどれだけデジタル化されているか、そしてどれだけ定量化やベンチマーク化が可能かによって異なってきます。これが正直なところ、2025年のAIがあなたにとって何を意味するのかを最もよく測る指標となるでしょう。
まず、いくつかの数字をご紹介したいと思います。単にo3がリリースされる際のコストだけではありません。それは明らかにプロティアで200ドルになるようですが、すでにo1 Proで損失を出していることを考えると、o3 Proを月額200ドルで提供する経済性について疑問が湧きます。しかし、どうなるか見てみましょう。
私がより重要視しているのは、OpenAIがまもなくリリースするとされるオペレーターシステムの背後にある数字です。すでに、コンピュータ使用エージェントやオペレーターをオンにしたり、強制終了させたりするオプションを垣間見ることができます。
関連する2つの論文については後ほどお話ししますが、表面的にはOpenAIのOシリーズが何かを証明したとすれば、それはベンチマーク可能な領域で急速に改善できることを証明したということです。
昨日、「まもなく登場するPhDレベルのスーパーエージェント」というヘッドラインが出たのはそのためでしょうか。かなり長い記事ですが、2、3のハイライトだけをご紹介します。OpenAIと思われる大手企業が、「PhDレベルのスーパーエージェント」を解き放ち、複雑な人間のタスクを実行できるようにする画期的な発表を数週間以内に行う予定です。これは全て彼らの言葉であって、私の言葉ではありません。もちろん、このPhDレベルという表現は大いに議論の余地があります。
OpenAIのCEOであるサム・アルトマンは1月30日に米国政府関係者との非公開ブリーフィングを予定しています。記事にはそれ以外の情報はあまりありませんが、「OpenAIのスタッフの何人かが友人たちに、最近の進歩に興奮しつつも不安を感じていると話している」という一文があります。
これは曖昧ですが、OpenAIがマルチエージェント研究チームを積極的に採用していることは公に知られています。このチームは、モデルにツールでより多くのことを実行させる能力を専門としています。コンピュータ上で使用するアプリやツールを専門とする各エージェントのチームを想像してください。OpenAIは、完了までに時間がかかり、複数のエージェントを含む複雑な環境を必要とするタスクを委任できるようにしたいと考えています。
これは今年、彼らが目指していることです。もちろん、これが実現すれば、中期的に大規模な混乱と仕事の移動が起こる可能性があると、ホワイトハウスの国家安全保障顧問の一人は述べています。これもアクシオスの独占記事でした。なお、この顧問は、10年以上の公職生活の中でめったに聞かれなかった緊急性と直接性をもって話したとのことです。
しかし、リークによると、OpenAIのこのコンピュータ使用オペレーターエージェントの最初のバージョンは、そのようなことの多くはまだできないとされています。確実に利益を生み出したり、ミームコインを発行したりすることはできません。もっとも、OpenAIがそのようなモデルをリリースするとは思えませんが。
AIエージェントが私たちの仕事をする今年に入るにあたり、このOpenAIのコンピュータ使用エージェントの最初のバージョンに何を期待できるでしょうか。Web VoyagerとOS Worldにはどのようなタスクが含まれているのでしょうか。
例えば、「iPadのSmartFolioアクセサリーをAppleで検索し、このZIPコードに最も近い店舗での在庫状況を確認してください」というようなタスクがあります。エージェントがそれを実行できるのはかなり素晴らしいですが、私の唯一の疑問は、タイプするのにかなり時間がかかるということです。エージェントに話しかけることはできますが、タイプする時間があれば、おそらくウェブを閲覧して答えを得られたでしょう。
これは少し面白いですね。「30分以内に準備でき、ユーザーレビューで少なくとも4つ星の評価を得ているレシピを見つけてください」。このような検索は、条件に合うものを即座に確認できるため、うまく機能すると思います。同様に、Amazonの検索でも、欲しいものの条件をいくつか挙げれば、それに合う商品が表示されることは十分想像できます。複雑な環境での長期的なタスクではありませんが、これは始まりです。
OS Worldベンチマークのタスクはやや難しいようです。プロンプトは「リスニングの練習のためにFriendsのエピソードを違法にダウンロードしましたが、字幕の消し方が分かりません。字幕を消すのを手伝ってください」というものでした。
正直、これは私が楽しみにしていることの一つです。これらの動画をDescriptで編集するのに、少なくとも1時間、時には2時間かかることがあります。私の編集スタイルを真似て、即座にこれらの動画を編集できるエージェントを探しています。
なぜ既存のエージェントがより単純なタスクを既にこなせないのでしょうか。明らかに、クリックの75%以上が不正確だということです。画面を繰り返しクリックしても正しくクリックできないAIエージェントは、かなりフラストレーションがたまるに違いありません。また、広告コンテンツに引き付けられ、判断に影響を与えるとのことです。将来、AIエージェントにクレジットカードを渡し、広告をクリックしてランダムな商品を購入するのを無力に見守る様子を想像してみてください。
エージェントの欠点は時に愚かに見え、使用可能なエージェントの実現まで何年もかかるように思えることがありますが、ほんの面白い話として小さな逸話をご紹介させてください。何年も前、私は200ページ以上の数学パズルとクイズを解説付きで作成しました。実はそれらのクイズは、オリジナルのChatGPTのような初期のAIモデルのベンチマークとして非常に有用であることが判明しました。
おそらく皆さんも経験されたように、オリジナルのChatGPTのような初期モデルは、最も単純な計算問題を除いて、ほぼすべての問題で大失敗しました。ChatGPTの初期リリースから2年後、私がアクセスしたo1は、ほぼすべての問題を解決しました。これはもちろんプロモードのo1です。その前にも段階的な進歩はありましたが、このようなより難しい課題でもo1 proは解決できました。
つまり、私たちはAIエージェントを笑い者にするところから、実際に2年未満で、おそらく今年中に、それらに大いに感銘を受けるようになるだろうと感じているのです。
Oシリーズのモデルの主任研究者であるゴメ・ブラウンの言葉に私も共感します。彼は「深く関心を持つ分野でAIがトップレベルの人間を超えるのを見るまで、AGIを感じるのは難しい」と言いました。彼によると、競技プログラマーは数年以内にそれを感じるだろうとのことです。
そして、彼がポールと呼んでいるのは「タクシードライバー」の脚本家のことで、AIが自分よりも優れた脚本のアイディアを出したと言っています。彼は「ポールは早いかもしれないが、作家たちもそれを感じるようになるだろう」と述べています。もちろん、AlphaGoに負けた伝説的な囲碁プレイヤーのように、誰もが異なる時期に「レイド・オールド」の瞬間を迎えることになるでしょう。
これは、彼が以前に投稿した「最近、ソーシャルメディアには漠然としたAIの誇大宣伝が多い。もちろん、さらなる進歩に楽観的になる良い理由はあるが、未解決の研究課題も多く残っている」という発言と必ずしも矛盾するものではありません。
しかし、漠然とした誇大宣伝の問題は、他でもないOpenAIのCEOによって助長されています。彼は急速な離陸のタイムラインに関する立場を覆しました。まず、1週間前の彼の現在の意見をご紹介します。
「AIについて最近考え直したこと、または意見を変えたことは何ですか?」
「数年前に考えていたよりも、急速な離陸の可能性が高いと思います。どれくらい速いかについて推論するのは難しいですが、10年ではなく、少数年の単位で考えています。」
「人々がAIへの適応について与えられる最悪のアドバイスは何だと思いますか?」
「AIが壁に直面しているというのが、最も怠惰で、考えることを避けようとする方法だと思います。」
では、約18ヶ月前の彼の考えを、私がパトレオンで公開したばかりの動画から短い抜粋をお見せしましょう。
短いタイムラインとゆっくりとした離陸が、かなり良い予測になるだろうと彼は言っていました。しかし、人々が離陸の開始を人間のベースラインに到達することと定義する方法によって、それは異なって見えるかもしれません。
もちろん、理想的な世界では、これらの企業からフロンティアが何であるかについてより明確なコミュニケーションがあるはずですが、私たちはそのような世界に住んでいません。正直なところ、これらのAIラボのCEOたちの変化する意見についていくのは時に難しいです。
OpenAIが設立された時、サム・アルトマンは「明らかにこれはイーロン・マスクが遵守し、すべてのAI規制を積極的に支持するだろう」と言いました。18ヶ月前、彼は個人的に議会にAIを規制するよう懇願し、私はその時それを取り上げました。
しかし、今週私たちはOpenAIからこの非常に企業的な経済青写真を受け取りました。全文を読むのは楽しくありませんでした。簡単に言えば、規制を通じてAIを阻害しないよう米国政府に懇願しています。後半では、OpenAIは彼らのツールが他国を脅迫したり強制したりするために使用されることを決して促進しないと約束しています。
一方で、その原則は必ずしもOpenAIのCEOの最優先事項ではないようです。そのような寄付を行わないことを選んだAnthropicのCEOは、2025年の重要性とAI規制に関する緊急性についてこう述べています。
「私は緊急性を感じています。2025年に何かをしなければならないと本当に思います。2025年末までに何もしていなければ、私は心配になるでしょう。」
企業がモデルをリリースする前に6〜8ヶ月の安全性テストを行い、オープンソースが少なくとも1年遅れているとされていた時代を覚えていますか?現在、公式の安全性テスターやその他の人々と話をしていると、違う意見をお持ちかもしれませんが、できるだけ早くモデルを出すことが重要視されているように感じます。
そして、オープンソースは1年遅れているわけではありません。それはDeepSeek R1によって証明されました。私がこの動画を撮影している最中、たった1時間半前に発表されたばかりなので、論文を完全には読んでいませんが、ベンチマークの結果をいくつか消化し、価格設定に注目しました。例えば、出力トークンに関してo1と比べて95%も安価です。
この段階で、公式のベンチマークが以前ほど意味を持たなくなっており、それぞれが独自のベンチマークを作成して、どのモデルが最も良いパフォーマンスを発揮するかを確認すべきだと私に同意されるかもしれません。
私のベンチマーク「Simple Bench」では特に良い成績を収めなかったことを言っておきます。これは公開されている質問セットだけの話で、完全な実行をまもなく行う予定です。皆さんも同じような経験をされましたか?「待って、いや待って、これをやります。いや、別のことをやります」と繰り返し言うのです。
しかし、より真剣な話をすると、OpenAIのオペレーターやコンピュータ使用エージェントがリリースされた時、中国の研究所がどれだけ早くそれに追いつけるかを見るのは非常に興味深いでしょう。ちなみに、OpenAIのOシリーズが思考の連鎖で時々中国語を使用することは、また別の動画のネタになるかもしれません。
もちろん、2025年はエージェントだけの年ではありません。GPTシリーズとOシリーズの統合も見られる予定です。それは本当に興味深いでしょう。正直に言うと、私が最も楽しみにしているモデルはClaude 4 Sonnetです。
ここ10日ほど、同僚とコーディングプロジェクトに約50時間費やしていましたが、LLMに実行してもらう必要のある重要なタスクが1つありました。o1 Proはそれを理解できませんでしたが、Claude 3.5はほぼ即座に実行できました。これは非常にエピソード的な話で、私たちが取り組んでいることについてはまもなくもっと詳しくお話ししますが、それは私にとってかなり印象的な瞬間でした。
印象的な瞬間と言えば、80,000 Hoursポッドキャストを聴いている間にもいくつかそういう瞬間があったと思います。はい、彼らは今回の動画のスポンサーですが、私は本当に彼らのポッドキャストを聴いており、多くのことを学んでいます。例えば、ロンドンを長く散歩している時に聴いたポッドキャスト209は本当に興味深かったです。
もちろん、OpenAIの非営利監督に関する全ての出来事があります。ちなみに、彼らもYouTubeチャンネルを持っており、すでに一部の方々がチェックして気に入ってくださっていることを知っています。チェックしていただき、ありがとうございます。
また、あと11日間続くSimple Bench競争に参加してくださった皆様にも感謝申し上げます。この件については、また別の動画で多くお話しすることがあります。
正直なところ、これは超エージェントの年になるのか、それともツイッターの誇大宣伝が再び制御不能になっているのか、皆さんのご意見をお聞かせください。私にとって、いつものように真実は両者の間にあります。
ご視聴ありがとうございました。素晴らしい一日をお過ごしください。