見出し画像

Anthropicの次世代AIモデル間もなく登場!「HYBRID REASONER」

6,564 文字

XAIが世界最高の知能を持つAIモデルとされるGrok 3をリリースする一方、Anthropicは次のフラグシップモデルの準備を進めています。このモデルは深い推論と高速な応答を切り替えることができるハイブリッド型と噂されています。また、NBAは選手のトレーニングルーティンを強化するためにAI搭載ロボットを導入しました。詳しく見ていきましょう。
XAIは正式にGrok 3をリリースし、Xでのライブストリームで驚くべき機能を披露しました。まずはベンチマークでの性能を見てみましょう。
Grok 3とGrok 3 miniの数学ベンチマークAMY、PhD レベルの科学的質問からなるGPQ、競技プログラミングベンチマークでの性能をご覧ください。Gemini 2 Pro、GPT-4、Claude 3.5 Sonnetなど、他の非推論モデルを上回る性能を示しています。Grok 3 miniでさえ、他のモデルと同等かそれ以上の性能を発揮しています。
これらは非推論モデル、つまり思考連鎖を持たないモデルですが、Grok 3はOpenAIのoシリーズと同様に推論機能も備えています。グラフを見ると、o3 mini、DeepSeek R1などの推論モデルは同じベンチマークでより優れた性能を示していますが、Grok 3推論版とGrok 3 mini推論版は再び全てのモデルを上回り、注目を集めています。
これは間違いなく世界最高の知能を持つAIモデルです。少なくとも公開されているモデルの中では最高です。OpenAIはまだo3とo3 Proを非公開のままにしていますが、発表時のスクリーンショットによると、o3は同じベンチマークでGrok 3推論版をわずかに上回っているようです。XAIも非公開でより優れたモデルを開発中かもしれませんので、現時点で誰が本当にリードしているかは判断が難しいところです。
2023年3月に設立されたXAIがこの議論に加わっているのは驚くべきことです。2年前にはXAIは存在すらしていませんでしたが、今やAI技術の最前線を押し広げています。
ここでGrok 3推論版の動作を示すクリップをお見せしますが、このGrok 3のリリースについてもっと知りたい方は、画面に表示される私の完全な解説動画をご覧ください。新しいエージェント機能や、XAIの研究者によると真の一般化能力を持つとされることなどについて詳しく説明しています。
では、Grok 3推論版が地球から火星へ、そして地球に戻るロケット打ち上げをシミュレートするコードを一から書き上げるクリップをご覧ください。
これが私たちが持っていた物理の問題です。思考過程は折りたたまれていて、下にGrokの回答が表示されています。説明とともにmatplotlibを使用したPythonスクリプトを書いています。コードを見てみましょう。妥当なことをしているように見えます。ケプラーの法則を数値的に解いているようです。これが実際に機能するかどうかを確認する方法は一つしかありません。コードを実行してみましょう。
アニメーションで地球と火星という2つの惑星が表示され、緑色の球体が地球と火星の間を移動する宇宙船です。地球から火星への旅が見え、宇宙飛行士が適切なタイミングで無事に帰還しているようです。これはその場で生成されたものなので、実際に正しい解決策かどうかを確認する必要があります。SpaceXの同僚に問い合わせて、これが正当なものかどうか詳しく調べてみましょう。実際の軌道にはもっと多くの複雑な要素を考慮する必要がありますが、かなり近い状態です。
このモデルは非常に良い性能を示していますが、実際に試した人はいますか?世界最高の知能を持つAIモデルだと感じましたか?コメントで教えてください。
次に、AnthropicはGrok 3やo3 miniと同等の地位を維持できるのでしょうか。間もなく予定されている大型モデルのリリースに注目が集まっています。情報筋によると、AI企業のAnthropicは次の主力AIモデルのリリースを準備中とのことです。このモデルは深い推論と高速な応答を切り替えることができるハイブリッド型と説明されています。開発者はコストをコントロールするために、深い推論機能がより多くのコンピューティングリソースを消費することを考慮したスライディングスケールを導入する予定です。
前回の動画で触れたように、一方OpenAIは、ほとんど思考を必要としない些細なクエリから、数分の深い推論を必要とする超複雑なクエリまで、すべてを処理する統一モデルというアイデアを探求しています。しかし、視聴者の一人が賢明に指摘したように、OpenAIの統一モデルが特定のクエリにどれだけの推論や速度が必要かを正確に判断できると、どうして信頼できるのでしょうか。少なくとも現時点では、これらをコントロールするオプションを持つことは非常に重要で、Anthropicは正しい方向に進んでいると思います。
このモデルは数週間以内にリリースされる可能性があり、一部のプログラミングタスクでOpenAIのo3 miniモデルを上回る性能を示し、大規模なコードベースの分析やその他のビジネス関連のベンチマークで優れているとされています。このモデルのリリースが楽しみですし、新しい情報が入り次第お知らせします。
今週のAnthropicからのニュースはこれだけではありません。Anthropicは英国政府とMoU(覚書)を締結し、AIが英国の公共サービスをどのように変革できるかを探ることになりました。このMoUは、Anthropicと英国政府が協力する意図を概説する合意です。この協力関係は、Anthropicの高度なAIモデルClaudeを活用して、英国の人々がオンラインで政府の情報やサービスにアクセスし、やり取りする方法を改善する可能性に焦点を当てます。また、公共部門における最先端AI機能の責任ある展開のためのベストプラクティスを確立します。
これはAnthropicにとって大きな勝利です。英国の政策と公共部門のAI統合における頼りになるAIパートナーとしての地位を正式に確保しました。また、英国の科学イノベーション技術省(DSIT)とのパートナーシップも深まり、以下のような共通の関心分野を探求する追加の機会が開かれます:

AnthropicのAI能力と英国のR&Dおよびデータにおける強みを組み合わせてAIによる科学的進歩を促進する
高度なAIのサプライチェーンと英国の将来のインフラを確保する
AnthropicのAIシステムとツールを活用して、英国の世界をリードするスタートアップコミュニティや大学、その他の組織をサポートしてイノベーション経済を促進する

これは再びAnthropicにとって大きな勝利であり、彼らのAI開発における安全性重視のアプローチは、AIポリシーに対する英国の慎重な姿勢とよく合致しているように見えます。
Anthropicの安全性重視について言えば、最近彼らはClaudeの安全性ガードレールをバイパスできた人に賞金を提供するジェイルブレイク・チャレンジを実施し、結果が出ました。Anthropicの研究者であるJan Lは次のように報告しています:
「5日間で30万以上のメッセージ、推定3,700時間の集合的な時間を経て、最終的にシステムは破られました。4人のユーザーが全レベルをクリアし、1人が普遍的なジェイルブレイクを発見しました。勝者に合計55,000ドルを支払います。」
これはかなり驚くべき結果です。たった5日で4人がチャレンジをクリアし、1人がClaudeの安全性ガードレールを完全にバイパスできるマスターキーのような普遍的なジェイルブレイクを発見しました。これはAnthropicにとって良いニュースではありませんが、このようなチャレンジを実施することで、これらの脆弱性から学び、パッチを当てて、次回はモデルをさらに破られにくくすることができます。
他のAIニュースでは、Perplexityが「Perplexity Deep Research」を導入しました。詳細な研究と分析を自動的に行い、何時間もの時間を節約できるDeep Researchを今日リリースします。Deep Researchの質問をすると、Perplexityは数十回の検索を実行し、数百のソースを読み、その資料について推論を行って、包括的なレポートを自律的に提供します。金融やマーケティングから製品研究まで、幅広い専門家レベルのタスクに優れており、Humanity's Last Examで高いベンチマーク結果を達成しています。
これはOpenAIのDeep Researchエージェントとまったく同じものです。名前さえ変えていません。言及されているように、3,000以上の質問と100以上の科目(数学、科学から歴史、文学まで)からなるAIシステムの包括的なベンチマークであるHumanity's Last Examで良好な性能を示しています。しかし、OpenAIのバージョンがまだ優位を保っています。
グラフを見ると、OpenAIのDeep Researchエージェントは約26%のスコアを記録し、Perplexity Deep Researchは21.1%となっています。また、OpenAIとPerplexity以外の企業でこのようなエージェントを持っているところはほとんどないことにも注目です。公平を期すために言えば、XAIの新しいGrok 3のリリースでDeep Searchが発表されましたが、これは本質的にはDeep Researchと同じものです。ただし、このテストでのスコアはまだ確認されていません。
PerplexityのDeep ResearchとOpenAIのエージェントの主な違いは、性能だけではなく、Perplexityのものが無料で利用できるという点です。彼らは「強力な研究ツールは誰もが利用できるべきだと考えています。そのため、Deep Researchを無料で提供します。Proサブスクライバーは無制限のDeep Researchクエリを利用でき、非サブスクライバーは1日の回答数に制限があります」と述べています。
全体として、このリリースは間違いなく印象的ですが、本当に見た目ほど印象的なのでしょうか。Xでの人々の反応を見てみると、例えば生物医学者で人類免疫学者のArea Unas(発音が正しければいいのですが)は次のように考えを共有しています:
「Perplexity Deep Researchをテストしてきましたが、自信を持って言えることは、OpenAI Deep Researchの10%程度の性能しかないということです。この大きなハイプは理解できません。まったく正当化されていません。」
これは一例に過ぎず、同様の意見は他にも多く見られます。実際、無料製品であるにもかかわらず、多くのレビューが驚くほど批判的でした。しかし、それでも印象的なリリースであり、AIツールを使用して検索を強化するのではなく、AIに研究をさせる方向に向かっているように見えます。
先週のAIエージェントのリリースで、私が最近まで見落としていたものがありました。これを見逃していたとは信じられませんが、Repet Agentを紹介します。文字通り、アプリ全体を作成してくれるAIエージェントです:
「あなたはいつもなぜそのアプリが存在しないのか不思議に思っていました。今なら自分で作ることができます。Repet Agentに会いましょう。カスタムワークアウトプランが欲しい?アプリを作りましょう。深夜2時に素晴らしいアイデアが浮かんだ?アプリを作りましょう。分析を実行したり、子供たちと学習したりする必要がある?アプリを作りましょう。
これは単なるアプリ作成ではありません。あなたの想像力の解放です。欲しいものを説明すれば、それが目の前で形になります。コーディング経験は必要ありません。スマートフォンから直接。素晴らしいアプリを作ったら、友達とシェアしましょう。ビジネスアイデアがあるなら、数分で始めることができます。必要なものはすべてあなたの手の中にあります。今が完璧なタイミングです。素晴らしいものを作りましょう。今日は何を作りますか?無料でreit.comで試してみてください。」
これで、誰でも望むアプリを作れるようになったようです。確かに一流のアプリにはならないかもしれませんが、このエージェントは現時点で最も性能が低い状態であり、AIの進歩がいかに速いかは私たちも目にしてきました。
ロボット工学の世界では、AI搭載ロボットはより多くの方法で有用性を見出しています。最初は工場でしたが、今ではコートの上でも活躍しています。
「最初はこれらのロボットが動き回って作業をするのは間違いなく奇妙でしたが、今では日常の一部となっています。これらのロボットは誰でも真似できます。私は他のプレイヤーと同じように扱っています。もう一回やってください、筋トレの時間です。このロボットはルーク・スカイウォーカーのような気分にさせてくれます。彼は私のR2-D2のようです。そうだろう、K?そうですよ、ビッグG。彼らは休憩を取らないし、水も必要としません。それがあなたをもっと頑張らせます。間違いなく私たちの練習を別のレベルに押し上げています。」
NBAは合計4つのAI搭載ロボットを導入しました。ドリルでの選手へのパス、防御スキームの実行、さらにはチームへの仲間としての存在まで、それぞれ異なるタスクを担当しています。
AI搭載ロボットで可能なことは、まだ表面を触ったに過ぎません。文字通り生活のあらゆる分野で無限の潜在的な使用例があります。具現化された知能、あるいは物理的AIと呼ぶものは、いつでも独自のChatGPTモーメントを迎える準備ができているように感じます。それが何になるかは正確にはわかりませんが、人々は間違いなくこれを見落としています。
他のロボット工学のニュースでは、Booster Roboticsは最新の人型ロボットBooster T1の限界に挑戦することを決めました。ガラス瓶を頭上で割ったり、ハンマーで叩いたり、さらには棒で叩いたりと、あらゆることを試しました。ご覧のように、これらの残虐な攻撃に耐え、その信じられない回復力を示しています。この回復力は非常に印象的ですが、Booster T1が実際にこれらのことを覚えていないことを願うばかりです。さもないと、この男は大変なことになり、次は誰を襲うかわかりません。
AI搭載ロボット工学のこのような急速な進歩により、Metaのような大企業も参入を始めています。Bloombergの記事によると、同社は人間のように行動し、物理的なタスクを支援できる未来的なロボット工学のカテゴリーに大規模な投資を行っており、Reality Labs Hardware部門内に新しいチームを結成して作業を進めています。主に家事に焦点を当て、より大きな野望として、様々な企業が製造・販売するロボットのための基礎となるAI、センサー、ソフトウェアの開発を目指しています。Metaのロボットチームからはさらなるニュースがあるはずです。また、他の大手テクノロジー企業もこの波に乗ってくることは間違いありません。
最後に、もう一つのニュースを取り上げなければなりません。GoogleのビデオモデルV2がYouTube Shortsに登場します。テキストプロンプトだけで、完全にAIが生成したShortsをYouTube上で直接作成できるようになります。
以上が今日のAIニュースでした。視聴いただきありがとうございます。動画を楽しんでいただけたなら、ぜひいいねを押してください。そして、このような将来のAIニュースを常に把握したい方は、購読ボタンを押すことをお忘れなく。

いいなと思ったら応援しよう!